偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<del id="xewt2"><b id="xewt2"><listing id="xewt2"></listing></b></del><strong id="xewt2"></strong>

<center id="xewt2"><tbody id="xewt2"></tbody></center>

<abbr id="xewt2"><menuitem id="xewt2"><strike id="xewt2"></strike></menuitem></abbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型精華

發(fā)布于 2024-4-28 09:41

瀏覽

0收藏

拋棄傳統(tǒng)方法，只采用Transformer來解碼真實場景！

近日，來自Meta的研究人員推出了SceneScript，只需要70M參數(shù)，僅采用編碼器解碼器架構，就能將真實世界的場景轉化為幾何表示。

Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型-AI.x社區(qū)

論文地址：https://arxiv.org/pdf/2403.13064.pdf

SceneScript是一種用于表示和推斷場景幾何圖形的方法，使用自回歸結構化語言模型和端到端學習。

SceneScript可以助力AR和AI設備理解物理空間的幾何形狀，比如下面這個演示，利用Aria眼鏡拍攝的素材，SceneScript可以獲取視覺輸入并估計場景元素（墻壁、門窗等）。

Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型-AI.x社區(qū)

是不是感覺一下子走到了虛擬和現(xiàn)實的交界？

用這個技術來幫助開發(fā)AR或者MR游戲應該是妥妥的，小編表示期待地搓搓手。

再看下面這個，將SceneScript技術疊加到Meta Quest的顯示畫面上，現(xiàn)實世界瞬間變得方方正正，還挺萌的。

Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型-AI.x社區(qū)

同時我們也可以發(fā)現(xiàn)，SceneScript預測的場景元素可以任意擴展，不斷包含進來新的建筑特征、對象，甚至還可以將對象進行分解。

Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型-AI.x社區(qū)

SceneScript是Meta RealityLabs Research的一個研究項目，整個模型分為編碼器和解碼器兩個部分。

其中，點云編碼器由一系列3D稀疏卷積塊組成，這些卷積塊將大點云匯集到少量特征中。

隨后，Transformer解碼器利用編碼器的特征作為交叉注意力的上下文，自回歸生成token。

Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型-AI.x社區(qū)

編碼器和解碼器都只有大約35M參數(shù)，整個模型訓練了3天，大約200k次迭代。

模型在實際應用中的推理速度也很不錯，即使直接使用PyTorch中原始的Transformer（未經(jīng)優(yōu)化），解碼256個token（相當于一個包含墻壁、門、窗和對象邊界框的中等大小的場景），也只需要大約2-3秒。

SceneScript是完全在模擬器中訓練的，使用Project Aria眼鏡上捕獲的內容序列，而沒有使用真實世界的數(shù)據(jù)。訓練完成之后，模型又在真實場景中進行了驗證。

另外，在適應其他設備時，也可以針對不同類型鏡頭的不同相機型號對模型進行微調。

不過作者也表示，SceneScript僅在室內場景中進行了訓練，因此對室外場景的推斷可能會導致不可預測的輸出。

目前，SceneScript僅供Meta的內部研究團隊使用。

SceneScript

區(qū)別于傳統(tǒng)的將場景描述為網(wǎng)格（meshes），體素網(wǎng)格（voxel grids），點云（point clouds）或輻射場（radiance fields）的傳統(tǒng)方法，

SceneScript使用場景語言編碼器-解碼器架構，直接從編碼的視覺數(shù)據(jù)中推斷出結構化語言命令集。

工作流程

Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型-AI.x社區(qū)

如上圖所示，給定一個以自我為中心的環(huán)境視頻，SceneScript直接預測由結構化場景語言命令組成的3D場景表示。

第一行表示整個工作流程，放大一下就是下面這樣子：

SceneScript先從VR眼鏡等設備中，拿到圖像或點云表示的視覺信息，

Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型-AI.x社區(qū)

然后將視覺信息編碼為描述物理空間的潛在表示形式，

Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型-AI.x社區(qū)

再將潛在表示解碼為簡潔、參數(shù)化且可解釋的語言（類似CAD），

Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型-AI.x社區(qū)

最后，3D解釋器將上面的語言轉換為物理空間的幾何表示。

Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型-AI.x社區(qū)

優(yōu)勢

SceneScript以純文本形式自回歸地預測手工設計的結構化語言命令，這種形式有幾個明顯的優(yōu)點：

首先，作為純文本，占用空間很小，將大型場景的內存要求降低到只需要幾個字節(jié)。

其次，這種命令旨在產生清晰且定義明確的幾何圖形，并且，模型所使用的make_door（*door_parameters）等高級參數(shù)命令，在設計上是可解釋、可編輯和語義豐富的。

另外，可以通過簡單地向語言中添加新的結構化命令，來無縫集成新的幾何實體。

最后，這種解決方式也為未來一些潛在的新應用提供了參考，例如編輯場景、查詢場景或者聊天交互。

另外，由于語言模型需要大量數(shù)據(jù)來訓練響應的結構化語言命令，而對于當前應用沒有合適的數(shù)據(jù)集。

為了訓練SceneScript，研究人員于是自己造了一個名為Aria Synthetic Environments的大規(guī)模合成數(shù)據(jù)集，該數(shù)據(jù)集由100k個高質量的室內場景組成，包括以自我為中心的逼真場景演練和對應的標簽。

對于每個場景，使用來自Project Aria的一整套傳感器數(shù)據(jù)來模擬以自我為中心的軌跡，還包括深度和實例分割，而架構布局的基本事實采用上面提到的自定義的結構化語言命令給出。

Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型-AI.x社區(qū)

上圖展示了Aria生成場景的隨機樣本，顯示了布局、燈光和物體放置的多樣性，以及俯視圖、模擬軌跡（藍色路徑）、深度、RGB和對象實例的渲染，最后是場景點云。

SceneScript可以輕松擴展到新任務，同時保持視覺輸入和網(wǎng)絡架構的固定性。

網(wǎng)絡架構

SceneScript 的管道是一個簡單的編碼器-解碼器體系結構，它使用視頻序列并以標記化格式返回SceneScript語言。

作者研究了三種編碼器變體：點云編碼器、擺姿勢圖像集編碼器和組合編碼器，結果表明，解碼器在所有情況下都保持不變。

編碼器從場景的視頻演練中以1D序列的形式計算潛在場景代碼。解碼器設計為將這些1D序列用作輸入。這樣就可以在一個統(tǒng)一的框架內整合各種輸入模式。

Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型-AI.x社區(qū)

上圖展示了SceneScript的核心管線。原始圖像和點云數(shù)據(jù)被編碼為潛在代碼，然后自回歸解碼為描述場景的一系列命令。使用自定義構建的解釋器顯示可視化效果。

值得注意的是，對于本文中的結果，點云是使用Aria MPS從圖像中計算出來的，沒有使用專用的RGB-D / 激光雷達傳感器。

實驗結果

Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型-AI.x社區(qū)

上圖為在Aria Synthetic Environments測試集上，SceneScript模型和SOTA方法之間的定性比較。

像SceneCAD這樣的分層方法會受到錯誤級聯(lián)的影響，這會導致邊緣預測模塊中缺少元素。而RoomFormer（一種拉伸為3D的2D方法）主要受到輕微捕獲的場景區(qū)域的影響，這些區(qū)域在密度圖中留下了不明顯的信號。

Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型-AI.x社區(qū)

表中數(shù)據(jù)給出了Aria合成環(huán)境的布局估計，SceneScript方法與近期相關工作之間的定量比較。

本文轉自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/2RxgPPkdmaIgR_u-Zdsjfw??

標簽

贊

收藏

回復

舉報

回復

相關推薦

300億參數(shù)！蘋果推出多模態(tài)大模型MM1，能解釋圖像和文本數(shù)據(jù)

laojean ? 2876瀏覽 ? 0回復
80M參數(shù)打平GPT-4！蘋果發(fā)超強上下文理解模型，聰明版Siri馬上就來

duhorse ? 2934瀏覽 ? 0回復
文本直接生成多視角3D圖像，Meta推出創(chuàng)新模型

Aceryt ? 2829瀏覽 ? 0回復
Meta無限長文本大模型來了：參數(shù)僅7B，已開源

輕薄滴假象 ? 3065瀏覽 ? 0回復
浙大、螞蟻集團推出MaPa：文本生成超真實3D模型

Aceryt ? 3445瀏覽 ? 0回復
上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場景、任意組合！

angel ? 3259瀏覽 ? 0回復
清華推出首個通用城市時空預測模型UniST，零樣本場景開箱即用｜KDD2024

Crystalcxt ? 3112瀏覽 ? 0回復
谷歌推出全新模型，將Transformer與NAR相結合

Aceryt ? 2736瀏覽 ? 0回復
騰訊放大招，超Meta！史上參數(shù)最大，開源專家混合模型

Aceryt ? 2231瀏覽 ? 0回復
Meta AI 開源 Llama 3.3：全新 70B 多語言大語言模型 (LLM)

Halo咯咯 ? 3609瀏覽 ? 0回復
字節(jié)跳動AI研究院發(fā)布FullStack Bench和SandboxFusion：用于評估真實編程場景中LLM的綜合基準測試工具

Halo咯咯 ? 3408瀏覽 ? 0回復
大模型Transformer架構之編碼器(Encoder)和解碼器(Decoder)

AI探索時代 ? 4766瀏覽 ? 0回復
Transformer編碼器與解碼器和神經(jīng)網(wǎng)絡之間的關系

AI探索時代 ? 2535瀏覽 ? 0回復
Meta開源“記憶層”，重塑Transformer架構大模型

Aceryt ? 2496瀏覽 ? 0回復
LLM合集：Meta推出PGraphRAG框架，異構圖關系助力個性化RAG突破界限

AIPaperDaily ? 2222瀏覽 ? 0回復
深入探究編碼器 - 解碼器架構：從RNN到Transformer的自然語言處理模型

AI論文解讀 ? 6146瀏覽 ? 0回復
2024‘Meta 推出CTR集成框架 CETNet，多 CTR 模型集成大幅提升預測精度

AIPaperDaily ? 2226瀏覽 ? 0回復
Meta 重磅發(fā)布 DyT 函數(shù)：Transformer 無需歸一化層，性能反超傳統(tǒng)方案！

AIPaperDaily ? 2517瀏覽 ? 0回復
生成式AI文本密碼：Transformer參數(shù)全解碼?

51CTO內容精選 ? 1105瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發(fā)布
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓推顛覆級創(chuàng)新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發(fā)布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數(shù)也沒問題 0回復

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復

上一篇：一張照片+音頻=超逼真數(shù)字人視頻！VASA-1模型拉開「實時交互」大幕

下一篇：全網(wǎng)首測迪士尼VR魔法地板，360度原地行走環(huán)游地球！

社區(qū)精華內容

目錄

<thead id="bb5wz"></thead>