偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<thead id="b39we"><b id="b39we"><pre id="b39we"></pre></b></thead>

<s id="b39we"><nav id="b39we"></nav></s>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

合成數(shù)據(jù)也能通吃真實(shí)世界？首個(gè)融合重建-預(yù)測(cè)-規(guī)劃的生成式世界模型AETHER開(kāi)源

作者：機(jī)器之心 2025-04-21 09:20:00

人工智能新聞

傳統(tǒng)世界模型通常聚焦于 RGB 圖像的預(yù)測(cè)而忽略了背后隱含的幾何信息，引入空間建模后，各項(xiàng)指標(biāo)均顯著提升，其中視頻一致性指標(biāo)提升約 4%。

近日，上海人工智能實(shí)驗(yàn)室（上海 AI 實(shí)驗(yàn)室）開(kāi)源了生成式世界模型 AETHER。該模型全部由合成數(shù)據(jù)訓(xùn)練而成，不僅在傳統(tǒng)重建與生成任務(wù)中表現(xiàn)領(lǐng)先，更首次賦予大模型在真實(shí)世界中的 3D 空間決策與規(guī)劃能力，可助力機(jī)器人完成目標(biāo)導(dǎo)向的視覺(jué)規(guī)劃、4D 動(dòng)態(tài)重建、動(dòng)作條件的視頻預(yù)測(cè)等復(fù)雜任務(wù)。

研究團(tuán)隊(duì)將幾何重建與生成式建模深度融合，首創(chuàng)「重建 — 預(yù)測(cè) — 規(guī)劃」一體化框架，通過(guò) AETHER 使大模型能夠感知周圍環(huán)境，理解物體之間的位置、運(yùn)動(dòng)和因果關(guān)系，從而做出更智能的行動(dòng)決策。

實(shí)驗(yàn)表明，傳統(tǒng)世界模型通常聚焦于 RGB 圖像的預(yù)測(cè)而忽略了背后隱含的幾何信息，引入空間建模后，各項(xiàng)指標(biāo)均顯著提升，其中視頻一致性指標(biāo)提升約 4%。更重要的是，即使只使用合成數(shù)據(jù)進(jìn)行訓(xùn)練，模型在真實(shí)環(huán)境中依然展現(xiàn)出強(qiáng)大的零樣本泛化能力。

論文與模型已經(jīng)同步開(kāi)源。

論文標(biāo)題：AETHER: Geometric-Aware Unified World Modeling
論文鏈接：https://arxiv.org/abs/2503.18945
項(xiàng)目主頁(yè)：https://aether-world.github.io

三大核心技術(shù)

攻克動(dòng)態(tài)環(huán)境中的智能決策困境

傳統(tǒng)世界模型主要應(yīng)用于自動(dòng)駕駛與游戲開(kāi)發(fā)等領(lǐng)域，通過(guò)其豐富的動(dòng)作標(biāo)簽來(lái)預(yù)測(cè)接下來(lái)的視覺(jué)畫(huà)面。

但由于缺乏對(duì)真實(shí)三維空間的建模能力，這容易導(dǎo)致模型預(yù)測(cè)結(jié)果出現(xiàn)不符合物理規(guī)律的現(xiàn)象。同時(shí)，由于依賴且缺乏真實(shí)數(shù)據(jù)，面對(duì)更復(fù)雜多變的場(chǎng)景時(shí)，其泛化能力也明顯不足。

針對(duì)以上問(wèn)題，研究團(tuán)隊(duì)提出了生成式世界模型 AETHER，基于三維時(shí)空建模，通過(guò)引入并構(gòu)建幾何空間，大幅提升了模型空間推理的準(zhǔn)確性與一致性。

具體而言，研究團(tuán)隊(duì)利用海量仿真 RGBD 數(shù)據(jù)，開(kāi)發(fā)了一套完整的數(shù)據(jù)清洗與動(dòng)態(tài)重建流程，并標(biāo)注了豐富的動(dòng)作序列。同時(shí)，他們提出一種多模態(tài)數(shù)據(jù)的動(dòng)態(tài)融合機(jī)制，首次將動(dòng)態(tài)重建、視頻預(yù)測(cè)和動(dòng)作規(guī)劃這三項(xiàng)任務(wù)融合在一個(gè)統(tǒng)一的框架中進(jìn)行優(yōu)化，從而實(shí)現(xiàn)了真正的一體化多任務(wù)協(xié)同，大幅提高了模型的穩(wěn)定性與魯棒性。

面對(duì)復(fù)雜多變的現(xiàn)實(shí)世界，如何讓具身智能系統(tǒng)實(shí)現(xiàn)可靠、高效的決策是人工智能領(lǐng)域的一項(xiàng)重大挑戰(zhàn)。研究團(tuán)隊(duì)在 AETHER 框架中通過(guò)三項(xiàng)關(guān)鍵技術(shù)突破，顯著提升了具身系統(tǒng)在動(dòng)態(tài)環(huán)境中的感知、建模與決策能力。

目標(biāo)導(dǎo)向視覺(jué)規(guī)劃：可根據(jù)起始與目標(biāo)場(chǎng)景，自動(dòng)生成一條實(shí)現(xiàn)視覺(jué)目標(biāo)的合理路徑，并以視頻形式呈現(xiàn)全過(guò)程。通過(guò)聯(lián)合優(yōu)化重建與預(yù)測(cè)目標(biāo)，AETHER 內(nèi)嵌空間幾何先驗(yàn)知識(shí)，使生成結(jié)果兼具物理合理性。這使得具身智能系統(tǒng)能像人類一樣「看路規(guī)劃」—— 通過(guò)攝像頭觀察環(huán)境后，自動(dòng)生成既安全又符合物理規(guī)律的行動(dòng)路線。
4D 動(dòng)態(tài)重建：通過(guò)自動(dòng)標(biāo)注流水線，構(gòu)建合成 4D 數(shù)據(jù)集，無(wú)需真實(shí)世界數(shù)據(jù)即可實(shí)現(xiàn)零樣本遷移，精準(zhǔn)捕捉并重建時(shí)空環(huán)境的動(dòng)態(tài)變化。例如，輸入一段街景視頻，系統(tǒng)即可重建包含時(shí)間維度的三維場(chǎng)景模型，精確呈現(xiàn)行人行走、車輛運(yùn)動(dòng)等動(dòng)態(tài)過(guò)程，建模精度可達(dá)毫米級(jí)。

自動(dòng)相機(jī)標(biāo)注 pipeline。

動(dòng)作條件視頻預(yù)測(cè)：創(chuàng)新性地采用相機(jī)軌跡作為全局動(dòng)作表征，可直接基于初始視覺(jué)觀察和潛在動(dòng)作，預(yù)測(cè)未來(lái)場(chǎng)景的變化趨勢(shì)。相當(dāng)于給具身智能系統(tǒng)裝上了預(yù)測(cè)未來(lái)的「鏡頭」。

可零樣本泛化至真實(shí)場(chǎng)景

不同于傳統(tǒng)僅預(yù)測(cè)圖像變化的世界模型，AETHER 不僅能同時(shí)完成四維時(shí)空的重建與預(yù)測(cè)，還支持由動(dòng)作控制驅(qū)動(dòng)的場(chǎng)景推演與路徑規(guī)劃。值得強(qiáng)調(diào)的是，該方法完全在虛擬數(shù)據(jù)上訓(xùn)練，即可實(shí)現(xiàn)對(duì)真實(shí)世界的零樣本泛化，展現(xiàn)出強(qiáng)大的跨域遷移能力。

具體流程如下圖所示，圖中黃色、藍(lán)色和紅色分別表示圖像、動(dòng)作與深度的潛在變量，灰色表示噪聲項(xiàng)，白色框?yàn)榱闾畛鋮^(qū)域。模型通過(guò)組合不同的條件輸入（如觀察幀、目標(biāo)幀和動(dòng)作軌跡），結(jié)合擴(kuò)散過(guò)程，實(shí)現(xiàn)對(duì)多種任務(wù)的統(tǒng)一建模與生成。

就像在拼一副完整的動(dòng)態(tài)拼圖，觀察幀提供了「現(xiàn)在的樣子」，目標(biāo)幀給出了「未來(lái)的樣子」，動(dòng)作軌跡則是「怎么從這里走到那里」，而擴(kuò)散過(guò)程則像是拼圖的拼接邏輯，把這些零散信息有序組合起來(lái)，最終還原出一個(gè)連續(xù)、合理且可預(yù)測(cè)的時(shí)空過(guò)程。

為了支持同時(shí)完成重建、預(yù)測(cè)和規(guī)劃這三類不同任務(wù)，AETHER 設(shè)計(jì)了一種統(tǒng)一的多任務(wù)框架，首次實(shí)現(xiàn)在同一個(gè)系統(tǒng)中整合動(dòng)態(tài)重建、視頻預(yù)測(cè)和動(dòng)作規(guī)劃。

其核心在于：能夠融合圖像、動(dòng)作、深度等多模態(tài)信息，建立一個(gè)跨模態(tài)共享的時(shí)空一致性建?？臻g，實(shí)現(xiàn)不同任務(wù)在同一認(rèn)知基礎(chǔ)上的協(xié)同優(yōu)化。

實(shí)驗(yàn)結(jié)果

在多個(gè)實(shí)驗(yàn)任務(wù)中，AETHER 在動(dòng)態(tài)場(chǎng)景重建方面已達(dá)到甚至超過(guò)現(xiàn)有 SOTA 水平。同時(shí)發(fā)現(xiàn)在多任務(wù)框架下，各個(gè)任務(wù)有很好的促進(jìn)，尤其在動(dòng)作跟隨的準(zhǔn)確度上面有較大的提升。

該方法有望為具身智能大模型在數(shù)據(jù)增強(qiáng)、路徑規(guī)劃以及基于模型的強(qiáng)化學(xué)習(xí)等方向研究提供技術(shù)支撐。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型 AI 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<abbr id="h53x4"><li id="h53x4"><optgroup id="h53x4"></optgroup></li></abbr>