偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Emu3.5:能夠原生預(yù)測(cè)下一狀態(tài)的多模態(tài)世界模型,媲美Nano Banana

發(fā)布于 2025-11-3 07:26
瀏覽
0收藏

Emu3.5是由北京智源研究院剛剛推出的大規(guī)模多模態(tài)世界模型,原生就能預(yù)測(cè)視覺(jué)和語(yǔ)言的下一個(gè)狀態(tài)。它用統(tǒng)一的下一token預(yù)測(cè)目標(biāo)進(jìn)行端到端預(yù)訓(xùn)練,訓(xùn)練數(shù)據(jù)包含超過(guò)10萬(wàn)億token,主要來(lái)自互聯(lián)網(wǎng)視頻的連續(xù)幀和轉(zhuǎn)錄文本。

Emu3.5:能夠原生預(yù)測(cè)下一狀態(tài)的多模態(tài)世界模型,媲美Nano Banana-AI.x社區(qū)

這個(gè)模型天然接受交錯(cuò)的視覺(jué)-語(yǔ)言輸入,生成交錯(cuò)的視覺(jué)-語(yǔ)言輸出。之后還用大規(guī)模強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練,增強(qiáng)多模態(tài)推理和生成能力。

Emu3.5:能夠原生預(yù)測(cè)下一狀態(tài)的多模態(tài)世界模型,媲美Nano Banana-AI.x社區(qū)

為了提高推理效率,團(tuán)隊(duì)提出了離散擴(kuò)散適配(DiDA),把逐token解碼轉(zhuǎn)換成雙向并行預(yù)測(cè),每張圖像的推理速度提升約20倍,性能還不打折。

Emu3.5展示了強(qiáng)大的原生多模態(tài)能力,包括長(zhǎng)程視覺(jué)-語(yǔ)言生成、任意到圖像(X2I)生成、復(fù)雜文本圖像生成。它還表現(xiàn)出可泛化的世界建模能力,能在不同場(chǎng)景和任務(wù)中實(shí)現(xiàn)時(shí)空一致的世界探索和開(kāi)放世界具身操作。

Emu3.5:能夠原生預(yù)測(cè)下一狀態(tài)的多模態(tài)世界模型,媲美Nano Banana-AI.x社區(qū)

在圖像生成和編輯任務(wù)上,Emu3.5達(dá)到了與Gemini 2.5 Flash Image(Nano Banana)相當(dāng)?shù)男阅?,在一系列交錯(cuò)生成任務(wù)上表現(xiàn)更優(yōu)。

項(xiàng)目已經(jīng)開(kāi)源,代碼和模型權(quán)重可在GitHub獲取。

實(shí)際能做什么

分步驟視覺(jué)指導(dǎo):比如教你如何用粘土和顏料雕刻火星探險(xiǎn)者人偶,從準(zhǔn)備材料到上色密封,每一步都有圖示。

Emu3.5:能夠原生預(yù)測(cè)下一狀態(tài)的多模態(tài)世界模型,媲美Nano Banana-AI.x社區(qū)

講生動(dòng)故事:可以根據(jù)提示生成連貫的視覺(jué)故事。比如一個(gè)粘土宇航員在外星森林墜毀,遇到皮卡丘,一起探索發(fā)光蘑菇森林的完整敘事。

Emu3.5:能夠原生預(yù)測(cè)下一狀態(tài)的多模態(tài)世界模型,媲美Nano Banana-AI.x社區(qū)

智能圖像編輯:能精確理解編輯指令。把燃燒的木料改成玻璃材質(zhì)、讓狗擁抱貓、向右平移視角、轉(zhuǎn)換成鳥(niǎo)瞰視圖,甚至移除文檔上的手寫(xiě)注釋。

Emu3.5:能夠原生預(yù)測(cè)下一狀態(tài)的多模態(tài)世界模型,媲美Nano Banana-AI.x社區(qū)

具身操作:能理解物理世界任務(wù)并生成操作步驟。比如折疊衣服、清理臺(tái)面、超市揀貨,每一步都有對(duì)應(yīng)的視覺(jué)演示。

Emu3.5:能夠原生預(yù)測(cè)下一狀態(tài)的多模態(tài)世界模型,媲美Nano Banana-AI.x社區(qū)

世界探索:保持長(zhǎng)程一致性的空間探索??梢灾噶钏剿魇孢m客廳、現(xiàn)代起居室、復(fù)古教室、埃菲爾鐵塔、天壇等場(chǎng)景,生成連貫的第一人稱視角探索視頻。

Emu3.5:能夠原生預(yù)測(cè)下一狀態(tài)的多模態(tài)世界模型,媲美Nano Banana-AI.x社區(qū)

技術(shù)報(bào)告已在arXiv發(fā)布,詳細(xì)介紹了模型架構(gòu)、訓(xùn)練方法和評(píng)估結(jié)果,感興趣可以查閱。

開(kāi)源地址:https://github.com/baaivision/Emu3.5

論文地址:https://arxiv.org/abs/2510.26583

本文轉(zhuǎn)載自??AI工程化??,作者:ully

已于2025-11-3 07:26:02修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦