偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

世界模型有了開(kāi)源基座Emu3.5!拿下多模態(tài)SOTA,性能超越Nano Banana

人工智能 新聞
北京智源人工智能研究院(BAAI)的悟界·Emu3.5來(lái)炸場(chǎng)了。圖、文、視頻任務(wù)一網(wǎng)打盡,不僅能畫(huà)圖改圖,還能生成圖文教程,視頻任務(wù)更是增加了物理真實(shí)性。

最新最強(qiáng)的開(kāi)源原生多模態(tài)世界模型——

北京智源人工智能研究院(BAAI)的悟界·Emu3.5來(lái)炸場(chǎng)了。

圖、文、視頻任務(wù)一網(wǎng)打盡,不僅能畫(huà)圖改圖,還能生成圖文教程,視頻任務(wù)更是增加了物理真實(shí)性。

先感受一下它的高精度操作:一句話消除手寫(xiě)痕跡。

第一視角漫游動(dòng)態(tài)3D世界:

要知道,現(xiàn)在AI迭代的速度,正在刷新所有人的認(rèn)知。

尤其是在文生視頻這條賽道上,幾乎每個(gè)月都有新技術(shù)出來(lái)“搞事情”。

肉眼可見(jiàn),AI視頻一個(gè)比一個(gè)真,一個(gè)比一個(gè)長(zhǎng)。

but,先別急著鼓掌——

真正的賽點(diǎn),早已不是“像不像”,而是“懂不懂”。

它知道桌子上的蘋(píng)果被拿走后,那里應(yīng)該變空嗎?它明白你轉(zhuǎn)身之后,背后的場(chǎng)景依然存在嗎?如果答案是否定的,那再逼真的視頻,也不過(guò)是“高級(jí)的GIF”。

現(xiàn)在,致力于攻克這一終極難題的玩家,終于帶著悟界·Emu3.5來(lái)了。

從官方放出的demo來(lái)看,Emu3.5生成的作品展現(xiàn)出極強(qiáng)的連貫性、邏輯性,尤其讓AI模擬動(dòng)態(tài)物理世界的能力又雙叒增強(qiáng)了。

它能讓你以第一人稱視角進(jìn)入它所構(gòu)建的虛擬世界。你的每一次移動(dòng)、每一次轉(zhuǎn)身,它都能動(dòng)態(tài)構(gòu)建出你下一步應(yīng)該看到的場(chǎng)景,全程保持空間一致性。

除了上面展示的探索3D游戲世界,還能第一視角參觀陽(yáng)光下的客廳:

在火星上開(kāi)卡丁車(chē)也很絲滑:

由于掌握了世界運(yùn)行的內(nèi)在規(guī)律,它不僅能像專業(yè)設(shè)計(jì)師一樣,進(jìn)行高精度、可控的圖像編輯:

還能像拍電影一樣,生成圖文并茂的視覺(jué)故事:

從測(cè)評(píng)成績(jī)來(lái)看,悟界·Emu3.5的表現(xiàn)也極其亮眼——在多項(xiàng)權(quán)威基準(zhǔn)上,性能媲美甚至超越了Gemini-2.5-Flash-Image,沒(méi)錯(cuò),就是那個(gè)Nano Banana,在文本渲染和多模態(tài)交錯(cuò)生成任務(wù)上優(yōu)勢(shì)尤其顯著。

Emu3.5的命名,就揭示了它的定位:世界模型基座。

顧名思義,它要做的是世界模型的基礎(chǔ)模型,這等于是在AI領(lǐng)域開(kāi)辟了一條全新的賽道。

那么,這樣一個(gè)被寄予厚望的模型究竟有多強(qiáng)?來(lái)看更多案例。

像智能體一樣理解長(zhǎng)時(shí)序

核心能力:世界探索與具身操作

這是Emu3.5最核心、最能體現(xiàn)其“世界模型基座”本質(zhì)的能力。它能像一個(gè)智能體(Agent)一樣,理解長(zhǎng)時(shí)序、空間一致的序列,模擬在虛擬世界中的探索和操作。

比如下面這個(gè)“整理桌面”的任務(wù),就是通過(guò)以下指令一步步實(shí)現(xiàn)的:

  1. 先把桌上所有東西清空。
  2. 把所有線纜解開(kāi)并分類。
  3. 用扎帶把線纜捆好。
  4. 用理線槽把線纜隱藏在桌下。
  5. 最后把桌面物品擺放整齊。

進(jìn)階能力:視覺(jué)指導(dǎo)與復(fù)雜圖像編輯

正因?yàn)檎莆樟藙?dòng)態(tài)世界演變規(guī)律,Emu3.5尤為擅長(zhǎng)提供具有連貫性和指導(dǎo)意義的視覺(jué)內(nèi)容。

當(dāng)給了Emu3.5一張狐貍的草圖,并給出一系列指令“把它變成3D模型、3D打印出來(lái)、再上色”后,它直接一步步生成了從草圖到最終手辦形態(tài)的完整視覺(jué)流程。整個(gè)過(guò)程中,狐貍的核心特征和神態(tài)都得到了完美保留,扛住了長(zhǎng)時(shí)程創(chuàng)作的挑戰(zhàn)。

這種能力讓它還能生成分步教學(xué)指南,手把手教你做菜、畫(huà)畫(huà)、種菜:

同時(shí),它也支持多圖、多輪指令的復(fù)雜圖像編輯,主體一致性、風(fēng)格保持能力達(dá)到業(yè)界頂尖水平。

敲黑板,由于Emu3.5本身就在海量的互聯(lián)網(wǎng)視頻上進(jìn)行預(yù)訓(xùn)練,所以它天生就具備理解時(shí)空連續(xù)性的能力,能夠生成長(zhǎng)時(shí)序、邏輯一致的序列,而不會(huì)出現(xiàn)風(fēng)格漂移或事實(shí)錯(cuò)亂。

為了構(gòu)建Emu3.5,智源這次在技術(shù)方面也是進(jìn)行了一系列創(chuàng)新和突破。

背后技術(shù)原理

Emu3.5參數(shù)量?jī)H34B,整個(gè)模型以標(biāo)準(zhǔn)的Decoder-only Transformer為框架,單一模型能夠同時(shí)完成視覺(jué)敘事、視覺(jué)引導(dǎo)、圖像編輯、世界探索、具身操作等多種任務(wù)。

它將所有任務(wù)都統(tǒng)一為下一State預(yù)測(cè)(Next-State Prediction)任務(wù),無(wú)論是文本還是圖像,都被一個(gè)強(qiáng)大的多模態(tài)分詞器(Tokenizer)轉(zhuǎn)換成離散的Token序列。

  • 海量視頻數(shù)據(jù)預(yù)訓(xùn)練模型在超過(guò)10萬(wàn)億Token的多模態(tài)數(shù)據(jù)上進(jìn)行訓(xùn)練,其中主力是來(lái)自互聯(lián)網(wǎng)視頻的連續(xù)幀和轉(zhuǎn)錄文本。這使得模型從一開(kāi)始就沉浸式學(xué)習(xí)時(shí)空連續(xù)性和因果關(guān)系。
  • 強(qiáng)大的分詞器視覺(jué)分詞器(Tokenizer)基于IBQ框架,擁有13萬(wàn)的視覺(jué)詞匯表,并集成了擴(kuò)散解碼器,能實(shí)現(xiàn)高達(dá)2K分辨率的高保真圖像重建。
  • 多階段對(duì)齊在預(yù)訓(xùn)練之后,模型經(jīng)過(guò)了大規(guī)模的有監(jiān)督微調(diào)(SFT)和大規(guī)模多模態(tài)強(qiáng)化學(xué)習(xí)(RL),使用一個(gè)包含通用指標(biāo)(如美學(xué)、圖文對(duì)齊)和任務(wù)特定指標(biāo)(如故事連貫性、文本渲染準(zhǔn)確率)的復(fù)雜獎(jiǎng)勵(lì)系統(tǒng)進(jìn)行優(yōu)化。
  • 推理加速黑科技為了解決自回歸模型生成圖像慢的問(wèn)題,團(tuán)隊(duì)提出了離散擴(kuò)散適配(DiDA)技術(shù),它能將逐個(gè)Token的生成方式轉(zhuǎn)變?yōu)椴⑿械碾p向預(yù)測(cè),在不犧牲性能的前提下,使每張圖像的推理速度提升近20倍。

One More Thing

這么強(qiáng)的模型,智源選擇——開(kāi)源!

全球的開(kāi)發(fā)者、研究者,不用再?gòu)牧汩_(kāi)始,就能直接上手一個(gè)懂物理、有邏輯的世界模型。

從生成更逼真的視頻,到構(gòu)建更聰明的智能體,再到賦能千行百業(yè)的實(shí)際應(yīng)用……想象空間拉滿了。

對(duì)了,如果想要體驗(yàn)科研內(nèi)測(cè)版,可戳下方鏈接申請(qǐng)~

體驗(yàn)鏈接:https://jwolpxeehx.feishu.cn/share/base/form/shrcn0dzwo2ZkN2Q0dveDBSfR3b

項(xiàng)目主頁(yè):https://zh.emu.world/pages/web/landingPage

技術(shù)報(bào)告:https://zh.emu.world/Emu35_tech_report.pdf

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-08-07 16:24:19

小紅書(shū)開(kāi)源dots.vlm1

2024-04-02 09:17:50

AI數(shù)據(jù)開(kāi)源

2025-05-16 10:15:06

2024-01-22 13:59:00

模型訓(xùn)練

2025-07-24 11:38:40

2025-01-21 13:15:15

2025-02-14 10:56:58

2024-03-25 12:40:19

訓(xùn)練模型

2025-03-19 09:30:00

2025-06-17 09:07:24

2025-05-06 08:40:00

2025-04-28 14:13:43

開(kāi)源SOTA多模態(tài)

2023-02-16 13:48:56

模型論文

2025-04-27 08:30:00

2025-08-07 02:00:00

2025-04-14 00:30:00

2025-02-07 11:00:00

模型開(kāi)源AI

2025-09-01 08:54:00

2025-01-03 15:39:02

2025-01-08 08:21:16

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)