打破次元壁!港大和達(dá)摩院聯(lián)合發(fā)布頭號(hào)玩家PlayerOne模型:世界首款“自我中心”模擬器!
香港大學(xué)和阿里達(dá)摩院聯(lián)合提出頭號(hào)玩家(PlayerOne)模型,該方法可以根據(jù)用戶提供的圖像構(gòu)建一個(gè)支持用戶自由動(dòng)作控制且場(chǎng)景一致的真實(shí)世界,通過攝像設(shè)備實(shí)時(shí)捕捉用戶的動(dòng)作序列,PlayerOne能夠?qū)⑦@些動(dòng)態(tài)信息無縫融入到構(gòu)建的虛擬世界中,使用戶能夠以第一人稱視角,在如同頂級(jí)AAA游戲般的高質(zhì)量場(chǎng)景中,自由地進(jìn)行探索與互動(dòng)。
● 論文標(biāo)題:PlayerOne: EgocentricWorld Simulator
● 項(xiàng)目主頁:??https://playerone-hku.github.io/??
● 論文鏈接:??https://arxiv.org/abs/2506.09995??
● 視頻介紹:https://www.youtube.com/watch?v=OyvDTCIMYXU
效果展示
論文首先展示了PlayerOne模擬的視頻結(jié)果,如下所示,提出的算法可以準(zhǔn)確的根據(jù)人物的動(dòng)作生成對(duì)應(yīng)場(chǎng)景一致的模擬視頻,同時(shí)和周邊環(huán)境有著良好的交互,方法的應(yīng)用場(chǎng)景同時(shí)包含現(xiàn)實(shí)場(chǎng)景和游戲場(chǎng)景。該方法具有較強(qiáng)的應(yīng)用前景,比如沉浸式社交:用戶通過第一視角探索虛擬世界,動(dòng)作(如手勢(shì)、頭部轉(zhuǎn)動(dòng))實(shí)時(shí)驅(qū)動(dòng)虛擬角色,增強(qiáng)交互自然性,同時(shí)相比傳統(tǒng)VR預(yù)渲染場(chǎng)景,方法支持無限制動(dòng)作控制(如自由行走、抓取物體),提升沉浸感,有著動(dòng)態(tài)場(chǎng)景一致性。
以上所有的人物動(dòng)作視頻為了方便理解,均以前置相機(jī)拍攝(即模擬視頻中左手與拍攝的動(dòng)作視頻中左側(cè)的手部動(dòng)作對(duì)應(yīng))
方法介紹
動(dòng)機(jī)
通過彌補(bǔ)預(yù)測(cè)建模與交互式現(xiàn)實(shí)主義之間的差距,世界模擬器正成為下一代自主系統(tǒng)和游戲引擎的關(guān)鍵基礎(chǔ)設(shè)施,尤其在需要實(shí)時(shí)適應(yīng)復(fù)雜、動(dòng)態(tài)交互的場(chǎng)景中。盡管取得了顯著進(jìn)展,但這一方向在現(xiàn)有研究中仍未得到充分探索。先前研究主要聚焦于游戲化環(huán)境中的模擬,未能復(fù)現(xiàn)現(xiàn)實(shí)場(chǎng)景。此外,在模擬環(huán)境中,用戶僅能執(zhí)行預(yù)設(shè)動(dòng)作(即方向性移動(dòng))。受限于構(gòu)建的世界框架,無法實(shí)現(xiàn)如現(xiàn)實(shí)場(chǎng)景中的無限制移動(dòng)。盡管已有初步嘗試致力于現(xiàn)實(shí)世界模擬,但其主要貢獻(xiàn)在于世界一致性生成,而非人類動(dòng)作控制。因此,用戶在環(huán)境中被動(dòng)地充當(dāng)旁觀者,而非積極參與者。這一限制顯著影響用戶體驗(yàn),因?yàn)樗璧K了用戶與模擬環(huán)境之間建立真實(shí)連接。面對(duì)這些挑戰(zhàn),論文旨在設(shè)計(jì)一個(gè)以第一人稱視角的世界基礎(chǔ)框架,使用戶能夠成為自由探索的冒險(xiǎn)者?;谟脩籼峁┑牡谝蝗朔Q視角的圖像,該框架可讓用戶通過外視角攝像頭實(shí)時(shí)捕捉的無限制的人體動(dòng)作,在模擬的世界中進(jìn)行自由的移動(dòng)。
算法整體框架基于DiT模型,模型的輸入輸出如下: 輸入:1. 第一幀圖像(First Frame):用戶提供的初始場(chǎng)景圖像(第一視角,如佩戴頭顯視角拍攝的廚房、駕駛座等)。 2. 人體動(dòng)作序列(Human Motion Sequence):通過外視角攝像頭捕捉的真實(shí)人體動(dòng)作(如頭部轉(zhuǎn)動(dòng)、手部抓取、腿部移動(dòng)),以 SMPL-X 參數(shù)或 2D/3D 關(guān)鍵點(diǎn)形式表示。 輸出:生成的模擬視頻(Simulated Video):動(dòng)態(tài)視頻,嚴(yán)格對(duì)齊輸入動(dòng)作序列,保持場(chǎng)景幾何一致性(如物體遮擋關(guān)系、光照變化隨視角調(diào)整)。
具體而言,方法首先將第一人稱視角圖像轉(zhuǎn)換為視覺token。同時(shí)人物動(dòng)作序列被劃分為多個(gè)組,并分別輸入到動(dòng)作編碼器中以生成部件級(jí)動(dòng)作潛在編碼,其中頭部參數(shù)被轉(zhuǎn)換為僅旋轉(zhuǎn)的攝像機(jī)序列。該攝像機(jī)序列隨后通過攝像機(jī)編碼器進(jìn)行編碼,其輸出被注入到帶噪聲的視頻潛伏向量中以改善視角變化對(duì)齊。接下來,論文使用原始的視頻渲染一個(gè)4D 場(chǎng)景點(diǎn)云序列,該序列隨后通過帶適配器的點(diǎn)云編碼器處理以生成場(chǎng)景潛在編碼。然后論文將這些潛在編碼的拼接輸入到 DiT 模型中,并對(duì)視頻和場(chǎng)景潛在編碼同時(shí)進(jìn)行噪聲添加和去噪處理,以確保世界一致的生成。最后,通過VAE解碼器對(duì)去噪后的潛變量進(jìn)行解碼以生成最終結(jié)果。需注意,推理僅需第一幀和人體動(dòng)作序列。
核心模塊與流程
部件解構(gòu)的動(dòng)作注入模塊
先前研究通常將攝像機(jī)軌跡用作動(dòng)作條件,或僅限于特定方向的動(dòng)作。這些限制使用戶只能扮演被動(dòng)的“觀察者”角色,阻礙了有意義的用戶交互。相比之下,論文的方法通過采用現(xiàn)實(shí)世界中的人體動(dòng)作序列(即人體姿態(tài)或關(guān)鍵點(diǎn))作為動(dòng)作條件,使用戶能夠成為積極的“參與者”,從而實(shí)現(xiàn)更自然且不受限制的動(dòng)作。然而,論文的實(shí)證分析表明,從人體動(dòng)作參數(shù)中整體提取潛在表示會(huì)增加精確動(dòng)作對(duì)齊的復(fù)雜性。為解決這一挑戰(zhàn),論文提出了一種部分解耦的動(dòng)作注入策略,該策略認(rèn)識(shí)到身體各部分的不同作用。具體而言,手部動(dòng)作對(duì)于與環(huán)境中的物體互動(dòng)至關(guān)重要,而頭部在維持第一人稱視角的視角對(duì)齊方面發(fā)揮著關(guān)鍵作用。因此,論文將人體動(dòng)作參數(shù)分為三類:軀干與雙腳、雙手和頭部。每類參數(shù)均通過專屬的動(dòng)作編碼器進(jìn)行處理,該編碼器由八層3D卷積網(wǎng)絡(luò)組成,以提取相關(guān)潛在特征。這種專用處理確保了準(zhǔn)確且同步的動(dòng)作對(duì)齊。這些潛在特征隨后沿通道維度進(jìn)行拼接,形成最終的部件感知?jiǎng)幼鳚撛诒硎?。為了進(jìn)一步增強(qiáng)第一人稱視角對(duì)齊,論文僅將人體動(dòng)作序列中的頭部參數(shù)轉(zhuǎn)換為僅包含旋轉(zhuǎn)值的相機(jī)外參序列。論文清零相機(jī)外參中的平移值,同時(shí)假設(shè)頭部參數(shù)位于相機(jī)坐標(biāo)系的原點(diǎn)。
場(chǎng)景幀共同重建
雖然上述模塊能夠?qū)崿F(xiàn)對(duì)第一人稱視角和動(dòng)作的精確控制,但它并不能保證生成的世界中場(chǎng)景的一致性。為了解決這一限制,論文提出了一個(gè)聯(lián)合重建框架,該框架同時(shí)建模4D場(chǎng)景和視頻幀,確保視頻全程的場(chǎng)景一致性和連續(xù)性。具體而言,該框架首先利用CUT3R基于原始的視頻數(shù)據(jù)為每個(gè)幀生成點(diǎn)云圖,并通過第1幀至第n幀的信息重建第n幀的點(diǎn)云圖。隨后,這些點(diǎn)云圖通過專用點(diǎn)云編碼器壓縮為潛在表示。為將這些潛在表示與視頻特征集成,論文使用一個(gè)適配器將點(diǎn)云圖潛在表示與視頻潛在表示對(duì)齊,并將其投影到共享的潛在空間中,從而實(shí)現(xiàn)動(dòng)作數(shù)據(jù)與環(huán)境數(shù)據(jù)的無縫融合。最后,論文將第一幀的潛在表示、人體動(dòng)作序列、噪聲視頻潛在表示以及對(duì)應(yīng)的噪聲點(diǎn)云圖潛在表示進(jìn)行拼接。該綜合輸入隨后被輸入到擴(kuò)散變換器中進(jìn)行去噪,從而生成一個(gè)連貫且視覺一致的世界。重要的是,點(diǎn)圖僅在訓(xùn)練階段需要。在推理階段,系統(tǒng)通過僅使用第一幀和對(duì)應(yīng)的人體動(dòng)作序列來生成與世界一致的視頻,從而簡(jiǎn)化了過程。這種簡(jiǎn)化的方法提高了生成效率,同時(shí)確保生成的環(huán)境在整個(gè)視頻中保持穩(wěn)定和現(xiàn)實(shí)。
數(shù)據(jù)集構(gòu)造
任務(wù)的理想訓(xùn)練樣本是第一人稱視角視頻與對(duì)應(yīng)的動(dòng)作序列配對(duì)。然而,目前公開可用的數(shù)據(jù)集庫(kù)中尚不存在此類數(shù)據(jù)集。作為替代方案,論文通過從現(xiàn)有第一人稱-第三人稱視角視頻數(shù)據(jù)集中提取這些數(shù)據(jù)對(duì)。具體而言,對(duì)于每個(gè)同步的第一人稱-第三人稱視角視頻對(duì),論文首先使用SAM2在第三人稱視角中檢測(cè)最大的人體。隨后,對(duì)背景去除后的第三人稱視角視頻使用SMPLest-X處理,提取識(shí)別個(gè)體的SMPL參數(shù)作為人體動(dòng)作數(shù)據(jù)。為提升優(yōu)化穩(wěn)定性,引入L2正則化先驗(yàn)。接著,通過評(píng)估2D重投影一致性過濾掉低質(zhì)量SMPL數(shù)據(jù)。這包括使用SMPLX從SMPL參數(shù)生成3D網(wǎng)格,使用相應(yīng)的相機(jī)參數(shù)將3D關(guān)節(jié)投影到2D圖像平面,并通過OpenPose提取2D關(guān)鍵點(diǎn)。重投影誤差通過測(cè)量SMPL投影的2D關(guān)鍵點(diǎn)與OpenPose檢測(cè)的關(guān)鍵點(diǎn)之間的距離來計(jì)算。將重投影誤差位于前10%的數(shù)據(jù)對(duì)排除在外,確保最終數(shù)據(jù)集包含高質(zhì)量的動(dòng)作-視頻對(duì)。精煉后的SMPL參數(shù)被分解為身體和腳部(66維)、頭部方向(3維)以及手部關(guān)節(jié)(每只手45維)組件,每個(gè)幀均包含這些組件。這些組件被輸入到各自的動(dòng)作編碼器中。數(shù)據(jù)集構(gòu)建流程如上圖所示。
訓(xùn)練策略
盡管可以通過上述流程提取高質(zhì)量的動(dòng)作-視頻訓(xùn)練數(shù)據(jù),但該數(shù)據(jù)集的規(guī)模有限,不足以訓(xùn)練視頻生成模型以生成高質(zhì)量的自我中心視頻。為解決此問題,論文利用了大規(guī)模的自我中心文本-視頻數(shù)據(jù)集(即 Egovid-5M)。具體而言,論文首先使用LoRA在大型第一人稱視角文本-視頻數(shù)據(jù)對(duì)上對(duì)基線模型進(jìn)行微調(diào),實(shí)現(xiàn)粗粒度動(dòng)作對(duì)齊的第一人稱視角視頻生成。隨后,論文凍結(jié)已訓(xùn)練的LoRA,并使用構(gòu)建的高質(zhì)量數(shù)據(jù)集對(duì)模型最后六個(gè)塊進(jìn)行微調(diào),以提升精細(xì)的人體動(dòng)作對(duì)齊和視角不變的場(chǎng)景建模能力,這可有效解決成對(duì)數(shù)據(jù)匱乏的問題。最后,論文采用已有論文的不對(duì)稱蒸餾策略,通過雙向教師模型監(jiān)督因果學(xué)生模型,實(shí)現(xiàn)實(shí)時(shí)生成和長(zhǎng)時(shí)視頻合成。
實(shí)驗(yàn)結(jié)果
對(duì)于不同訓(xùn)練策略的消融對(duì)比
論文首先評(píng)估了提出的由粗到細(xì)的訓(xùn)練方案的幾個(gè)變體,如視頻所示,當(dāng)將動(dòng)作描述輸入到基線模型中而未進(jìn)行微調(diào)時(shí),生成的結(jié)果會(huì)出現(xiàn)明顯的缺陷,例如手部變形或意外出現(xiàn)的人員。類似的問題在僅使用動(dòng)作-視頻對(duì)進(jìn)行訓(xùn)練時(shí)也能觀察到。論文還探索了同時(shí)使用大規(guī)模第一人稱視角視頻和動(dòng)作-視頻對(duì)進(jìn)行聯(lián)合訓(xùn)練。具體而言,當(dāng)輸入第一人稱視角視頻時(shí),把動(dòng)作潛在編碼設(shè)置為零,并提取文本描述的潛在值作為動(dòng)作條件,同時(shí)采用平衡采樣策略。盡管該變體能夠生成第一人稱視角視頻,但其生成的結(jié)果與給定的人體動(dòng)作條件無法準(zhǔn)確對(duì)齊。相比之下,提出的由粗到細(xì)的訓(xùn)練方案相較于這些變體能產(chǎn)生明顯更優(yōu)的結(jié)果。
對(duì)于部件解構(gòu)的動(dòng)作注入模塊的消融對(duì)比
接下來,論文對(duì)解構(gòu)模塊進(jìn)行了詳細(xì)分析。具體而言,包含三種變體:基于ControlNet的動(dòng)作注入、將動(dòng)作序列作為統(tǒng)一實(shí)體輸入(“耦合”方案)以及移除論文的攝像頭編碼器?;贑ontrolNet的方案存在信息丟失問題,導(dǎo)致其無法生成與指定動(dòng)作條件準(zhǔn)確對(duì)齊的結(jié)果。同樣,糾纏方案也表現(xiàn)出類似的缺陷。此外,移除攝像頭編碼器導(dǎo)致模型無法生成視角準(zhǔn)確的對(duì)齊結(jié)果。該變體無法產(chǎn)生與下蹲動(dòng)作對(duì)應(yīng)的視角變化。最終,提出的解構(gòu)模塊成功生成既視角對(duì)齊又動(dòng)作對(duì)齊的結(jié)果。
對(duì)于不同重建方式的消融對(duì)比
論文對(duì)重建模塊進(jìn)行了詳細(xì)分析,探索了三種變體:省略重建、移除SR模塊內(nèi)的適配器,以及用DUStR替換CUT3R進(jìn)行點(diǎn)云渲染。如圖所示省略重建導(dǎo)致模型無法生成一致的模擬結(jié)果。此外,由于幀的潛在變量與點(diǎn)圖之間的分布差異,在不使用適配器的情況下進(jìn)行訓(xùn)練會(huì)導(dǎo)致?lián)p失收斂困難,從而產(chǎn)生明顯的失真。此外,在用DUStR替換CUT3R后,算法也能生成與場(chǎng)景一致的輸出,這表明其對(duì)不同的點(diǎn)云渲染技術(shù)具有魯棒性。
與其他方法的對(duì)比
由于沒有與該人物設(shè)置相同的其他方法,論文選擇了兩個(gè)潛在的競(jìng)爭(zhēng)對(duì)手進(jìn)行比較:Cosmos 和 Aether。 如下方展示的樣例所示(從左到右分別是PlayerOne,Cosmos-7B, Cosmos-14B, Aether),提出的方法相比于已有的方法在場(chǎng)景一致性以及環(huán)境交互角度有著較為明顯的優(yōu)勢(shì)。
未來展望
與傳統(tǒng)模型僅限于特定游戲場(chǎng)景或動(dòng)作不同,PlayerOne 能夠捕捉一般世界環(huán)境的復(fù)雜動(dòng)態(tài),并實(shí)現(xiàn)模擬世界中的自由動(dòng)作控制。盡管取得了一定的成果,但在游戲場(chǎng)景中的性能略遜于現(xiàn)實(shí)場(chǎng)景,這可能歸因 于現(xiàn)實(shí)與游戲訓(xùn)PlayerOne: EgocentricWorld Simulator練數(shù)據(jù)分布的不平衡。未來研究可通PlayerOne: EgocentricWorld Simulator過引入更多游戲場(chǎng)景數(shù)據(jù)集來解決這一問題。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
