偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

首次實現(xiàn)第一視角視頻與人體動作同步生成!新框架攻克視角-動作對齊兩大技術(shù)壁壘

人工智能
EgoTwin 是一個基于擴散模型的框架,能夠以視角一致且因果連貫的方式聯(lián)合生成第一人稱視角視頻和人體動作。生成的視頻可以通過從人體動作推導(dǎo)出的相機位姿,借助 3D 高斯點渲染(3D Gaussian Splatting)提升到三維場景中。

AI生成第三視角視頻已經(jīng)駕輕就熟,但第一視角生成卻仍然“不熟”。

為此,新加坡國立大學(xué)、南洋理工大學(xué)、香港科技大學(xué)與上海人工智能實驗室聯(lián)合發(fā)布EgoTwin ,首次實現(xiàn)了第一視角視頻與人體動作的聯(lián)合生成。

一舉攻克了視角-動作對齊與因果耦合兩大瓶頸,為可穿戴計算、AR及具身智能打開落地新入口。

圖片圖片

EgoTwin 是一個基于擴散模型的框架,能夠以視角一致且因果連貫的方式聯(lián)合生成第一人稱視角視頻和人體動作。

生成的視頻可以通過從人體動作推導(dǎo)出的相機位姿,借助 3D 高斯點渲染(3D Gaussian Splatting)提升到三維場景中。

圖片圖片

下面具體來看。

第一視角視頻與人體動作同步生成

核心挑戰(zhàn):第一視角生成的“兩難困境”

第一視角視頻的本質(zhì)是人體動作驅(qū)動的視覺記錄——頭部運動決定相機的位置與朝向,全身動作則影響身體姿態(tài)與周圍場景變化。

二者之間存在內(nèi)在的耦合關(guān)系,無法被單獨分離。傳統(tǒng)視頻生成方法難以適配這一特性,主要面臨兩大難題:

  1. 視角對齊難題生成視頻中的相機軌跡,必須與人體動作推導(dǎo)的頭部軌跡精準(zhǔn)匹配。但現(xiàn)有方法多依賴預(yù)設(shè)相機參數(shù)生成視頻,而第一視角的相機軌跡并非外部給定,而是由穿戴者頭部動作內(nèi)生決定,需要二者同步生成以保證對齊。
  2. 因果交互難題每一時序的視覺畫面為人體動作提供空間上下文(如“看到門把手”引導(dǎo)伸手動作),而新生成的動作又會改變后續(xù)視覺幀(如“開門”導(dǎo)致門的狀態(tài)與相機朝向變化)。這種“觀察-動作”的閉環(huán)依賴,要求模型捕捉二者隨時間的因果關(guān)聯(lián)。

三大創(chuàng)新破解核心難題

圖片圖片

△EgoTwin能同時生成“第一視角的場景視頻”和“匹配的人體動作”

為解決上述挑戰(zhàn),EgoTwin基于擴散Transformer架構(gòu),構(gòu)建了“文本-視頻-動作”三模態(tài)的聯(lián)合生成框架,通過三大關(guān)鍵設(shè)計實現(xiàn)突破兩大難題。

三通道架構(gòu)是指動作分支僅覆蓋文本與視頻分支下半部分的層數(shù)。

每個通道均配備獨立的tokenizer與Transformer模塊,并以相同顏色標(biāo)示跨通道共享的權(quán)重。

圖片圖片

下圖展示了“文本-視頻-動作”三個模態(tài)的雙向因果注意力交互機制。

圖片圖片

創(chuàng)新1:以頭部為中心的動作表征,讓視角對齊“一目了然”

傳統(tǒng)人體動作表征以身體根部為中心,頭部姿態(tài)需通過人體運動學(xué)計算推導(dǎo),容易造成誤差累計。

EgoTwin提出以頭部為中心的動作表征,直接將動作錨定在頭部關(guān)節(jié),實現(xiàn)與第一視角觀測精準(zhǔn)對齊:

  • 明確包含頭部絕對/相對位置(圖片,圖片)與旋轉(zhuǎn)角度(圖片,圖片),其他關(guān)節(jié)的位置與速度(圖片)則基于頭部坐標(biāo)系定義;
  • 初始幀頭部姿態(tài)歸一化為“零平移+單位旋轉(zhuǎn)”,讓相機視角與頭部動作的對應(yīng)關(guān)系更直接,無需額外復(fù)雜計算。實驗證明,相比傳統(tǒng)表征,該設(shè)計使頭部姿態(tài)回歸誤差顯著降低,為視角對齊奠定基礎(chǔ)。

創(chuàng)新2:控制論啟發(fā)的交互機制,捕捉因果關(guān)聯(lián)“動態(tài)閉環(huán)”

借鑒控制論中“觀察-動作”反饋循環(huán)原理,EgoTwin在注意力機制中加入結(jié)構(gòu)化掩碼,實現(xiàn)了視頻與動作之間的雙向因果交互:

  • 視頻 tokens 僅關(guān)注前序動作 tokens:體現(xiàn)“當(dāng)前視覺畫面由過去動作產(chǎn)生”;
  • 動作 tokens 同時關(guān)注當(dāng)前與后續(xù)視頻 tokens:實現(xiàn)“基于場景變化推斷動作”;
  • 初始姿態(tài)與初始視覺幀允許雙向注意力,保證生成序列的起點一致性。

這種設(shè)計避免了“全局一致但幀級錯位”的問題,實現(xiàn)細粒度時序同步。

創(chuàng)新3:視頻動作聯(lián)合的異步擴散訓(xùn)練框架,平衡效率與生成質(zhì)量

考慮到視頻與動作的模態(tài)差異(如動作采樣率通常是視頻的2倍),EgoTwin采用異步擴散訓(xùn)練策略:為視頻與動作分支分別設(shè)置獨立采樣時間步、添加高斯噪聲,再通過統(tǒng)一時間步嵌入融合,適配不同模態(tài)的演化節(jié)奏。

同時,框架采用三階段訓(xùn)練范式,兼顧效率與性能:

  1. 動作VAE預(yù)訓(xùn)練:單獨訓(xùn)練動作變分自編碼器,通過重構(gòu)損失與KL散度正則化,確保動作表征的有效性;
  2. 文本-動作預(yù)訓(xùn)練:凍結(jié)文本分支(保留預(yù)訓(xùn)練文本理解能力),僅訓(xùn)練動作分支,加速模型收斂;
  3. 三模態(tài)聯(lián)合訓(xùn)練:加入視頻分支,學(xué)習(xí)文本條件下視頻與動作的聯(lián)合分布,支持多種生成任務(wù)。

實驗驗證:性能全面超越基線

模型能夠根據(jù)文字和視頻生成動作,或者根據(jù)文字和動作生成視頻,甚至能把生成的視頻和動作變成3D場景(比如還原出房間的 3D 結(jié)構(gòu),再把人的動作放進去)。

首先看一下可視化結(jié)果。

△基于文本聯(lián)合生成視頻和動作△基于文本聯(lián)合生成視頻和動作

EgoTwin還支持根據(jù)動作和文本生成視頻(TM2V)、根據(jù)文本和視頻生成動作(TV2M)額外二種生成模式。

△基于文本和動作聯(lián)合生成視頻△基于文本和動作聯(lián)合生成視頻

△基于文本和視頻聯(lián)合生成動作△基于文本和視頻聯(lián)合生成動作

為客觀評估,團隊還從數(shù)據(jù)、指標(biāo)、結(jié)果三方面系統(tǒng)展開測試。

圖片圖片

實驗證明,EgoTwin比之前的基礎(chǔ)模型好很多:視頻和動作的匹配度更高,比如鏡頭和頭部的位置誤差變小了,手的動作在視頻里也更容易對應(yīng)上;

圖片圖片

消融實驗進一步驗證了核心設(shè)計的必要性:移除以頭部為中心的動作表征、因果交互機制或異步擴散訓(xùn)練策略后,模型性能均出現(xiàn)明顯下降,證明三大創(chuàng)新缺一不可。

圖片圖片

EgoTwin不僅顯著縮小了跨模態(tài)誤差,也為可穿戴交互、AR 內(nèi)容創(chuàng)作、具身智能體仿真等應(yīng)用提供了可直接落地的生成基座。

感興趣的朋友可戳下方鏈接了解更多具體內(nèi)容~

論文地址:https://arxiv.org/abs/2508.13013項目主頁與示例:https://egotwin.pages.dev

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2023-09-04 12:59:03

AI數(shù)據(jù)

2025-10-28 08:30:00

模型AI訓(xùn)練

2025-04-03 09:27:44

2025-07-25 10:19:44

2009-04-01 20:40:55

2024-12-04 16:08:12

2023-11-24 12:10:43

AI模型

2017-11-22 10:56:25

宏杉科技存儲

2025-01-07 08:40:00

視頻生成AI

2011-08-09 09:35:22

EMC云計算統(tǒng)一計算

2019-11-07 11:29:29

視覺技術(shù)數(shù)據(jù)網(wǎng)絡(luò)

2024-04-07 00:20:00

智能體技術(shù)

2023-11-23 07:41:54

因果推斷大模型

2020-11-11 12:18:22

ATT&CK網(wǎng)絡(luò)攻擊安全威脅

2016-10-25 09:13:21

SparkHadoop技術(shù)

2024-05-11 07:57:47

因果推斷知識地圖算法

2025-06-06 06:00:00

2020-04-29 15:45:42

腦機接口機器翻譯人工智能

2019-10-10 10:23:55

人工智能醫(yī)療技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號