偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<center id="sjcyr"><tbody id="sjcyr"></tbody></center>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

首次實現(xiàn)第一視角視頻與人體動作同步生成！新框架攻克視角-動作對齊兩大技術(shù)壁壘

作者：量子位 2025-10-03 02:00:00

EgoTwin 是一個基于擴散模型的框架，能夠以視角一致且因果連貫的方式聯(lián)合生成第一人稱視角視頻和人體動作。生成的視頻可以通過從人體動作推導(dǎo)出的相機位姿，借助 3D 高斯點渲染（3D Gaussian Splatting）提升到三維場景中。

AI生成第三視角視頻已經(jīng)駕輕就熟，但第一視角生成卻仍然“不熟”。

為此，新加坡國立大學(xué)、南洋理工大學(xué)、香港科技大學(xué)與上海人工智能實驗室聯(lián)合發(fā)布EgoTwin ，首次實現(xiàn)了第一視角視頻與人體動作的聯(lián)合生成。

一舉攻克了視角-動作對齊與因果耦合兩大瓶頸，為可穿戴計算、AR及具身智能打開落地新入口。

圖片

EgoTwin 是一個基于擴散模型的框架，能夠以視角一致且因果連貫的方式聯(lián)合生成第一人稱視角視頻和人體動作。

生成的視頻可以通過從人體動作推導(dǎo)出的相機位姿，借助 3D 高斯點渲染（3D Gaussian Splatting）提升到三維場景中。

圖片

下面具體來看。

第一視角視頻與人體動作同步生成

核心挑戰(zhàn)：第一視角生成的“兩難困境”

第一視角視頻的本質(zhì)是人體動作驅(qū)動的視覺記錄——頭部運動決定相機的位置與朝向，全身動作則影響身體姿態(tài)與周圍場景變化。

二者之間存在內(nèi)在的耦合關(guān)系，無法被單獨分離。傳統(tǒng)視頻生成方法難以適配這一特性，主要面臨兩大難題：

視角對齊難題生成視頻中的相機軌跡，必須與人體動作推導(dǎo)的頭部軌跡精準(zhǔn)匹配。但現(xiàn)有方法多依賴預(yù)設(shè)相機參數(shù)生成視頻，而第一視角的相機軌跡并非外部給定，而是由穿戴者頭部動作內(nèi)生決定，需要二者同步生成以保證對齊。
因果交互難題每一時序的視覺畫面為人體動作提供空間上下文（如“看到門把手”引導(dǎo)伸手動作），而新生成的動作又會改變后續(xù)視覺幀（如“開門”導(dǎo)致門的狀態(tài)與相機朝向變化）。這種“觀察-動作”的閉環(huán)依賴，要求模型捕捉二者隨時間的因果關(guān)聯(lián)。

三大創(chuàng)新破解核心難題

圖片

△EgoTwin能同時生成“第一視角的場景視頻”和“匹配的人體動作”

為解決上述挑戰(zhàn)，EgoTwin基于擴散Transformer架構(gòu)，構(gòu)建了“文本-視頻-動作”三模態(tài)的聯(lián)合生成框架，通過三大關(guān)鍵設(shè)計實現(xiàn)突破兩大難題。

三通道架構(gòu)是指動作分支僅覆蓋文本與視頻分支下半部分的層數(shù)。

每個通道均配備獨立的tokenizer與Transformer模塊，并以相同顏色標(biāo)示跨通道共享的權(quán)重。

圖片

下圖展示了“文本-視頻-動作”三個模態(tài)的雙向因果注意力交互機制。

圖片

創(chuàng)新1：以頭部為中心的動作表征，讓視角對齊“一目了然”

傳統(tǒng)人體動作表征以身體根部為中心，頭部姿態(tài)需通過人體運動學(xué)計算推導(dǎo)，容易造成誤差累計。

EgoTwin提出以頭部為中心的動作表征，直接將動作錨定在頭部關(guān)節(jié)，實現(xiàn)與第一視角觀測精準(zhǔn)對齊：

明確包含頭部絕對/相對位置（,）與旋轉(zhuǎn)角度（,），其他關(guān)節(jié)的位置與速度（）則基于頭部坐標(biāo)系定義；
初始幀頭部姿態(tài)歸一化為“零平移+單位旋轉(zhuǎn)”，讓相機視角與頭部動作的對應(yīng)關(guān)系更直接，無需額外復(fù)雜計算。實驗證明，相比傳統(tǒng)表征，該設(shè)計使頭部姿態(tài)回歸誤差顯著降低，為視角對齊奠定基礎(chǔ)。

創(chuàng)新2：控制論啟發(fā)的交互機制，捕捉因果關(guān)聯(lián)“動態(tài)閉環(huán)”

借鑒控制論中“觀察-動作”反饋循環(huán)原理，EgoTwin在注意力機制中加入結(jié)構(gòu)化掩碼，實現(xiàn)了視頻與動作之間的雙向因果交互：

視頻 tokens 僅關(guān)注前序動作 tokens：體現(xiàn)“當(dāng)前視覺畫面由過去動作產(chǎn)生”；
動作 tokens 同時關(guān)注當(dāng)前與后續(xù)視頻 tokens：實現(xiàn)“基于場景變化推斷動作”；
初始姿態(tài)與初始視覺幀允許雙向注意力，保證生成序列的起點一致性。

這種設(shè)計避免了“全局一致但幀級錯位”的問題，實現(xiàn)細粒度時序同步。

創(chuàng)新3：視頻動作聯(lián)合的異步擴散訓(xùn)練框架，平衡效率與生成質(zhì)量

考慮到視頻與動作的模態(tài)差異（如動作采樣率通常是視頻的2倍），EgoTwin采用異步擴散訓(xùn)練策略：為視頻與動作分支分別設(shè)置獨立采樣時間步、添加高斯噪聲，再通過統(tǒng)一時間步嵌入融合，適配不同模態(tài)的演化節(jié)奏。

同時，框架采用三階段訓(xùn)練范式，兼顧效率與性能：

動作VAE預(yù)訓(xùn)練：單獨訓(xùn)練動作變分自編碼器，通過重構(gòu)損失與KL散度正則化，確保動作表征的有效性；
文本-動作預(yù)訓(xùn)練：凍結(jié)文本分支（保留預(yù)訓(xùn)練文本理解能力），僅訓(xùn)練動作分支，加速模型收斂；
三模態(tài)聯(lián)合訓(xùn)練：加入視頻分支，學(xué)習(xí)文本條件下視頻與動作的聯(lián)合分布，支持多種生成任務(wù)。

實驗驗證：性能全面超越基線

模型能夠根據(jù)文字和視頻生成動作，或者根據(jù)文字和動作生成視頻，甚至能把生成的視頻和動作變成3D場景（比如還原出房間的 3D 結(jié)構(gòu)，再把人的動作放進去）。

首先看一下可視化結(jié)果。

△基于文本聯(lián)合生成視頻和動作

EgoTwin還支持根據(jù)動作和文本生成視頻（TM2V）、根據(jù)文本和視頻生成動作（TV2M）額外二種生成模式。

△基于文本和動作聯(lián)合生成視頻

△基于文本和視頻聯(lián)合生成動作

為客觀評估，團隊還從數(shù)據(jù)、指標(biāo)、結(jié)果三方面系統(tǒng)展開測試。

圖片

實驗證明，EgoTwin比之前的基礎(chǔ)模型好很多：視頻和動作的匹配度更高，比如鏡頭和頭部的位置誤差變小了，手的動作在視頻里也更容易對應(yīng)上；

圖片

消融實驗進一步驗證了核心設(shè)計的必要性：移除以頭部為中心的動作表征、因果交互機制或異步擴散訓(xùn)練策略后，模型性能均出現(xiàn)明顯下降，證明三大創(chuàng)新缺一不可。

圖片

EgoTwin不僅顯著縮小了跨模態(tài)誤差，也為可穿戴交互、AR 內(nèi)容創(chuàng)作、具身智能體仿真等應(yīng)用提供了可直接落地的生成基座。

感興趣的朋友可戳下方鏈接了解更多具體內(nèi)容～

論文地址：https://arxiv.org/abs/2508.13013項目主頁與示例：https://egotwin.pages.dev

責(zé)任編輯：武曉燕來源：量子位

視頻人體動作 EgoTwin

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<track id="rivhg"><ol id="rivhg"><font id="rivhg"></font></ol></track>

<ruby id="rivhg"></ruby>