偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

無(wú)需訓(xùn)練,即插即用:西湖大學(xué)發(fā)布世界模型WorldForge,讓普通視頻模型秒變「世界引擎」

人工智能 新聞
西湖大學(xué) AGI 實(shí)驗(yàn)室的研究團(tuán)隊(duì)給出了他們的答案。他們提出了名為?WorldForge?的全新框架,以一種 “即插即用” 的推理時(shí)引導(dǎo)方式,在不改動(dòng)任何權(quán)重的前提下,為視頻擴(kuò)散模型裝上了一個(gè) “導(dǎo)演大腦”,成功實(shí)現(xiàn)了單圖到 360° 世界生成和電影級(jí)視頻軌跡重運(yùn)鏡。

自 Sora 亮相以來(lái),AI 視頻的真實(shí)感突飛猛進(jìn),但可控性仍是瓶頸:模型像才華橫溢卻隨性的攝影師,難以精準(zhǔn)執(zhí)行 “導(dǎo)演指令”。我們能否讓 AI 做到:

  • 僅憑一張靜態(tài)照片,就能 “腦補(bǔ)” 出整個(gè) 3D 空間,生成一段圍繞主體的 360° 環(huán)繞視頻?
  • 現(xiàn)有的視頻能否進(jìn)行重新運(yùn)鏡,實(shí)現(xiàn)推、拉、搖、移等復(fù)雜的電影級(jí)鏡頭調(diào)度?

這些需求在影視制作、游戲開(kāi)發(fā)、虛擬現(xiàn)實(shí)等領(lǐng)域至關(guān)重要,但實(shí)現(xiàn)起來(lái)卻困難重重?,F(xiàn)有的技術(shù)路線往往顧此失彼:要么通過(guò)微調(diào)(Fine-tuning)模型來(lái)實(shí)現(xiàn),但所需算力昂貴,且易損害模型內(nèi)在的 “世界知識(shí)”,導(dǎo)致生成質(zhì)量下降;要么采用 “扭曲 - 重繪”(Warp-and-Repaint)的策略,但引導(dǎo)信號(hào)帶有的噪點(diǎn)和偽影,往往會(huì)誤導(dǎo)模型,造成幾何結(jié)構(gòu)錯(cuò)亂和細(xì)節(jié)失真。

有沒(méi)有第三條路?一條既能實(shí)現(xiàn)精準(zhǔn)控制,又不犧牲生成質(zhì)量,還無(wú)需重新訓(xùn)練的優(yōu)雅路徑?

西湖大學(xué) AGI 實(shí)驗(yàn)室的研究團(tuán)隊(duì)給出了他們的答案。他們提出了名為 WorldForge 的全新框架,以一種 “即插即用” 的推理時(shí)引導(dǎo)方式,在不改動(dòng)任何權(quán)重的前提下,為視頻擴(kuò)散模型裝上了一個(gè) “導(dǎo)演大腦”,成功實(shí)現(xiàn)了單圖到 360° 世界生成和電影級(jí)視頻軌跡重運(yùn)鏡。

  • 論文標(biāo)題:WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance
  • 論文鏈接:https://arxiv.org/abs/2509.15130
  • 項(xiàng)目主頁(yè):https://worldforge-agi.github.io/

本文第一作者宋晨曦,現(xiàn)為西湖大學(xué) AGI 實(shí)驗(yàn)室博士后研究員,研究方向?yàn)?3D/4D 場(chǎng)景重建與可控生成。指導(dǎo)老師為西湖大學(xué)助理教授張馳。

圖 1 WorldForge 實(shí)現(xiàn)單圖 3D 場(chǎng)景生成與 4D 視頻重運(yùn)鏡

方法概述:免訓(xùn)練引導(dǎo)框架,在推理時(shí)為視頻模型注入 「時(shí)空幾何」

WorldForge 的核心思想是:不在訓(xùn)練階段 “改造” 模型,而是在生成過(guò)程的每一步進(jìn)行精巧的 “干預(yù)” 和 “校準(zhǔn)”。它將用戶定義的相機(jī)軌跡作為指令,通過(guò)一系列創(chuàng)新的引導(dǎo)模塊,確保模型在自由發(fā)揮創(chuàng)造力的同時(shí),嚴(yán)格遵守時(shí)空幾何的一致性。

圖 2 WorldForge 的流程圖

整個(gè)框架的精髓,體現(xiàn)在以下三個(gè)關(guān)鍵創(chuàng)新點(diǎn)上:

1. 步內(nèi)遞歸修正(IRR):高精度 “導(dǎo)航”,注入軌跡引導(dǎo)

要確保 AI 生成的運(yùn)動(dòng)嚴(yán)格遵循預(yù)設(shè)的相機(jī)軌跡,核心挑戰(zhàn)在于如何將外部的控制信號(hào)精準(zhǔn)有效地注入到模型的生成過(guò)程中。

IRR 模塊為此引入了一種巧妙的步內(nèi)遞歸優(yōu)化機(jī)制:在每一步的推理過(guò)程中,首先讓模型自由預(yù)測(cè)下一刻的內(nèi)容,然后識(shí)別出畫(huà)面中參考內(nèi)容存在的 “已知區(qū)域”,并用真實(shí)內(nèi)容替換掉模型的預(yù)測(cè)。通過(guò)這種增量式的逐步校正,IRR 能在每一步有效注入軌跡控制信號(hào),避免軌跡逐步漂移。

2. 流門(mén)控潛在融合(FLF):動(dòng)靜分離,精準(zhǔn) “手術(shù)” 不傷細(xì)節(jié)

在 VAE 的潛在空間里,各通道分工不同:有的負(fù)責(zé)外觀紋理,有的負(fù)責(zé)運(yùn)動(dòng)驅(qū)動(dòng)。若把軌跡信號(hào)一股腦注入所有通道,必然干擾外觀通道,破壞細(xì)節(jié)。因此關(guān)鍵在于:只把 “運(yùn)動(dòng)指令” 精準(zhǔn)送達(dá)運(yùn)動(dòng)通道,避免觸碰外觀通道。

FLF 模塊基于光流相似性,區(qū)分出潛空間中的 “運(yùn)動(dòng)通道” 和 “外觀通道”,并僅向運(yùn)動(dòng)通道注入控制信號(hào),從而保護(hù)外觀通道不被干擾。它實(shí)現(xiàn)了動(dòng)靜分離,使得相機(jī)視角操控與畫(huà)面細(xì)節(jié)得以兼顧。

3. 雙路徑自校正引導(dǎo):“即興” 與 “臨摹” 互補(bǔ),兼得軌跡與畫(huà)質(zhì)

生成模型往往面臨一個(gè)兩難困境:可控性與生成質(zhì)量往往難以兼得。強(qiáng)引導(dǎo)(用深度扭曲得到的目標(biāo)幀)雖然能確保模型 “聽(tīng)話”,但這個(gè)引導(dǎo)信號(hào)本身帶有噪聲和誤差可能會(huì)影響最終的生成質(zhì)量。因此,真正的挑戰(zhàn)在于,如何設(shè)計(jì)一種機(jī)制,讓模型既能遵從引導(dǎo)信號(hào)的軌跡,又能規(guī)避掉其帶來(lái)的負(fù)面影響,保持自身強(qiáng)大的生成先驗(yàn)?

DSG 策略為此引入了一個(gè)非常精巧的動(dòng)態(tài)引導(dǎo)機(jī)制。它巧妙地利用了 IRR 模塊在去噪過(guò)程中產(chǎn)生的兩條并行路徑,將它們作為并行的 “解空間探索者”:

  • “即興創(chuàng)作”(Non-guided Path): 模型的原始預(yù)測(cè)。這條路徑就像成一位技藝高超的藝術(shù)家憑借其深厚的功底和藝術(shù)直覺(jué)進(jìn)行創(chuàng)作。其作品質(zhì)感一流,細(xì)節(jié)豐富,但創(chuàng)作主題是自由的,不受約束。
  • “精準(zhǔn)描摹”(Guided Path): 注入軌跡引導(dǎo)后的模型預(yù)測(cè)。這條路徑則像一位一絲不茍的學(xué)徒,嚴(yán)格按照一張已有的 “藍(lán)圖” 進(jìn)行描摹。它確保最終畫(huà)面的構(gòu)圖分毫不差,但代價(jià)是會(huì)一并復(fù)刻污點(diǎn)和瑕疵。

DSG 的核心操作是在每個(gè)去噪步驟中,計(jì)算兩條路徑的差異,形成動(dòng)態(tài)校正項(xiàng),將引導(dǎo)路徑的結(jié)果向非引導(dǎo)路徑的高質(zhì)量解拉近,從而在軌跡精確性與畫(huà)面質(zhì)量之間取得平衡。

圖 3、 消融實(shí)驗(yàn)

方法亮點(diǎn):從靜態(tài)到動(dòng)態(tài),從生成到編輯

憑借上述設(shè)計(jì),WorldForge 在多項(xiàng)高難任務(wù)上表現(xiàn)突出:

亮點(diǎn)一:?jiǎn)螆D直生 360° 環(huán)繞視圖,駕馭復(fù)雜開(kāi)放場(chǎng)景

僅需一張照片,即可生成清晰、穩(wěn)定、幾何一致的 360° 環(huán)繞視頻。無(wú)需先做全景中間件,更適合以目標(biāo)為中心的復(fù)雜場(chǎng)景,這正是傳統(tǒng)外向全景(outward-facing panorama)方案的短板。

圖 4、 單圖輸入的 360° 場(chǎng)景生成

亮點(diǎn)二:視頻的電影級(jí)可控重?cái)z影

用戶可為任意視頻指定希區(qū)柯克變焦、弧形環(huán)繞、升降搖移等復(fù)雜軌跡。WorldForge 能穩(wěn)定 “重拍” 并自動(dòng)補(bǔ)全新視角內(nèi)容。在人臉、動(dòng)態(tài)物體與復(fù)雜環(huán)境中更穩(wěn),減少肢體變形、物體漂浮等問(wèn)題。

圖 5 視頻重運(yùn)鏡效果

亮點(diǎn)三:視頻內(nèi)容的編輯與再創(chuàng)作

  • 視頻去抖與視角切換:在保持幾何一致性的前提下去除視頻抖動(dòng),并平滑切換不同機(jī)位;
  • 物體擦除與添加:智能識(shí)別并移除畫(huà)面中不需要的物體,或自然地添加新元素,使編輯結(jié)果與周?chē)h(huán)境無(wú)縫融合;
  • 主體變換與虛擬試穿:靈活替換人物主體或特定區(qū)域內(nèi)容,并能為人物主體更換不同服飾或外觀風(fēng)格。

圖6 視頻去抖

圖 7 視頻編輯(物體消除)

圖 8 虛擬試穿

亮點(diǎn)四:Training-Free,強(qiáng)泛化、易落地、低成本

WorldForge 最大的優(yōu)勢(shì)之一在于其無(wú)需訓(xùn)練(Training-free)的特性。這意味著它:

  • 靈活可遷移:作為一個(gè)即插即用的模塊,能夠應(yīng)用于多種主流視頻模型,無(wú)需針對(duì)性訓(xùn)練。
  • 泛化能力強(qiáng):WorldForge 具有卓越的跨域適應(yīng)性,無(wú)論是真實(shí)的攝影、藝術(shù)創(chuàng)作還是 AI 生成素材,都能穩(wěn)定適配。
  • 成本友好:免去重訓(xùn)與數(shù)據(jù)籌備,降低門(mén)檻,讓高質(zhì)量 3D/4D 創(chuàng)作更易獲得。

結(jié)語(yǔ):邁向 “可控世界模型” 的輕量路徑

WorldForge 的出現(xiàn),不僅僅是一項(xiàng)技術(shù)的突破,更代表著一種新的范式:在不犧牲大模型先驗(yàn)知識(shí)、不增加訓(xùn)練成本的前提下,于推理階段實(shí)現(xiàn)對(duì)生成過(guò)程的精準(zhǔn)控制。它證明視頻模型不僅是一個(gè)出色的內(nèi)容 “生成者”,更能成為一個(gè)聽(tīng)懂指令的 “執(zhí)行者”。這項(xiàng)工作極大地降低了高質(zhì)量的 3D/4D 視覺(jué)內(nèi)容的創(chuàng)作門(mén)檻,為影視預(yù)覽、游戲開(kāi)發(fā)、數(shù)字孿生領(lǐng)域提供了強(qiáng)大的新工具。

展望未來(lái),當(dāng)這種精準(zhǔn)的時(shí)空控制能力與更強(qiáng)的多模態(tài)理解(如語(yǔ)言、草圖)相結(jié)合,我們或許只需通過(guò)口頭描述或簡(jiǎn)單勾畫(huà),就能導(dǎo)演一部完全由 AI 生成的 “時(shí)空大片”。WorldForge 無(wú)疑為通往那個(gè) “可控世界模型” 未來(lái),提供了一條具有光明前景的技術(shù)路徑。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-09-22 09:16:00

2025-06-30 08:42:00

模型訓(xùn)練AI

2024-12-26 00:51:38

2024-04-18 12:16:37

MetaAIOpenEQA

2022-05-12 13:39:48

AI研究模型

2025-06-13 00:03:00

2025-10-10 07:48:12

大模型預(yù)訓(xùn)練初始化

2025-09-28 09:00:00

2024-11-12 10:20:00

模型數(shù)據(jù)

2025-10-28 08:46:00

2024-10-16 09:50:32

2025-01-26 11:00:00

2024-10-15 14:08:06

2024-02-27 09:19:13

谷歌AI

2025-01-02 09:12:34

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2024-09-03 17:43:54

2024-12-26 07:20:00

2024-05-24 08:42:29

智能體訓(xùn)練

2025-08-04 09:11:07

AI模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)