無(wú)需訓(xùn)練,即插即用:西湖大學(xué)發(fā)布世界模型WorldForge,讓普通視頻模型秒變「世界引擎」
自 Sora 亮相以來(lái),AI 視頻的真實(shí)感突飛猛進(jìn),但可控性仍是瓶頸:模型像才華橫溢卻隨性的攝影師,難以精準(zhǔn)執(zhí)行 “導(dǎo)演指令”。我們能否讓 AI 做到:
- 僅憑一張靜態(tài)照片,就能 “腦補(bǔ)” 出整個(gè) 3D 空間,生成一段圍繞主體的 360° 環(huán)繞視頻?
- 現(xiàn)有的視頻能否進(jìn)行重新運(yùn)鏡,實(shí)現(xiàn)推、拉、搖、移等復(fù)雜的電影級(jí)鏡頭調(diào)度?
這些需求在影視制作、游戲開(kāi)發(fā)、虛擬現(xiàn)實(shí)等領(lǐng)域至關(guān)重要,但實(shí)現(xiàn)起來(lái)卻困難重重?,F(xiàn)有的技術(shù)路線往往顧此失彼:要么通過(guò)微調(diào)(Fine-tuning)模型來(lái)實(shí)現(xiàn),但所需算力昂貴,且易損害模型內(nèi)在的 “世界知識(shí)”,導(dǎo)致生成質(zhì)量下降;要么采用 “扭曲 - 重繪”(Warp-and-Repaint)的策略,但引導(dǎo)信號(hào)帶有的噪點(diǎn)和偽影,往往會(huì)誤導(dǎo)模型,造成幾何結(jié)構(gòu)錯(cuò)亂和細(xì)節(jié)失真。
有沒(méi)有第三條路?一條既能實(shí)現(xiàn)精準(zhǔn)控制,又不犧牲生成質(zhì)量,還無(wú)需重新訓(xùn)練的優(yōu)雅路徑?
西湖大學(xué) AGI 實(shí)驗(yàn)室的研究團(tuán)隊(duì)給出了他們的答案。他們提出了名為 WorldForge 的全新框架,以一種 “即插即用” 的推理時(shí)引導(dǎo)方式,在不改動(dòng)任何權(quán)重的前提下,為視頻擴(kuò)散模型裝上了一個(gè) “導(dǎo)演大腦”,成功實(shí)現(xiàn)了單圖到 360° 世界生成和電影級(jí)視頻軌跡重運(yùn)鏡。

- 論文標(biāo)題:WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance
- 論文鏈接:https://arxiv.org/abs/2509.15130
- 項(xiàng)目主頁(yè):https://worldforge-agi.github.io/
本文第一作者宋晨曦,現(xiàn)為西湖大學(xué) AGI 實(shí)驗(yàn)室博士后研究員,研究方向?yàn)?3D/4D 場(chǎng)景重建與可控生成。指導(dǎo)老師為西湖大學(xué)助理教授張馳。

圖 1 WorldForge 實(shí)現(xiàn)單圖 3D 場(chǎng)景生成與 4D 視頻重運(yùn)鏡

方法概述:免訓(xùn)練引導(dǎo)框架,在推理時(shí)為視頻模型注入 「時(shí)空幾何」
WorldForge 的核心思想是:不在訓(xùn)練階段 “改造” 模型,而是在生成過(guò)程的每一步進(jìn)行精巧的 “干預(yù)” 和 “校準(zhǔn)”。它將用戶定義的相機(jī)軌跡作為指令,通過(guò)一系列創(chuàng)新的引導(dǎo)模塊,確保模型在自由發(fā)揮創(chuàng)造力的同時(shí),嚴(yán)格遵守時(shí)空幾何的一致性。

圖 2 WorldForge 的流程圖
整個(gè)框架的精髓,體現(xiàn)在以下三個(gè)關(guān)鍵創(chuàng)新點(diǎn)上:
1. 步內(nèi)遞歸修正(IRR):高精度 “導(dǎo)航”,注入軌跡引導(dǎo)
要確保 AI 生成的運(yùn)動(dòng)嚴(yán)格遵循預(yù)設(shè)的相機(jī)軌跡,核心挑戰(zhàn)在于如何將外部的控制信號(hào)精準(zhǔn)有效地注入到模型的生成過(guò)程中。
IRR 模塊為此引入了一種巧妙的步內(nèi)遞歸優(yōu)化機(jī)制:在每一步的推理過(guò)程中,首先讓模型自由預(yù)測(cè)下一刻的內(nèi)容,然后識(shí)別出畫(huà)面中參考內(nèi)容存在的 “已知區(qū)域”,并用真實(shí)內(nèi)容替換掉模型的預(yù)測(cè)。通過(guò)這種增量式的逐步校正,IRR 能在每一步有效注入軌跡控制信號(hào),避免軌跡逐步漂移。
2. 流門(mén)控潛在融合(FLF):動(dòng)靜分離,精準(zhǔn) “手術(shù)” 不傷細(xì)節(jié)
在 VAE 的潛在空間里,各通道分工不同:有的負(fù)責(zé)外觀紋理,有的負(fù)責(zé)運(yùn)動(dòng)驅(qū)動(dòng)。若把軌跡信號(hào)一股腦注入所有通道,必然干擾外觀通道,破壞細(xì)節(jié)。因此關(guān)鍵在于:只把 “運(yùn)動(dòng)指令” 精準(zhǔn)送達(dá)運(yùn)動(dòng)通道,避免觸碰外觀通道。
FLF 模塊基于光流相似性,區(qū)分出潛空間中的 “運(yùn)動(dòng)通道” 和 “外觀通道”,并僅向運(yùn)動(dòng)通道注入控制信號(hào),從而保護(hù)外觀通道不被干擾。它實(shí)現(xiàn)了動(dòng)靜分離,使得相機(jī)視角操控與畫(huà)面細(xì)節(jié)得以兼顧。
3. 雙路徑自校正引導(dǎo):“即興” 與 “臨摹” 互補(bǔ),兼得軌跡與畫(huà)質(zhì)
生成模型往往面臨一個(gè)兩難困境:可控性與生成質(zhì)量往往難以兼得。強(qiáng)引導(dǎo)(用深度扭曲得到的目標(biāo)幀)雖然能確保模型 “聽(tīng)話”,但這個(gè)引導(dǎo)信號(hào)本身帶有噪聲和誤差可能會(huì)影響最終的生成質(zhì)量。因此,真正的挑戰(zhàn)在于,如何設(shè)計(jì)一種機(jī)制,讓模型既能遵從引導(dǎo)信號(hào)的軌跡,又能規(guī)避掉其帶來(lái)的負(fù)面影響,保持自身強(qiáng)大的生成先驗(yàn)?
DSG 策略為此引入了一個(gè)非常精巧的動(dòng)態(tài)引導(dǎo)機(jī)制。它巧妙地利用了 IRR 模塊在去噪過(guò)程中產(chǎn)生的兩條并行路徑,將它們作為并行的 “解空間探索者”:
- “即興創(chuàng)作”(Non-guided Path): 模型的原始預(yù)測(cè)。這條路徑就像成一位技藝高超的藝術(shù)家憑借其深厚的功底和藝術(shù)直覺(jué)進(jìn)行創(chuàng)作。其作品質(zhì)感一流,細(xì)節(jié)豐富,但創(chuàng)作主題是自由的,不受約束。
- “精準(zhǔn)描摹”(Guided Path): 注入軌跡引導(dǎo)后的模型預(yù)測(cè)。這條路徑則像一位一絲不茍的學(xué)徒,嚴(yán)格按照一張已有的 “藍(lán)圖” 進(jìn)行描摹。它確保最終畫(huà)面的構(gòu)圖分毫不差,但代價(jià)是會(huì)一并復(fù)刻污點(diǎn)和瑕疵。
DSG 的核心操作是在每個(gè)去噪步驟中,計(jì)算兩條路徑的差異,形成動(dòng)態(tài)校正項(xiàng),將引導(dǎo)路徑的結(jié)果向非引導(dǎo)路徑的高質(zhì)量解拉近,從而在軌跡精確性與畫(huà)面質(zhì)量之間取得平衡。

圖 3、 消融實(shí)驗(yàn)
方法亮點(diǎn):從靜態(tài)到動(dòng)態(tài),從生成到編輯
憑借上述設(shè)計(jì),WorldForge 在多項(xiàng)高難任務(wù)上表現(xiàn)突出:
亮點(diǎn)一:?jiǎn)螆D直生 360° 環(huán)繞視圖,駕馭復(fù)雜開(kāi)放場(chǎng)景
僅需一張照片,即可生成清晰、穩(wěn)定、幾何一致的 360° 環(huán)繞視頻。無(wú)需先做全景中間件,更適合以目標(biāo)為中心的復(fù)雜場(chǎng)景,這正是傳統(tǒng)外向全景(outward-facing panorama)方案的短板。

圖 4、 單圖輸入的 360° 場(chǎng)景生成
亮點(diǎn)二:視頻的電影級(jí)可控重?cái)z影
用戶可為任意視頻指定希區(qū)柯克變焦、弧形環(huán)繞、升降搖移等復(fù)雜軌跡。WorldForge 能穩(wěn)定 “重拍” 并自動(dòng)補(bǔ)全新視角內(nèi)容。在人臉、動(dòng)態(tài)物體與復(fù)雜環(huán)境中更穩(wěn),減少肢體變形、物體漂浮等問(wèn)題。

圖 5 視頻重運(yùn)鏡效果
亮點(diǎn)三:視頻內(nèi)容的編輯與再創(chuàng)作
- 視頻去抖與視角切換:在保持幾何一致性的前提下去除視頻抖動(dòng),并平滑切換不同機(jī)位;
- 物體擦除與添加:智能識(shí)別并移除畫(huà)面中不需要的物體,或自然地添加新元素,使編輯結(jié)果與周?chē)h(huán)境無(wú)縫融合;
- 主體變換與虛擬試穿:靈活替換人物主體或特定區(qū)域內(nèi)容,并能為人物主體更換不同服飾或外觀風(fēng)格。

圖6 視頻去抖

圖 7 視頻編輯(物體消除)

圖 8 虛擬試穿
亮點(diǎn)四:Training-Free,強(qiáng)泛化、易落地、低成本
WorldForge 最大的優(yōu)勢(shì)之一在于其無(wú)需訓(xùn)練(Training-free)的特性。這意味著它:
- 靈活可遷移:作為一個(gè)即插即用的模塊,能夠應(yīng)用于多種主流視頻模型,無(wú)需針對(duì)性訓(xùn)練。
- 泛化能力強(qiáng):WorldForge 具有卓越的跨域適應(yīng)性,無(wú)論是真實(shí)的攝影、藝術(shù)創(chuàng)作還是 AI 生成素材,都能穩(wěn)定適配。
- 成本友好:免去重訓(xùn)與數(shù)據(jù)籌備,降低門(mén)檻,讓高質(zhì)量 3D/4D 創(chuàng)作更易獲得。
結(jié)語(yǔ):邁向 “可控世界模型” 的輕量路徑
WorldForge 的出現(xiàn),不僅僅是一項(xiàng)技術(shù)的突破,更代表著一種新的范式:在不犧牲大模型先驗(yàn)知識(shí)、不增加訓(xùn)練成本的前提下,于推理階段實(shí)現(xiàn)對(duì)生成過(guò)程的精準(zhǔn)控制。它證明視頻模型不僅是一個(gè)出色的內(nèi)容 “生成者”,更能成為一個(gè)聽(tīng)懂指令的 “執(zhí)行者”。這項(xiàng)工作極大地降低了高質(zhì)量的 3D/4D 視覺(jué)內(nèi)容的創(chuàng)作門(mén)檻,為影視預(yù)覽、游戲開(kāi)發(fā)、數(shù)字孿生領(lǐng)域提供了強(qiáng)大的新工具。
展望未來(lái),當(dāng)這種精準(zhǔn)的時(shí)空控制能力與更強(qiáng)的多模態(tài)理解(如語(yǔ)言、草圖)相結(jié)合,我們或許只需通過(guò)口頭描述或簡(jiǎn)單勾畫(huà),就能導(dǎo)演一部完全由 AI 生成的 “時(shí)空大片”。WorldForge 無(wú)疑為通往那個(gè) “可控世界模型” 未來(lái),提供了一條具有光明前景的技術(shù)路徑。





































