偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

無(wú)需訓(xùn)練，即插即用：西湖大學(xué)發(fā)布世界模型WorldForge，讓普通視頻模型秒變「世界引擎」

2025-09-23 12:48:36

人工智能新聞

西湖大學(xué) AGI 實(shí)驗(yàn)室的研究團(tuán)隊(duì)給出了他們的答案。他們提出了名為?WorldForge?的全新框架，以一種 “即插即用” 的推理時(shí)引導(dǎo)方式，在不改動(dòng)任何權(quán)重的前提下，為視頻擴(kuò)散模型裝上了一個(gè) “導(dǎo)演大腦”，成功實(shí)現(xiàn)了單圖到 360° 世界生成和電影級(jí)視頻軌跡重運(yùn)鏡。

自 Sora 亮相以來(lái)，AI 視頻的真實(shí)感突飛猛進(jìn)，但可控性仍是瓶頸：模型像才華橫溢卻隨性的攝影師，難以精準(zhǔn)執(zhí)行 “導(dǎo)演指令”。我們能否讓 AI 做到：

僅憑一張靜態(tài)照片，就能 “腦補(bǔ)” 出整個(gè) 3D 空間，生成一段圍繞主體的 360° 環(huán)繞視頻？
現(xiàn)有的視頻能否進(jìn)行重新運(yùn)鏡，實(shí)現(xiàn)推、拉、搖、移等復(fù)雜的電影級(jí)鏡頭調(diào)度？

這些需求在影視制作、游戲開(kāi)發(fā)、虛擬現(xiàn)實(shí)等領(lǐng)域至關(guān)重要，但實(shí)現(xiàn)起來(lái)卻困難重重?，F(xiàn)有的技術(shù)路線往往顧此失彼：要么通過(guò)微調(diào)（Fine-tuning）模型來(lái)實(shí)現(xiàn)，但所需算力昂貴，且易損害模型內(nèi)在的 “世界知識(shí)”，導(dǎo)致生成質(zhì)量下降；要么采用 “扭曲 - 重繪”（Warp-and-Repaint）的策略，但引導(dǎo)信號(hào)帶有的噪點(diǎn)和偽影，往往會(huì)誤導(dǎo)模型，造成幾何結(jié)構(gòu)錯(cuò)亂和細(xì)節(jié)失真。

有沒(méi)有第三條路？一條既能實(shí)現(xiàn)精準(zhǔn)控制，又不犧牲生成質(zhì)量，還無(wú)需重新訓(xùn)練的優(yōu)雅路徑？

西湖大學(xué) AGI 實(shí)驗(yàn)室的研究團(tuán)隊(duì)給出了他們的答案。他們提出了名為 WorldForge 的全新框架，以一種 “即插即用” 的推理時(shí)引導(dǎo)方式，在不改動(dòng)任何權(quán)重的前提下，為視頻擴(kuò)散模型裝上了一個(gè) “導(dǎo)演大腦”，成功實(shí)現(xiàn)了單圖到 360° 世界生成和電影級(jí)視頻軌跡重運(yùn)鏡。

論文標(biāo)題：WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance
論文鏈接：https://arxiv.org/abs/2509.15130
項(xiàng)目主頁(yè)：https://worldforge-agi.github.io/

本文第一作者宋晨曦，現(xiàn)為西湖大學(xué) AGI 實(shí)驗(yàn)室博士后研究員，研究方向?yàn)?3D/4D 場(chǎng)景重建與可控生成。指導(dǎo)老師為西湖大學(xué)助理教授張馳。

圖 1 WorldForge 實(shí)現(xiàn)單圖 3D 場(chǎng)景生成與 4D 視頻重運(yùn)鏡

方法概述：免訓(xùn)練引導(dǎo)框架，在推理時(shí)為視頻模型注入「時(shí)空幾何」

WorldForge 的核心思想是：不在訓(xùn)練階段 “改造” 模型，而是在生成過(guò)程的每一步進(jìn)行精巧的 “干預(yù)” 和 “校準(zhǔn)”。它將用戶定義的相機(jī)軌跡作為指令，通過(guò)一系列創(chuàng)新的引導(dǎo)模塊，確保模型在自由發(fā)揮創(chuàng)造力的同時(shí)，嚴(yán)格遵守時(shí)空幾何的一致性。

圖 2 WorldForge 的流程圖

整個(gè)框架的精髓，體現(xiàn)在以下三個(gè)關(guān)鍵創(chuàng)新點(diǎn)上：

1. 步內(nèi)遞歸修正（IRR）：高精度 “導(dǎo)航”，注入軌跡引導(dǎo)

要確保 AI 生成的運(yùn)動(dòng)嚴(yán)格遵循預(yù)設(shè)的相機(jī)軌跡，核心挑戰(zhàn)在于如何將外部的控制信號(hào)精準(zhǔn)有效地注入到模型的生成過(guò)程中。

IRR 模塊為此引入了一種巧妙的步內(nèi)遞歸優(yōu)化機(jī)制：在每一步的推理過(guò)程中，首先讓模型自由預(yù)測(cè)下一刻的內(nèi)容，然后識(shí)別出畫(huà)面中參考內(nèi)容存在的 “已知區(qū)域”，并用真實(shí)內(nèi)容替換掉模型的預(yù)測(cè)。通過(guò)這種增量式的逐步校正，IRR 能在每一步有效注入軌跡控制信號(hào)，避免軌跡逐步漂移。

2. 流門(mén)控潛在融合（FLF）：動(dòng)靜分離，精準(zhǔn) “手術(shù)” 不傷細(xì)節(jié)

在 VAE 的潛在空間里，各通道分工不同：有的負(fù)責(zé)外觀紋理，有的負(fù)責(zé)運(yùn)動(dòng)驅(qū)動(dòng)。若把軌跡信號(hào)一股腦注入所有通道，必然干擾外觀通道，破壞細(xì)節(jié)。因此關(guān)鍵在于：只把 “運(yùn)動(dòng)指令” 精準(zhǔn)送達(dá)運(yùn)動(dòng)通道，避免觸碰外觀通道。

FLF 模塊基于光流相似性，區(qū)分出潛空間中的 “運(yùn)動(dòng)通道” 和 “外觀通道”，并僅向運(yùn)動(dòng)通道注入控制信號(hào)，從而保護(hù)外觀通道不被干擾。它實(shí)現(xiàn)了動(dòng)靜分離，使得相機(jī)視角操控與畫(huà)面細(xì)節(jié)得以兼顧。

3. 雙路徑自校正引導(dǎo)：“即興” 與 “臨摹” 互補(bǔ)，兼得軌跡與畫(huà)質(zhì)

生成模型往往面臨一個(gè)兩難困境：可控性與生成質(zhì)量往往難以兼得。強(qiáng)引導(dǎo)（用深度扭曲得到的目標(biāo)幀）雖然能確保模型 “聽(tīng)話”，但這個(gè)引導(dǎo)信號(hào)本身帶有噪聲和誤差可能會(huì)影響最終的生成質(zhì)量。因此，真正的挑戰(zhàn)在于，如何設(shè)計(jì)一種機(jī)制，讓模型既能遵從引導(dǎo)信號(hào)的軌跡，又能規(guī)避掉其帶來(lái)的負(fù)面影響，保持自身強(qiáng)大的生成先驗(yàn)？

DSG 策略為此引入了一個(gè)非常精巧的動(dòng)態(tài)引導(dǎo)機(jī)制。它巧妙地利用了 IRR 模塊在去噪過(guò)程中產(chǎn)生的兩條并行路徑，將它們作為并行的 “解空間探索者”：

“即興創(chuàng)作”（Non-guided Path）：模型的原始預(yù)測(cè)。這條路徑就像成一位技藝高超的藝術(shù)家憑借其深厚的功底和藝術(shù)直覺(jué)進(jìn)行創(chuàng)作。其作品質(zhì)感一流，細(xì)節(jié)豐富，但創(chuàng)作主題是自由的，不受約束。
“精準(zhǔn)描摹”（Guided Path）：注入軌跡引導(dǎo)后的模型預(yù)測(cè)。這條路徑則像一位一絲不茍的學(xué)徒，嚴(yán)格按照一張已有的 “藍(lán)圖” 進(jìn)行描摹。它確保最終畫(huà)面的構(gòu)圖分毫不差，但代價(jià)是會(huì)一并復(fù)刻污點(diǎn)和瑕疵。

DSG 的核心操作是在每個(gè)去噪步驟中，計(jì)算兩條路徑的差異，形成動(dòng)態(tài)校正項(xiàng)，將引導(dǎo)路徑的結(jié)果向非引導(dǎo)路徑的高質(zhì)量解拉近，從而在軌跡精確性與畫(huà)面質(zhì)量之間取得平衡。

圖 3、消融實(shí)驗(yàn)

方法亮點(diǎn)：從靜態(tài)到動(dòng)態(tài)，從生成到編輯

憑借上述設(shè)計(jì)，WorldForge 在多項(xiàng)高難任務(wù)上表現(xiàn)突出：

亮點(diǎn)一：?jiǎn)螆D直生 360° 環(huán)繞視圖，駕馭復(fù)雜開(kāi)放場(chǎng)景

僅需一張照片，即可生成清晰、穩(wěn)定、幾何一致的 360° 環(huán)繞視頻。無(wú)需先做全景中間件，更適合以目標(biāo)為中心的復(fù)雜場(chǎng)景，這正是傳統(tǒng)外向全景（outward-facing panorama）方案的短板。

圖 4、單圖輸入的 360° 場(chǎng)景生成

亮點(diǎn)二：視頻的電影級(jí)可控重?cái)z影

用戶可為任意視頻指定希區(qū)柯克變焦、弧形環(huán)繞、升降搖移等復(fù)雜軌跡。WorldForge 能穩(wěn)定 “重拍” 并自動(dòng)補(bǔ)全新視角內(nèi)容。在人臉、動(dòng)態(tài)物體與復(fù)雜環(huán)境中更穩(wěn)，減少肢體變形、物體漂浮等問(wèn)題。

圖 5 視頻重運(yùn)鏡效果

亮點(diǎn)三：視頻內(nèi)容的編輯與再創(chuàng)作

視頻去抖與視角切換：在保持幾何一致性的前提下去除視頻抖動(dòng)，并平滑切換不同機(jī)位；
物體擦除與添加：智能識(shí)別并移除畫(huà)面中不需要的物體，或自然地添加新元素，使編輯結(jié)果與周?chē)h(huán)境無(wú)縫融合；
主體變換與虛擬試穿：靈活替換人物主體或特定區(qū)域內(nèi)容，并能為人物主體更換不同服飾或外觀風(fēng)格。

圖6 視頻去抖

圖 7 視頻編輯（物體消除）

圖 8 虛擬試穿

亮點(diǎn)四：Training-Free，強(qiáng)泛化、易落地、低成本

WorldForge 最大的優(yōu)勢(shì)之一在于其無(wú)需訓(xùn)練（Training-free）的特性。這意味著它：

靈活可遷移：作為一個(gè)即插即用的模塊，能夠應(yīng)用于多種主流視頻模型，無(wú)需針對(duì)性訓(xùn)練。
泛化能力強(qiáng)：WorldForge 具有卓越的跨域適應(yīng)性，無(wú)論是真實(shí)的攝影、藝術(shù)創(chuàng)作還是 AI 生成素材，都能穩(wěn)定適配。
成本友好：免去重訓(xùn)與數(shù)據(jù)籌備，降低門(mén)檻，讓高質(zhì)量 3D/4D 創(chuàng)作更易獲得。

結(jié)語(yǔ)：邁向 “可控世界模型” 的輕量路徑

WorldForge 的出現(xiàn)，不僅僅是一項(xiàng)技術(shù)的突破，更代表著一種新的范式：在不犧牲大模型先驗(yàn)知識(shí)、不增加訓(xùn)練成本的前提下，于推理階段實(shí)現(xiàn)對(duì)生成過(guò)程的精準(zhǔn)控制。它證明視頻模型不僅是一個(gè)出色的內(nèi)容 “生成者”，更能成為一個(gè)聽(tīng)懂指令的 “執(zhí)行者”。這項(xiàng)工作極大地降低了高質(zhì)量的 3D/4D 視覺(jué)內(nèi)容的創(chuàng)作門(mén)檻，為影視預(yù)覽、游戲開(kāi)發(fā)、數(shù)字孿生領(lǐng)域提供了強(qiáng)大的新工具。

展望未來(lái)，當(dāng)這種精準(zhǔn)的時(shí)空控制能力與更強(qiáng)的多模態(tài)理解（如語(yǔ)言、草圖）相結(jié)合，我們或許只需通過(guò)口頭描述或簡(jiǎn)單勾畫(huà)，就能導(dǎo)演一部完全由 AI 生成的 “時(shí)空大片”。WorldForge 無(wú)疑為通往那個(gè) “可控世界模型” 未來(lái)，提供了一條具有光明前景的技術(shù)路徑。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AGI 模型框架

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<xmp id="prnf3"><cite id="prnf3"><rp id="prnf3"></rp></cite></xmp>

<sub id="prnf3"><p id="prnf3"><li id="prnf3"></li></p></sub>

<em id="prnf3"><menuitem id="prnf3"><thead id="prnf3"></thead></menuitem></em><u id="prnf3"></u>

<p id="prnf3"><li id="prnf3"><sup id="prnf3"></sup></li></p>