偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

四分鐘視頻生成:Self-Forcing++無(wú)需長(zhǎng)視頻監(jiān)督的突破性突破

人工智能
當(dāng)前SOTA視頻生成模型仍被限制在5-10秒短視頻生成。Self-Forcing++通過(guò)創(chuàng)新訓(xùn)練框架,成功突破這一限制,實(shí)現(xiàn)4分15秒高質(zhì)量視頻生成,相當(dāng)于基礎(chǔ)模型位置嵌入支持最大跨度的99.9%。

大家好,我是肆〇柒。今天我們一起閱讀一項(xiàng)研究成果——由UCLA、字節(jié)跳動(dòng)Seed團(tuán)隊(duì)和中佛羅里達(dá)大學(xué)聯(lián)合研發(fā)的Self-Forcing++技術(shù)。這項(xiàng)工作由字節(jié)跳動(dòng)Seed的吳杰擔(dān)任項(xiàng)目負(fù)責(zé)人,UCLA的Cho-Jui Hsieh教授作為通訊作者,帶領(lǐng)團(tuán)隊(duì)成功解決了視頻生成領(lǐng)域的"5秒魔咒",實(shí)現(xiàn)了長(zhǎng)達(dá)4分15秒的高質(zhì)量視頻生成,且無(wú)需長(zhǎng)視頻教師監(jiān)督或重新訓(xùn)練長(zhǎng)視頻數(shù)據(jù)集,為影視級(jí)內(nèi)容創(chuàng)作提供了創(chuàng)新思考。

100秒視頻生成對(duì)比

這是當(dāng)前最先進(jìn)模型生成的100秒"熱帶魚"視頻:CausVid從30秒開始嚴(yán)重過(guò)曝,畫面逐漸變亮直至完全過(guò)曝;Self-Forcing從50秒開始逐漸變暗,最終陷入運(yùn)動(dòng)停滯;MAGI-1和SkyReels-V2則表現(xiàn)為中度到重度的過(guò)曝光,特別是MAGI-1從15秒標(biāo)記開始,大面積區(qū)域變成純白色。這些視頻不是"不會(huì)畫",而是錯(cuò)誤在連續(xù)潛在空間中累積的必然結(jié)果——0-25秒表現(xiàn)為輕微抖動(dòng);25-50秒發(fā)展為運(yùn)動(dòng)停滯;50秒后則進(jìn)入視覺保真度災(zāi)難性下降階段。這一現(xiàn)象揭示了視頻生成領(lǐng)域的核心困境:為何當(dāng)前SOTA模型(Sora、Wan、Hunyuan-DiT、Veo)仍被限制在5-10秒短視頻生成?

現(xiàn)有方案的雙重困境:為何長(zhǎng)視頻生成如此困難?

長(zhǎng)視頻生成面臨的核心挑戰(zhàn)源于訓(xùn)練與推理之間的雙重錯(cuò)位。當(dāng)模型嘗試生成超出5秒訓(xùn)練窗口的視頻時(shí),質(zhì)量會(huì)急劇下降,通常退化為靜態(tài)或停滯內(nèi)容。值得注意的是,超出訓(xùn)練窗口的視頻通常保持結(jié)構(gòu)一致性,即使表現(xiàn)為不希望的artifacts如運(yùn)動(dòng)停滯。這表明問(wèn)題本質(zhì)并非自回歸機(jī)制的根本崩潰,而是錯(cuò)誤在連續(xù)潛在空間中累積。

訓(xùn)練推理對(duì)齊對(duì)比

該圖清晰揭示了三種方法在訓(xùn)練-推理對(duì)齊方面的本質(zhì)區(qū)別。CausVid采用純隨機(jī)噪聲初始化,依賴重疊幀計(jì)算維持時(shí)間一致性,導(dǎo)致嚴(yán)重的訓(xùn)練-推理不匹配和過(guò)曝光問(wèn)題;Self-Forcing雖引入了KV緩存,但訓(xùn)練時(shí)使用固定緩存而推理時(shí)使用滾動(dòng)緩存,形成新型不匹配;Self-Forcing++則通過(guò)向后噪聲初始化和滾動(dòng)KV緩存在訓(xùn)練和推理階段保持一致,從根本上解決了訓(xùn)練-推理不匹配問(wèn)題。

錯(cuò)誤累積的雙重表現(xiàn)尤為關(guān)鍵:首先,時(shí)間錯(cuò)位問(wèn)題顯著——訓(xùn)練過(guò)程中模型僅生成不超過(guò)5秒的短片段,而在推理時(shí)卻需要生成遠(yuǎn)超這一時(shí)長(zhǎng)的視頻;其次,監(jiān)督錯(cuò)位問(wèn)題同樣關(guān)鍵——在訓(xùn)練中,教師模型為短片段內(nèi)的每一幀提供豐富監(jiān)督,但這種密集指導(dǎo)導(dǎo)致學(xué)生模型極少接觸長(zhǎng)滾動(dòng)中自然產(chǎn)生的累積錯(cuò)誤,使其在處理長(zhǎng)序列時(shí)準(zhǔn)備不足。這些累積錯(cuò)誤最終表現(xiàn)為運(yùn)動(dòng)損失、場(chǎng)景凍結(jié)和視覺保真度的災(zāi)難性下降,形成難以突破的惡性循環(huán)。

從CausVid到Self-Forcing:解決過(guò)曝光的演進(jìn)與局限

CausVid作為早期嘗試,通過(guò)將雙向教師模型蒸餾為流式學(xué)生模型,為長(zhǎng)視頻生成提供了初步方案。然而,該方法嚴(yán)重依賴重疊幀計(jì)算來(lái)維持時(shí)間一致性,導(dǎo)致顯著的訓(xùn)練-推理不匹配問(wèn)題。這一缺陷使得CausVid在長(zhǎng)視頻生成中表現(xiàn)出明顯的過(guò)曝光問(wèn)題——視頻逐漸變亮直至完全過(guò)曝,嚴(yán)重?fù)p害了視覺質(zhì)量。

Self-Forcing在此基礎(chǔ)上進(jìn)行了重要改進(jìn),通過(guò)在訓(xùn)練中直接引入KV緩存,有效對(duì)齊了訓(xùn)練與推理分布。這一改進(jìn)顯著緩解了過(guò)曝光問(wèn)題,提升了短時(shí)域視頻質(zhì)量,語(yǔ)義得分達(dá)到83.71,總分83.00,超越了其他基線方法。然而,Self-Forcing仍存在未解決的瓶頸:訓(xùn)練時(shí)使用固定緩存而推理時(shí)使用滾動(dòng)緩存,導(dǎo)致新的訓(xùn)練-推理不匹配;5秒訓(xùn)練窗口限制使得超出該時(shí)長(zhǎng)后質(zhì)量驟降,100秒視頻的動(dòng)態(tài)程度僅26.41;缺乏專門處理長(zhǎng)序列中錯(cuò)誤傳播的機(jī)制,導(dǎo)致錯(cuò)誤累積問(wèn)題依然存在。

評(píng)估指標(biāo)偏差

一個(gè)令人意外的發(fā)現(xiàn)是,廣泛使用的VBench評(píng)估基準(zhǔn)存在嚴(yán)重偏差,傾向于高估過(guò)曝光和退化幀。左圖顯示了圖像質(zhì)量評(píng)分問(wèn)題,右圖展示了美學(xué)質(zhì)量評(píng)分問(wèn)題,VBench對(duì)早期和后期幀的常規(guī)與退化圖像評(píng)分失真,錯(cuò)誤地獎(jiǎng)勵(lì)了CausVid等過(guò)曝方法和Self-Forcing等退化方法。例如,在"宇航員在月球表面奔跑"場(chǎng)景中,CausVid從0秒開始就顯示明顯過(guò)曝光,但VBench評(píng)分仍高達(dá)53.64,而質(zhì)量良好的Self-Forcing++視頻卻僅獲59.05分。這一評(píng)估偏差掩蓋了真實(shí)質(zhì)量差異,誤導(dǎo)了研究方向。

Self-Forcing++:解決長(zhǎng)視頻生成的范式轉(zhuǎn)變

Self-Forcing++提出了一個(gè)簡(jiǎn)單而有效的范式轉(zhuǎn)變,核心思想是利用短時(shí)域教師模型糾正學(xué)生模型的長(zhǎng)序列錯(cuò)誤。盡管教師模型不能生成長(zhǎng)視頻,但它隱含地捕獲了"世界"的基礎(chǔ)數(shù)據(jù)分布,能夠糾正學(xué)生模型長(zhǎng)序列中的錯(cuò)誤。這一思路將雙向擴(kuò)散模型的恢復(fù)過(guò)程適應(yīng)到自回歸視頻生成領(lǐng)域——教師模型在不同的時(shí)間幀上逐步恢復(fù)學(xué)生退化的滾動(dòng)輸出,并將這些糾正知識(shí)蒸餾回學(xué)生模型。

擴(kuò)展分布匹配蒸餾(Extended Distribution Matching Distillation)基于一個(gè)突破性假設(shè):任何短的連續(xù)視頻片段都是有效長(zhǎng)視頻序列邊緣分布的樣本。實(shí)現(xiàn)上,學(xué)生模型首先滾動(dòng)生成N幀(N遠(yuǎn)大于T,T為教師模型可靠生成的最大時(shí)長(zhǎng),通常約5秒,對(duì)應(yīng)21個(gè)潛在幀),然后在長(zhǎng)序列中均勻采樣長(zhǎng)度為T的窗口,計(jì)算學(xué)生與教師模型在該窗口內(nèi)的分布差異。數(shù)學(xué)表達(dá)為:。其中,窗口大小K通常匹配教師模型原始訓(xùn)練時(shí)長(zhǎng)(約5秒,對(duì)應(yīng)21個(gè)潛在幀)。這種滑動(dòng)窗口方法有效利用了教師模型隱含的"世界"知識(shí),使學(xué)生模型學(xué)會(huì)從自身退化狀態(tài)中恢復(fù)。

錯(cuò)誤累積消融研究

消融研究表明,通過(guò)縮小注意力窗口可以部分緩解錯(cuò)誤累積問(wèn)題。例如,將窗口縮小到9個(gè)潛在幀時(shí),視覺穩(wěn)定性從40.12提高到52.50。然而,這種方法以犧牲一致性為代價(jià),因?yàn)槟P同F(xiàn)在依賴的上下文比原始21幀歷史少得多。相比之下,Self-Forcing++無(wú)需縮小注意力窗口,就能將視覺穩(wěn)定性提升至90.94,大幅優(yōu)于所有其他方法。

訓(xùn)練與推理對(duì)齊方面,Self-Forcing++采用滾動(dòng)KV緩存策略,徹底解決了訓(xùn)練-推理不匹配問(wèn)題。與CausVid和Self-Forcing不同,Self-Forcing++在訓(xùn)練和推理階段均使用滾動(dòng)緩存,無(wú)需重計(jì)算重疊幀,避免了過(guò)曝光問(wèn)題,實(shí)現(xiàn)了真正自回歸的長(zhǎng)視頻生成。學(xué)生模型通過(guò)學(xué)習(xí)從自身退化狀態(tài)恢復(fù),有效處理了長(zhǎng)序列中的錯(cuò)誤傳播。

時(shí)間重復(fù)評(píng)分對(duì)比

在時(shí)間重復(fù)問(wèn)題上,Self-Forcing++的NoRepeat評(píng)分為98.44,僅次于Self-Forcing的100.0分。這表明自回歸方法主要依賴KV緩存生成新幀,不太容易出現(xiàn)時(shí)間重復(fù)問(wèn)題。相比之下,NOVA得分為67.19,MAGI-1得分為73.44,表明這些方法在擴(kuò)展到長(zhǎng)視頻時(shí)更容易出現(xiàn)固定循環(huán)模式。在熱帶魚場(chǎng)景中,NOVA和MAGI-1在100秒視頻中出現(xiàn)明顯的周期性重復(fù)模式,如魚群運(yùn)動(dòng)呈現(xiàn)固定循環(huán),而Self-Forcing++在255秒視頻中未觀察到明顯的時(shí)間重復(fù)現(xiàn)象。

GRPO效果對(duì)比

為提升長(zhǎng)時(shí)平滑性,Self-Forcing++引入了Group Relative Policy Optimization(GRPO),利用光流幅度作為時(shí)間穩(wěn)定性的代理。數(shù)據(jù)顯示,未經(jīng)GRPO處理的視頻可能出現(xiàn)突兀的場(chǎng)景轉(zhuǎn)換,表現(xiàn)為光流幅度的尖銳峰值(方差24.52)。通過(guò)促進(jìn)更平滑的時(shí)間轉(zhuǎn)換,GRPO方法有效抑制了這些峰值(方差降至2.00),顯著提升了長(zhǎng)程一致性和整體感知質(zhì)量。

在"Big Sur海岸懸崖邊的無(wú)人機(jī)視角"場(chǎng)景中,未使用GRPO的視頻出現(xiàn)明顯的場(chǎng)景突變,而使用GRPO后視頻保持了連貫的視角過(guò)渡。

質(zhì)量評(píng)估的重新定義:視覺穩(wěn)定性指標(biāo)

研究發(fā)現(xiàn),廣泛使用的VBench評(píng)估基準(zhǔn)存在嚴(yán)重偏差,傾向于高估過(guò)曝光和退化幀,導(dǎo)致評(píng)分結(jié)果不可靠。下圖左圖顯示了圖像質(zhì)量評(píng)分問(wèn)題,右圖展示了美學(xué)質(zhì)量評(píng)分問(wèn)題,VBench對(duì)早期和后期幀的常規(guī)與退化圖像評(píng)分失真,錯(cuò)誤地獎(jiǎng)勵(lì)了CausVid等過(guò)曝方法和Self-Forcing等退化方法。

評(píng)估指標(biāo)偏差

為解決這一問(wèn)題,Self-Forcing++提出了新的評(píng)估協(xié)議,采用Gemini-2.5-Pro這一先進(jìn)的視頻MLLM進(jìn)行評(píng)估。該協(xié)議明確定義了長(zhǎng)視頻問(wèn)題如過(guò)曝光和錯(cuò)誤累積,引導(dǎo)Gemini-2.5-Pro沿這些維度對(duì)視頻進(jìn)行評(píng)分,并將結(jié)果匯總為0-100分的視覺穩(wěn)定性指標(biāo)。評(píng)分標(biāo)準(zhǔn)采用0-5級(jí)曝光穩(wěn)定性評(píng)分系統(tǒng):5分表示"曝光良好",4分表示"輕微曝光瑕疵",3分表示"中度曝光問(wèn)題",2分表示"明顯曝光問(wèn)題",1分表示"嚴(yán)重曝光問(wèn)題",0分表示"災(zāi)難性曝光"。

人工驗(yàn)證表明,20個(gè)隨機(jī)采樣的MovieGen視頻由兩位作者獨(dú)立標(biāo)注,與Gemini-2.5-Pro的評(píng)分高度一致:50秒序列的Spearman等級(jí)相關(guān)系數(shù)達(dá)100%(前三名方法)和94.2%(所有六種基線)。75秒和100秒視頻的驗(yàn)證結(jié)果類似,隨著視頻長(zhǎng)度增加,基線方法的質(zhì)量進(jìn)一步下降,而Self-Forcing++保持穩(wěn)定。

評(píng)估結(jié)果對(duì)比1

在"宇航員在月球表面奔跑"場(chǎng)景的評(píng)估中,Self-Forcing++獲得"5/5 – 曝光良好"評(píng)分,理由是"視頻曝光均衡,高對(duì)比度場(chǎng)景處理出色,月球背景的深黑色和月球表面陰影的細(xì)節(jié)都適當(dāng)且不表示細(xì)節(jié)丟失"。相比之下,CausVid和Self-Forcing等基線方法在視頻后半段出現(xiàn)嚴(yán)重過(guò)曝光或變暗問(wèn)題,導(dǎo)致評(píng)分大幅下降。CausVid從30秒開始出現(xiàn)嚴(yán)重過(guò)曝光,Self-Forcing從50秒開始逐漸變暗。

評(píng)估結(jié)果對(duì)比2

在"色彩斑斕的熱帶魚在珊瑚礁中游動(dòng)"場(chǎng)景中,Self-Forcing++同樣獲得"5/5 – 曝光良好"評(píng)分,理由是"視頻保持平衡一致的曝光,沒有明顯區(qū)域過(guò)度曝光或變暗"。而SkyReels-V2和MAGI-1等基線方法在視頻中后期出現(xiàn)嚴(yán)重過(guò)曝光,特別是MAGI-1從15秒標(biāo)記開始,大面積區(qū)域變成純白色,導(dǎo)致評(píng)分僅為1分。

實(shí)驗(yàn)驗(yàn)證:從理論到實(shí)踐的跨越

在5秒短視頻測(cè)試中,Self-Forcing++保持了競(jìng)爭(zhēng)力,語(yǔ)義得分80.37,總分83.11,與Self-Forcing相當(dāng),同時(shí)超越了其他基線方法。下表顯示了不同模型在5秒短視頻和50秒長(zhǎng)視頻上的性能對(duì)比,Self-Forcing++在長(zhǎng)視頻生成中展現(xiàn)出明顯優(yōu)勢(shì)。

短時(shí)與50秒視頻性能對(duì)比

對(duì)于50秒視頻,Self-Forcing++的視覺穩(wěn)定性達(dá)到90.94,相比Self-Forcing的40.12提升了127%。在100秒視頻測(cè)試中,其動(dòng)態(tài)程度達(dá)到54.12,比Self-Forcing的26.41提高了104.9%;文本對(duì)齊得分為26.04,比Self-Forcing的22.00提高了18.36%。

75秒與100秒長(zhǎng)視頻性能對(duì)比

該表詳細(xì)展示了各模型在75秒和100秒長(zhǎng)視頻上的性能對(duì)比。在100秒視頻測(cè)試中,Self-Forcing++的文本對(duì)齊得分為26.04,比排名第二的SkyReels-V2高出3.99分;動(dòng)態(tài)程度達(dá)到54.12,比排名第二的SkyReels-V2高出15.37分;視覺穩(wěn)定性得分為84.22,遠(yuǎn)超其他方法。這表明Self-Forcing++在維持長(zhǎng)時(shí)動(dòng)態(tài)一致性和視覺質(zhì)量方面具有顯著優(yōu)勢(shì)。

100秒視頻生成對(duì)比

在"熱帶魚"場(chǎng)景中,基線方法在生成長(zhǎng)視頻時(shí)出現(xiàn)嚴(yán)重錯(cuò)誤累積和過(guò)曝光,而Self-Forcing++始終保持高質(zhì)量。具體而言,CausVid表現(xiàn)為嚴(yán)重過(guò)曝光,視頻逐漸變亮直至完全過(guò)曝;Self-Forcing表現(xiàn)為逐漸變暗和運(yùn)動(dòng)停滯;MAGI-1和SkyReels-V2則表現(xiàn)為中度到重度的過(guò)曝光。這些現(xiàn)象清晰地展示了不同方法的失敗模式。

Self-forcing++生成四分鐘視頻示例

該圖展示了Self-Forcing++生成的四分鐘視頻示例,雷達(dá)圖證實(shí)模型在長(zhǎng)時(shí)域仍能保持高質(zhì)量和動(dòng)態(tài)一致性。特別是"Motion Dynamics over Time"曲線顯示,Self-Forcing++的動(dòng)態(tài)程度在255秒(4分15秒)內(nèi)保持平穩(wěn),而基線方法在50秒后急劇下降,這直觀地解釋了為何"視覺穩(wěn)定性90.94 vs 40.12"對(duì)實(shí)際體驗(yàn)如此重要。

多維度質(zhì)量指標(biāo)比較

該表展示了各模型在50秒、75秒和100秒視頻上的11個(gè)維度質(zhì)量指標(biāo)比較。在100秒視頻測(cè)試中,Self-Forcing++在"文本對(duì)齊"指標(biāo)上得分為26.04,比排名第二的CausVid高出1.63分;在"動(dòng)態(tài)程度"指標(biāo)上得分為54.12,比排名第二的SkyReels-V2高出15.37分;在"運(yùn)動(dòng)平滑度"指標(biāo)上得分為98.35,僅比CausVid的98.54低0.19分。這表明Self-Forcing++在保持運(yùn)動(dòng)連貫性的同時(shí)避免了運(yùn)動(dòng)停滯問(wèn)題,實(shí)現(xiàn)了高質(zhì)量與高動(dòng)態(tài)性的平衡。

訓(xùn)練預(yù)算擴(kuò)展效果

研究還揭示了訓(xùn)練預(yù)算與生成能力之間的顯著正相關(guān)。經(jīng)過(guò)ODE初始化的模型僅能生成短而低質(zhì)量的片段;1×預(yù)算(與Self-Forcing相當(dāng)?shù)挠?xùn)練量)下,模型在擴(kuò)展生成時(shí)出現(xiàn)明顯的時(shí)間閃爍和錯(cuò)誤累積,50秒視頻的視覺穩(wěn)定性僅為40.12;4×預(yù)算使模型能夠在更長(zhǎng)的時(shí)域內(nèi)保持語(yǔ)義一致性,如"大象在陽(yáng)光明媚的稀樹草原上行走"場(chǎng)景中,模型能維持大象語(yǔ)義一致性超過(guò)100秒;8×預(yù)算下,模型開始生成詳細(xì)背景和更準(zhǔn)確的主題,但視頻后半部分仍出現(xiàn)輕微質(zhì)量下降;20×預(yù)算產(chǎn)生高質(zhì)量視頻,可穩(wěn)定維持50秒以上,50秒視頻的視覺穩(wěn)定性達(dá)90.94;25×預(yù)算下,模型成功生成255秒(4分15秒)視頻,質(zhì)量損失可忽略不計(jì),視覺穩(wěn)定性仍保持在80以上,這相當(dāng)于基礎(chǔ)模型位置嵌入支持最大跨度的99.9%。

訓(xùn)練預(yù)算與生成能力呈近似線性關(guān)系,表明通過(guò)增加訓(xùn)練資源可以系統(tǒng)性提升長(zhǎng)視頻生成能力。在8×A100 GPU集群上,25×預(yù)算訓(xùn)練需要約2周時(shí)間,比教師強(qiáng)制訓(xùn)練慢約3-5倍,這是方法的主要局限性之一。

錯(cuò)誤累積緩解方法對(duì)比

此圖展示了各種錯(cuò)誤累積緩解方法的可視化比較。在"Big Sur海岸懸崖邊的無(wú)人機(jī)視角"場(chǎng)景中,注意力窗口縮小到9幀(Attn-9)的方法雖然能部分緩解錯(cuò)誤累積,但導(dǎo)致了更大的不一致性。而Self-Forcing++在保持完整上下文的同時(shí),有效避免了錯(cuò)誤累積,生成了高質(zhì)量的50秒視頻。

未來(lái)展望

盡管Self-Forcing++取得了顯著突破,研究也指出了其局限性:相比教師強(qiáng)制訓(xùn)練,訓(xùn)練速度較慢;缺乏長(zhǎng)期記憶機(jī)制,可能導(dǎo)致長(zhǎng)時(shí)間被遮擋區(qū)域的內(nèi)容發(fā)散。在"宇航員在月球表面奔跑"場(chǎng)景中,當(dāng)宇航員被巖石遮擋超過(guò)20秒后,重新出現(xiàn)時(shí)細(xì)節(jié)發(fā)生變化,表明模型缺乏真正的長(zhǎng)期記憶,無(wú)法保持長(zhǎng)時(shí)間被遮擋區(qū)域的內(nèi)容一致性。

針對(duì)這些挑戰(zhàn),研究提出了幾個(gè)有前景的改進(jìn)方向:探索并行化訓(xùn)練過(guò)程以解決高訓(xùn)練成本問(wèn)題;研究量化潛在表示或歸一化KV緩存的技術(shù),防止分布偏移;將長(zhǎng)期記憶機(jī)制整合到自回歸框架中,實(shí)現(xiàn)真正的長(zhǎng)程時(shí)間一致性。

對(duì)我們的啟示在于,訓(xùn)練-推理一致性必須得到高度重視,錯(cuò)誤糾正機(jī)制是長(zhǎng)視頻生成的關(guān)鍵,評(píng)估指標(biāo)需與人類感知對(duì)齊,避免傳統(tǒng)指標(biāo)的偏差。尤為重要的是,Self-Forcing++證明了無(wú)需長(zhǎng)視頻監(jiān)督即可實(shí)現(xiàn)高質(zhì)量長(zhǎng)視頻生成——通過(guò)有效利用現(xiàn)有短視頻模型的知識(shí),可以突破生成時(shí)長(zhǎng)的限制,大幅降低數(shù)據(jù)需求門檻。

與Diffusion Forcing方法(如SkyReels-V2和MAGI-1)相比,Self-Forcing++無(wú)需為不同幀應(yīng)用不同噪聲水平,訓(xùn)練更加穩(wěn)定。Diffusion Forcing方法雖然具有更好的長(zhǎng)期記憶,但訓(xùn)練不穩(wěn)定,因?yàn)樵肼曀浇M合的數(shù)量極其龐大。Self-Forcing++證明了無(wú)需變量噪聲上下文也能實(shí)現(xiàn)高質(zhì)量長(zhǎng)視頻生成,這是方法的一大優(yōu)勢(shì)。

與LongLive等并發(fā)工作相比,Self-Forcing++通過(guò)簡(jiǎn)化設(shè)計(jì)避免了對(duì)注意力匯幀(attention sink frames)的依賴,實(shí)現(xiàn)了更簡(jiǎn)潔有效的長(zhǎng)視頻生成。LongLive也采用窗口式DMD,但依賴注意力匯幀來(lái)對(duì)抗錯(cuò)誤累積,而Self-Forcing++通過(guò)向后噪聲初始化、擴(kuò)展分布匹配蒸餾和滾動(dòng)KV緩存的組合,無(wú)需額外機(jī)制即可解決錯(cuò)誤累積問(wèn)題。

這一思路為構(gòu)建更穩(wěn)健、可擴(kuò)展的長(zhǎng)視頻生成模型鋪平了道路,標(biāo)志著視頻生成技術(shù)向分鐘級(jí)高質(zhì)量?jī)?nèi)容創(chuàng)作邁出了關(guān)鍵一步。通過(guò)系統(tǒng)性解決訓(xùn)練-推理不匹配和錯(cuò)誤累積問(wèn)題,Self-Forcing++展示了自回歸視頻生成模型的巨大潛力,為未來(lái)影視級(jí)內(nèi)容創(chuàng)作提供了新的技術(shù)基礎(chǔ)。

責(zé)任編輯:龐桂玉 來(lái)源: 覺察流
相關(guān)推薦

2025-10-20 08:51:00

2017-09-09 13:29:22

ARCoreAndroid移動(dòng)設(shè)備

2009-11-06 14:01:15

Visual Stud

2024-02-19 08:31:10

SoraAIOpenAI

2009-11-12 16:25:35

Oracle嵌套循環(huán)

2017-09-13 09:15:28

蘋果iPhone8

2025-10-21 01:00:00

2023-06-28 07:45:51

Java線程狀態(tài)

2024-03-26 09:58:52

模型技術(shù)

2025-03-03 08:32:00

模型AI訓(xùn)練

2024-08-05 09:30:00

2022-10-26 13:52:00

機(jī)器人谷歌

2021-12-21 15:56:13

SolarWinds

2025-08-26 09:08:00

AI視頻生成模型

2023-12-12 13:24:00

項(xiàng)目promptT2V

2023-11-24 12:10:43

AI模型

2024-09-24 15:51:02

2025-05-06 09:41:06

2009-10-28 18:10:47

TippingPoin突破性網(wǎng)絡(luò)安全平臺(tái)

2025-06-18 16:42:15

視頻生成AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)