視頻生成的測試時Scaling時刻!清華開源Video-T1,無需重新訓(xùn)練讓性能飆升
視頻作為包含大量時空信息和語義的媒介,對于 AI 理解、模擬現(xiàn)實世界至關(guān)重要。視頻生成作為生成式 AI 的一個重要方向,其性能目前主要通過增大基礎(chǔ)模型的參數(shù)量和預(yù)訓(xùn)練數(shù)據(jù)實現(xiàn)提升,更大的模型是更好表現(xiàn)的基礎(chǔ),但同時也意味著更苛刻的計算資源需求。
受到 Test-Time Scaling 在 LLM 中的應(yīng)用啟發(fā),來自清華大學(xué)、騰訊的研究團(tuán)隊首次對視頻生成的 Test-Time Scaling 進(jìn)行探索,表明了視頻生成也能夠進(jìn)行 Test-Time Scaling 以提升性能,并提出高效的 Tree-of-Frames 方法拓展這一 Scaling 范式。
目前,這項工作的代碼已經(jīng)開源,感興趣的小伙伴可以開 Issue 提問,也歡迎共同探索視頻和多模態(tài)生成。

- 論文標(biāo)題:Video-T1: Test-Time Scaling for Video Generation
- 論文地址:https://arxiv.org/pdf/2503.18942
- Github 倉庫: https://github.com/liuff19/Video-T1
- 項目主頁: https://liuff19.github.io/Video-T1/
視頻生成的 Test-Time Scaling 范式
繼 DeepSeek-R1 爆紅后,在視覺 / 多模態(tài)等不同領(lǐng)域都涌現(xiàn)了大量 Test-Time Scaling (TTS) 研究,Video-T1 則是首次將 Test-Time Scaling 引入視頻生成領(lǐng)域,突破了傳統(tǒng)方式 Scaling up 視頻模型需要大量資源重新訓(xùn)練或顯著擴(kuò)大模型規(guī)模的局限性。
研究團(tuán)隊通過增加推理階段計算來顯著提升視頻生成質(zhì)量,在 VBench 上實現(xiàn)了最高 5.86% 的總分提升,同時發(fā)現(xiàn)模型能力隨著推理階段選取的樣本數(shù)目增加而增長,體現(xiàn)出持續(xù) Scale Up 的特性。

視頻生成Test-Time Scaling的實驗結(jié)果
研究團(tuán)隊創(chuàng)新性地將視頻生成中的 Test-Time Scaling 問題建模為從高斯噪聲空間到目標(biāo)視頻分布的軌跡搜索問題,為優(yōu)化視頻生成引入了新的理論框架。同時構(gòu)造了隨機(jī)線性搜索作為 Test-Time Scaling 的基礎(chǔ)實現(xiàn)方式,即隨機(jī)地取樣多個視頻生成樣本,利用 VLM 進(jìn)行評分選出最優(yōu)的視頻樣本作為輸出。
隨機(jī)線性搜索的算法
Tree-of-Frames 方法提升推理效率
然而,隨機(jī)線性搜索的復(fù)雜度較高,需要較多的推理時計算,研究團(tuán)隊發(fā)現(xiàn),許多視頻在生成的過程中就會出現(xiàn)內(nèi)容與提示詞不對應(yīng)或者不符合現(xiàn)實規(guī)律等諸多問題,為了進(jìn)一步提高搜索速度和視頻質(zhì)量,研究團(tuán)隊提出了「幀樹」(Tree-of-Frames, ToF),通過自適應(yīng)擴(kuò)展和修剪視頻分支,在計算成本與生成質(zhì)量間實現(xiàn)動態(tài)平衡。
類似于在推理模型中使用 score model,研究團(tuán)隊提出使用測試時驗證器(test-time verifiers)評估中間結(jié)果質(zhì)量,并結(jié)合啟發(fā)式算法高效導(dǎo)航搜索空間,在視頻生成的適當(dāng)位置進(jìn)行評估,選取符合要求的生成軌跡,顯著提升生成效率和質(zhì)量。

研究團(tuán)隊提出的 Tree-of-Frames 算法
相比于直接進(jìn)行隨機(jī)線性搜索,Tree-of-Frames 方法能夠在取得相同效果的情況下顯著提高搜索效率,降低視頻模型的推理計算需求。
研究團(tuán)隊通過比較不同 Test-Time Scaling 方法和不同樣本數(shù)量對應(yīng)的 Number of Function Evaluations (NFE) 及對應(yīng)的表現(xiàn),發(fā)現(xiàn)使用 Tree-of-Frames 方法能夠在相同 NFE 的情況下更為顯著地提高視頻表現(xiàn)。
不同模型下 Tree-of-Frames 與隨機(jī)線性搜索效果對比
研究團(tuán)隊選取了三種視頻生成模型實現(xiàn) Tree-of-Frames 方法,并計算其視頻模型的推理計算需求,在 VBench 總分相同的情況下進(jìn)行比較,發(fā)現(xiàn) Tree-of-Frames 顯著降低了視頻模型推理計算量。
Tree-of-Frames 方法相比于隨機(jī)線性搜索顯著提高了推理效率
此外,研究團(tuán)隊注意到首幀對于視頻整體是否對齊影響較大,視頻的前中后部分存在一定程度不同的提示詞對齊需求,因此利用單幀的圖片生成思維鏈 (Image Generation Chain-of-Thought) 和層次化提示詞 (Hierarchical Prompting) 等方法,對幀的生成和提示詞對齊進(jìn)行增強(qiáng),構(gòu)建了 Tree-of-Frames 總體流程。
研究團(tuán)隊提出的 Tree-of-Frames 方法流程圖
在上圖所示的流程中,第一階段執(zhí)行 Text-to-Image (First Frame) 生成,進(jìn)行圖像級別的對齊,讓首幀能夠包含正確且足夠的關(guān)于物體、場景的語義信息;第二階段在測試時 Verifier 中應(yīng)用層次化提示詞 (Hierarchical Prompting),關(guān)注運(yùn)動穩(wěn)定性與物理合理性等方面,從而提供反饋,指導(dǎo)啟發(fā)式搜索過程;最后一階段評估視頻的整體質(zhì)量,并選擇與文本提示詞最高對齊度的視頻。
不同模型的 Test-Time Scaling 實驗
研究團(tuán)隊進(jìn)行了大量 Test-Time Scaling 實驗,使用不同的視頻生成模型、VLM 模型進(jìn)行測試,得到這些模型相比于基線在 VBench 上各方面指標(biāo)的提升。
不同維度上 Test-Time Scaling 方法相比于基線的提升
實驗結(jié)果表明,無論是基于 Diffusion 的模型還是 Autoregressive 范式的模型,都能夠通過 Test-Time Scaling 方法實現(xiàn)生成視頻性能的全面提升,而無需重新訓(xùn)練一個視頻生成模型。
研究團(tuán)隊還注意到,使用不同的 VLM 作為 Verifier 對視頻生成質(zhì)量在多種維度的提升效果有所不同。
因此,為了更充分地發(fā)揮 Test-Time Scaling 的潛力并為后續(xù)增強(qiáng) VLM 能力的探索提供思路,研究團(tuán)隊將不同的 Verifier 進(jìn)行綜合,用于 Test-Time Scaling 過程,發(fā)現(xiàn)在相同的 NFE (Number of Function Evaluations) 下 Multiple Verifier 相比于單個 Verifier 效果更好。不同 VLM 和視頻生成模型對應(yīng)的結(jié)果如下:
Multiple Verifier 與單個 Verifier Scaling Up 效果對比
可視化結(jié)果
研究團(tuán)隊提供了 Tree-of-Frames 層次化提示詞和過程中驗證的可視化結(jié)果:
層次化提示詞和分層驗證過程的可視化結(jié)果
研究團(tuán)隊還提供了視頻生成基礎(chǔ)模型和 TTS 結(jié)果的對比,更多的可視化請參閱原論文和項目主頁。
部分可視化結(jié)果,從上到下為未 Test-Time Scaling 和進(jìn)行 Test-Time Scaling 的視頻對比





































