偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!

發(fā)布于 2025-7-3 17:27
瀏覽
0收藏

測試時擴展(Test-Time Scaling)極大提升了大語言模型的性能,涌現(xiàn)出了如OpenAI o系列模型和DeepSeek R1等眾多爆款。那么,什么是視覺領(lǐng)域的test-time scaling?又該如何定義?

?

為了回答這一問題,最近香港科技大學聯(lián)合快手可靈團隊推出Evolutionary Search (EvoSearch)方法,通過提高推理時的計算量來大幅提升模型的生成質(zhì)量,支持圖像和視頻生成,支持目前最先進的diffusion-based 和 flow-based模型。

?

EvoSearch 無需訓練,無需梯度更新,即可在一系列任務(wù)上取得顯著最優(yōu)效果,并且表現(xiàn)出良好的scaling up能力,魯棒性和泛化性。隨著測試時計算量提升,EvoSearch表明SD2.1和Flux.1-dev也有潛力媲美甚至超過GPT4o。對于視頻生成,Wan 1.3B也能超過Wan 14B和Hunyuan 13B,展現(xiàn)了了test-time scaling補充training-time scaling的潛力和研究空間。

?

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)


  • 論文標題:Scaling Image and Video Generation via Test-Time Evolutionary Search
  • 項目主頁:??https://tinnerhrhe.github.io/evosearch/??
  • 代碼:https://github.com/tinnerhrhe/EvoSearch-codes
  • 論文:https://arxiv.org/abs/2505.17618

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)


一、Test-Time Scaling的本質(zhì)


這里我們將測試時擴展(Test-Time Scaling)和RL post-training分開來看,我們定義前者無需參數(shù)更新,后者需要計算資源進行后訓練。Test-time scaling和 RL post-training本質(zhì)都是為了激發(fā)預訓練模型的能力,使其與人類偏好(獎勵)對齊。給定一個預訓練模型和獎勵函數(shù),我們的目的是擬合如下的目標分布:

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)

?

其中是獎勵函數(shù)代表(人類)偏好,KL距離()防止預訓練模型的分布與目標分布偏離太遠,避免知識遺忘。該目標分布可以重新寫成如下形式:

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)


其中是歸一化常數(shù),需要遍歷整個狀態(tài)空間來計算。這是不可行的,因為diffusion和flow 模型的狀態(tài)空間都是高維的。這導致直接從目標分布采樣不可行。


二、當前方法的局限性


諸如RL的后訓練方法雖然也能從目標分布采樣,但需要構(gòu)造數(shù)據(jù)以及大量計算資源重新更新模型參數(shù),導致代價很大并且很難scale up。

?

目前在視覺領(lǐng)域,最有效的test-time scaling方法包括Best-of-N,它基于重要性采樣(Importance Sampling)來擬合目標分布采樣。Best-of-N隨機采樣多個樣本,并篩選出獎勵最高的N個。在基于diffusion和flow模型的圖像和視頻生成任務(wù)上,Best-of-N的樣本通常是初始噪聲。

?

最近的一些工作提出了更高級的采樣方法,可以統(tǒng)一稱為Particle Sampling。這類方法將搜索空間拓展為整條去噪軌跡,在去噪過程中不斷保留好的樣本,并丟掉表現(xiàn)差的樣本(類似beam search)。這類方法雖然也能表現(xiàn)出scaling up性質(zhì),但缺少探索新的狀態(tài)空間能力,并且會減少生成樣本的多樣性。


我們做了一個小實驗,當目標分布和預訓練分布不一致(甚至可能是o.o.d.),基于學習的RL方法會出現(xiàn)獎勵過優(yōu)化的現(xiàn)象(reward over-optimization)。諸如best-of-N和particle sampling的搜索方法也不能找到目標分布所有的模態(tài)。但我們的方法EvoSearch成功擬合了目標分布,并且取得了最高的獎勵值。

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)


三、EvoSearch解讀


我們將圖像和視頻生成的test-time scaling問題重構(gòu)成演化搜索問題。具體來說,受生物的自然選擇和演化所啟發(fā),我們將diffusion和flow模型中的去噪軌跡看成演化路徑,每個去噪步的樣本都可以進行變異演化來探索更高質(zhì)量的子代,最后得到最優(yōu)的符合目標分布的去噪樣本(圖片或者視頻)。不同于一般的演化方法,樣本空間局限于一個固定的狀態(tài)空間進行演化,我們提出的EvoSearch的演化空間沿著去噪軌跡動態(tài)前移,即起始于高斯噪聲,終止于x0。


快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)

EvoSearch 框架圖

?

我們的方法受如下的洞見啟發(fā)。我們發(fā)現(xiàn)在整個去噪軌跡中,高質(zhì)量的樣本往往會聚集在一起。因此,當我們搜索到高質(zhì)量的父代,我們可以在父代周圍的空間進行探索從而有效找到更高質(zhì)量的樣本。從下圖可以看到去噪軌跡中的樣本在低維空間的分布與獎勵空間具有強相關(guān)性。

?

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)

?

基于此,我們設(shè)計了如下兩種變異模式:

  • 初始噪聲變異EvoSearch通過如下正交操作保持初始噪聲仍然符合高斯分布

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)

?

其中是變異率來控制探索強度。


  • 中間去噪狀態(tài)變異由于中間去噪狀態(tài)的分布是復雜的且在搜索過程中不可知。我們受SDE方程啟發(fā),設(shè)計如下變異模式:

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)

其中是SDE去噪過程中的擴散系數(shù)。


這些變異方式一方面加強了對于新的狀態(tài)空間探索,另一方面又避免了偏離去噪軌跡的預訓練分布。


我們定義了evolution schedule和population size schedule來進行演化搜索,這兩種schedule的設(shè)置取決于可用的測試時計算量大小。

  • Evolution Schedule定義為,用于指定應該在哪些時間步驟進行EvoSearch。該調(diào)度模式避免了冗余去噪步數(shù),節(jié)省了計算開銷。
  • Population Size Schedule定義為 ,其中代表了初始噪聲樣本的種群大小,后續(xù)每個規(guī)定了在時間步的演化子代種群大小。


EvoSearch算法偽代碼如下:

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)

四、EvoSearch實驗結(jié)果


1. 對于圖片生成任務(wù),在Stable Diffusion 2.1和Flux.1-dev上,EvoSearch展示了最優(yōu)的scaling up性質(zhì)。即使測試時計算量擴大了1e4量級,仍能保持上升勢頭。對于視頻生成任務(wù),EvoSearch在VBench,VBench2.0以及VideoGen-Eval中的prompts上也能達到最高的reward提升幅度。

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)

?

2. EvoSearch也能泛化到分布外(unseen)的評估指標,顯示了最優(yōu)的泛化性和魯棒性。

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)

?

3. EvoSearch在人類評估上也達到最優(yōu)勝率。這得益于他高的生成多樣性,平衡了exploration和exploitation。

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)

4. 下面是更多的可視化結(jié)果:

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)

快手聯(lián)合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!-AI.x社區(qū)


更多細節(jié)請見原論文和項目網(wǎng)站。


收藏
回復
舉報
回復
相關(guān)推薦