突破大模型推理瓶頸!首篇「Test-Time Scaling」全景綜述,深入剖析AI深思之道
本文由來自香港城市大學、麥吉爾大學(McGill)、蒙特利爾人工智能實驗室(MILA)、人大高瓴人工智能學院、Salesforce AI Research、斯坦福大學、UCSB、香港中文大學等機構(gòu)的多位研究者共同完成。第一作者為來自香港城市大學的博士生張啟源和來自蒙特利爾人工智能實驗室(MILA)的博士生呂福源。
當訓練成本飆升、數(shù)據(jù)枯竭,如何繼續(xù)激發(fā)大模型潛能?
在追求通用人工智能(AGI)的道路上,大模型訓練階段的「暴力堆算力」已經(jīng)逐漸觸及天花板。隨著大模型訓練成本急劇攀升、優(yōu)質(zhì)數(shù)據(jù)逐漸枯竭,推理階段擴展(Test-Time Scaling, TTS) 迅速成為后預(yù)訓練時代的關(guān)鍵突破口。與傳統(tǒng)的「堆數(shù)據(jù)、堆參數(shù)」不同,TTS 通過在推理階段動態(tài)分配算力,使同一模型變得更高效、更智能 —— 這一技術(shù)路徑在 OpenAI-o1 和 DeepSeek-R1 的實踐中已初顯威力。
圖 1:預(yù)訓練擴展和推理階段擴展的示意。
在數(shù)學、編程等硬核任務(wù)上,TTS 表現(xiàn)亮眼;而在開放問答、多模態(tài)理解乃至復(fù)雜規(guī)劃等場景中,它同樣展現(xiàn)出巨大潛力。目前,研究者已探索了多種 TTS 策略,如 Chain-of-Thought (CoT)、Self-Consistency、Search 和 Verification,但該領(lǐng)域仍缺乏統(tǒng)一的研究視角與評估框架。
最近,來自香港城市大學、麥吉爾大學(McGill)、蒙特利爾人工智能實驗室(MILA)、人大高瓴人工智能學院、Salesforce AI Research、斯坦福大學、UCSB、香港中文大學等機構(gòu)的多位研究者聯(lián)合發(fā)布了首篇系統(tǒng)性的 Test-Time Scaling 領(lǐng)域綜述。該文首次提出「What-How-Where-How Well」四維分類框架,系統(tǒng)拆解推理優(yōu)化技術(shù),為 AI「深思」繪制全景路線圖。
- 論文標題:A Survey on Test-Time Scaling in Large Language Models:What, How, Where, and How Well
- 論文鏈接:https://arxiv.org/pdf/2503.24235
- 項目主頁:https://testtimescaling.github.io/
- GitHub 倉庫:https://github.com/testtimescaling/testtimescaling.github.io/
論文亮點概覽:
本篇 Survey 首次提出了一個覆蓋全面、多層次、可擴展的四維正交分析框架:
- What to scale:擴什么?CoT 長度、樣本數(shù)、路徑深度還是內(nèi)在狀態(tài)?
- How to scale:怎么擴?Prompt、Search、RL,還是 Mixture-of-Models?
- Where to scale:在哪擴?數(shù)學、代碼、開放問答、多模態(tài)……
- How well to scale:擴得怎樣?準確率、效率、控制性、可擴展性……
在這個框架下,作者系統(tǒng)梳理了當前的主流 TTS 技術(shù)路線,包括:
- 并行策略:即同時生成多個答案,并選出最優(yōu)解(如 Self-Consistency / Best-of-N)
- 逐步演化:即通過迭代修正逐步優(yōu)化答案(如 STaR / Self-Refine)
- 搜索推理:結(jié)合并行與序列策略,探索樹狀推理路徑(如 Tree-of-Thought / MCTS)
- 內(nèi)在優(yōu)化:模型自主控制推理步長(如 DeepSeek-R1 / OpenAI-o1)
基于這一框架,作者系統(tǒng)性地梳理了現(xiàn)有文獻,實現(xiàn)了四大核心貢獻:
- 文獻解析:通過結(jié)構(gòu)化分析方法,清晰界定各項研究的創(chuàng)新邊界與價值定位;
- 路徑提煉:總結(jié)出推理階段擴展技術(shù)的三大發(fā)展方向:計算資源動態(tài)優(yōu)化、推理過程增強和多模態(tài)任務(wù)適配;
- 實踐指導(dǎo):針對數(shù)學推理、開放問答等典型場景,提供具體可操作的技術(shù)選型建議;
- 開放社區(qū):拋棄傳統(tǒng)調(diào)研自說自話的特點,通過結(jié)合主頁希望營造一個專門為 TTS 討論的開放社區(qū),集所有研究者的智慧,不斷與時俱進更新更加實踐的指導(dǎo)。
與同類綜述相比,本文特別注重實用價值和開放討論,不僅系統(tǒng)評估了不同 TTS 策略的性價比,還前瞻性地探討了該技術(shù)的未來演進方向,包括輕量化部署、持續(xù)學習融合等潛在突破點。
作者表示,Test-time Scaling 不僅是大模型推理的「第二引擎」,更是邁向 AGI 的關(guān)鍵拼圖。教會模型「三思而后行」,是我們邁向通用人工智能的重要旅程。
框架介紹
作者提出的框架從四個正交維度系統(tǒng)解構(gòu) TTS 技術(shù):
1. What to Scale(擴展什么)- 界定推理過程中需要擴展的具體對象,包括:
- Parallel Scaling(并行擴展):并行生成多個輸出,然后將其匯總為最終答案,從而提高測試時間性能;
- Sequential Scaling(序列擴展):根據(jù)中間步驟明確指導(dǎo)后面的計算;
- Hybrid Scaling(混合擴展):利用了并行和順序擴展的互補優(yōu)勢;
- Internal Scaling(內(nèi)生擴展):在模型內(nèi)部參數(shù)范圍內(nèi)自主決定分配多少計算量進行推理,在推理時并不外部人類指導(dǎo)策略。
其中,作者為每一個擴展的形式,都進行了一些經(jīng)典工作的介紹,從而豐富了對于擴展策略的外延描述,例如:在并行擴展中作者根據(jù)得到覆蓋性的來源分為兩個更小的類別,在單個模型上的反復(fù)采樣和多個模型的采樣。
2. How to Scale(怎么擴展)- 歸納實現(xiàn)擴展的核心技術(shù)路徑:
- 訓練階段方法:監(jiān)督微調(diào)(SFT)、強化學習(RL)等
- 推理階段技術(shù):刺激策略(Stimulation)、驗證技術(shù)(Verification)、搜索方法(Search)、集成技術(shù)(Aggregation)
這個章節(jié)是重點章節(jié),作者收錄并整理了大量的經(jīng)典的和最前沿的技術(shù),例如在訓練階段中的強化學習技術(shù),伴隨 R1 而大火,因此在短短兩個月內(nèi)涌現(xiàn)出大量的工作,作者將它們盡數(shù)收入,同時分成基于獎勵模型和不需獎勵模型兩類;對于刺激策略,作者分成了提示(Prompt),解碼(Decode)、自重復(fù)(Self-Repetition)、模型混合(mixture-of-model)四類。
3. Where to Scale(在哪里擴展)- 明確技術(shù)適用的任務(wù)場景與數(shù)據(jù)集特性。
作者在這里提出盡管 TTS 的推出和驗證是在某一類特定的推理任務(wù)上得到成功的,可是已經(jīng)有足夠多的工作開始顯現(xiàn)出 TTS 是一種通用地能夠提升在多樣任務(wù)的策略,由此作者以推理(Reasoning)和通用 (General Purpose) 兩類進行分類,一方面強調(diào)了 TTS 在越來越多樣、越來越先進的推理任務(wù)中有很明顯的效果,另一方面也不斷跟蹤 TTS 在更多通用任務(wù)上應(yīng)用的效果。值得注意的是,作者整理出一個評測基準的表格,方便更多研究者直接從中去選擇合適自己的基準。
4. How Well to Scale(效果怎么樣)- 建立多維評估體系:
在當下,TTS 已經(jīng)不僅是一個提高任務(wù)準確率的策略,當它成為一個新的值得被研究的核心策略時,對 TTS 的要求會更加多元化,這也是未來研究的主題。作者認為之后對 TTS 的優(yōu)化重點將不僅僅局限在準確率的提升,是在于如何提高效率、增強魯棒性和消除偏見等。
圖 2:作者提出的 TTS 框架,包括 what, how, where 和 how well to scale。
作者不僅在每個維度下提供細粒度子類劃分,還配套標注了代表性研究工作(如圖 2 所示),使分類體系兼具理論完備性和實踐指導(dǎo)價值。這一結(jié)構(gòu)化的基礎(chǔ)使得后續(xù)研究可以無縫地融入作者的分類體系,更清晰地展現(xiàn)其貢獻。
為了更好的理解 what to scale 中的并行擴展,序列擴展,結(jié)合擴展和內(nèi)生擴展,作者用一張清晰的示意圖進行形象化的展示,同時,在圖中使用 how to scale 的技術(shù)來組成不同的擴展策略,很好地示意了兩個維度如何結(jié)合在一起。
圖 3:從 what to scale 到 how to scale。
實踐特色
作者強調(diào)本篇 Survey 以實用為原則,具體包括:使用所提出的框架分析文獻,以及整理操作指南。
文獻解析:為了幫助研究者系統(tǒng)性地剖析每項工作,作者設(shè)計了一個分析表格,通過將文獻貢獻對應(yīng)到框架的四個維度(What/How/Where/How Well),以清晰地解構(gòu)該工作。這種結(jié)構(gòu)化分析方法不僅能清晰展現(xiàn)各研究的核心創(chuàng)新,更能有效揭示潛在的技術(shù)突破方向。
表 1:在現(xiàn)有文獻中進行推理擴展時常用的組合方式。
操作指南:另一個潛在的亮點是持續(xù)收集 TTS 開發(fā)中的實用操作指南,而這些操作指南將以問答的形式展現(xiàn)。作者期待這些問答是具體的、現(xiàn)實的、一線的,因此,作者期待這篇 Survey 將維持開放性,邀請更多在一線研究的學者來參與這項操作指南的收錄和編寫。下面是作者現(xiàn)階段的操作指南的內(nèi)容和風格。
開放社區(qū)
有價值的洞見和實踐指導(dǎo)是來自于第一線的科研和百花齊放的討論的,作者期待將論文從傳統(tǒng)的靜態(tài)的一家之言轉(zhuǎn)化為動態(tài)的百家之壇,并建立開放的社區(qū)來收集任何一線科研者提出的問題和總結(jié)的經(jīng)驗,而這些問題和經(jīng)驗在經(jīng)過篩選后,會更新到最新的論文中,并在致謝中進行感謝。
挑戰(zhàn)與未來
盡管 TSS 技術(shù)已嶄露頭角,本文總結(jié)了 TTS 當前面臨的四大挑戰(zhàn):
- 擴展極限:在未來的 TTS 中,如何突破「暴力采樣」的邊際收益遞減?我們急需在不同方向上探索策略
- 本質(zhì)理解:tts 中多個模塊是否真正驅(qū)動了推理改進?reward model 是否需要重新評估?我們依然需要在理論層面揭示技術(shù)有效性根源。
- 評估革新:傳統(tǒng)指標無法捕捉推理過程質(zhì)量,隨著 test-time scaling 技術(shù)的發(fā)展,領(lǐng)域內(nèi)急需開發(fā)細粒度評估體系,以便更全面地評估不同策略
- 跨域泛化:當前 TTS 方法在數(shù)學、代碼任務(wù)中表現(xiàn)突出,但如何遷移至法律、金融等高風險場景?如何在推理過程中考慮現(xiàn)實世界的制約?
論文還指出,目前常見的技術(shù)如 SFT、RL、Reward Modeling 等雖被頻繁使用,但背后的作用貢獻尚不清晰,值得深入探索,例如:SFT 真的不如 RL 更泛化嗎?R1 的時代下 SFT 的角色是什么?什么樣的 Reward Modeling 更加高效?等等
此外未來 TTS 的發(fā)展重點包括:1. 統(tǒng)一評估指標(準確率 vs 計算開銷);2. 拓展到金融、醫(yī)學等真實場景;3. 構(gòu)建具備自適應(yīng)推理能力的通用智能體。
推理擴展策略正引領(lǐng) AI 推理范式轉(zhuǎn)變:讓模型在「用」的時候持續(xù)變強。