偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

16張H100訓(xùn)26分鐘,超越o1-preview!李飛飛等用1K樣本,揭秘測(cè)試時(shí)Scaling

人工智能 新聞
大模型推理性能的提升,真的只能靠堆數(shù)據(jù)、加算力嗎?李飛飛等用僅1000個(gè)樣本微調(diào)模型,并提出預(yù)算強(qiáng)制(budget forcing)技術(shù),成功讓推理能力隨測(cè)試計(jì)算量增加而提升。他們的s1-32B模型在多個(gè)基準(zhǔn)測(cè)試中超越閉源模型OpenAI o1-preview,成為目前最具樣本效率的推理模型。

OpenAI o系列模型為何性能如此強(qiáng)大?

OpenAI將他們的方法描述為使用大規(guī)模強(qiáng)化學(xué)習(xí)(RL),暗示使用了大量的數(shù)據(jù)。

最近大火的DeepSeek-R1模型也通過(guò)使用數(shù)百萬(wàn)個(gè)樣本和多個(gè)訓(xùn)練階段使用強(qiáng)化學(xué)習(xí)的方式,成功地達(dá)到了o1級(jí)別的性能。

然而,至今為止沒(méi)有人公開(kāi)成功復(fù)現(xiàn)清晰的測(cè)試時(shí)擴(kuò)展行為。

那么問(wèn)題來(lái)了,實(shí)現(xiàn)測(cè)試時(shí)擴(kuò)展和強(qiáng)推理性能的最簡(jiǎn)單方法是什么?

近日,來(lái)自斯坦福大學(xué)、華盛頓大學(xué)、Ai2等機(jī)構(gòu)的研究人員發(fā)表了一篇題為「s1: Simple test-time scaling」的論文,回答了上述問(wèn)題。

論文地址:https://arxiv.org/pdf/2501.19393

團(tuán)隊(duì)證明,僅使用1000個(gè)樣本進(jìn)行下一個(gè)token的預(yù)測(cè)訓(xùn)練,并在測(cè)試時(shí)通過(guò)一種簡(jiǎn)單的預(yù)算強(qiáng)制(budget forcing)技術(shù)來(lái)控制思維持續(xù)時(shí)間,就能獲得一個(gè)強(qiáng)大的推理模型,其性能隨著測(cè)試計(jì)算量的增加而提升。

預(yù)算強(qiáng)制(budget forcing)可以簡(jiǎn)單理解為通過(guò)強(qiáng)制提前結(jié)束模型的思考過(guò)程,或通過(guò)重復(fù)添加「Wait」來(lái)延長(zhǎng)思考時(shí)間,從而影響模型的推理深度和最終答案。

這種方法可以引導(dǎo)模型進(jìn)行自我檢查,并修正推理過(guò)程中的錯(cuò)誤,從而提高推理性能。

具體來(lái)說(shuō),他們構(gòu)建了一個(gè)叫做「s1K」的數(shù)據(jù)集,由1000個(gè)精心篩選的問(wèn)題組成,每個(gè)問(wèn)題都配有推理軌跡(reasoning traces)和從Gemini Thinking Experimental蒸餾而來(lái)的答案。

接著團(tuán)隊(duì)在一個(gè)預(yù)訓(xùn)練模型上進(jìn)行監(jiān)督微調(diào)(SFT),僅使用16張H100 GPU訓(xùn)練26分鐘。

訓(xùn)練完成后,使用預(yù)算強(qiáng)制(budget forcing)方法來(lái)控制模型在測(cè)試時(shí)的計(jì)算量:

  1. 若模型生成的推理token超過(guò)設(shè)定的上限,則強(qiáng)制結(jié)束推理過(guò)程,并附加思維結(jié)束(end-of-thinking)token,促使模型進(jìn)入答案生成階段。
  2. 若希望模型在問(wèn)題上投入更多測(cè)試時(shí)計(jì)算資源,則抑制思維結(jié)束token的生成,并在推理軌跡中追加 「Wait」,鼓勵(lì)模型進(jìn)行更深入的推理探索。

基于這個(gè)簡(jiǎn)單的方法,并在1000個(gè)樣本上進(jìn)行SFT訓(xùn)練 + 測(cè)試時(shí)的預(yù)算強(qiáng)制(budget forcing)后,團(tuán)隊(duì)提出的s1-32B展現(xiàn)出了測(cè)試時(shí)擴(kuò)展(test-time scaling)的能力。

此外,s1-32B也是目前最具樣本效率(sample-efficient)的推理模型,在推理能力上超越了OpenAI的o1-preview等閉源模型。

如何創(chuàng)建s1K數(shù)據(jù)集

s1K數(shù)據(jù)集是一個(gè)包含1000個(gè)高質(zhì)量推理問(wèn)題的精選數(shù)據(jù)集。

團(tuán)隊(duì)創(chuàng)建過(guò)程主要分為兩個(gè)階段。

初始階段,研究人員從16個(gè)不同的來(lái)源收集了59029個(gè)問(wèn)題,并遵循三個(gè)指導(dǎo)原則:質(zhì)量、難度和多樣性。

這些來(lái)源包括現(xiàn)有的數(shù)學(xué)問(wèn)題數(shù)據(jù)集(如 NuminaMATH、AIME、OmniMath 和 AGIEval),以及研究人員自己創(chuàng)建的概率問(wèn)題集 (s1-prob) 和腦筋急轉(zhuǎn)彎問(wèn)題集 (s1-teasers)。

為了確保質(zhì)量,研究人員檢查了所有樣本,并忽略了格式不佳的數(shù)據(jù)集。為了增加難度,他們選擇需要大量推理努力的問(wèn)題。為了確保多樣性,他們涵蓋了不同的領(lǐng)域和推理任務(wù).

第二階段,最終篩選1K樣本。研究人員通過(guò)三個(gè)階段的過(guò)濾,從59K樣本中篩選出1000個(gè)樣本,并繼續(xù)依賴質(zhì)量、難度和多樣性這三個(gè)原則。

通過(guò)這些過(guò)程,研究人員創(chuàng)建了s1K數(shù)據(jù)集,該數(shù)據(jù)集包含50個(gè)不同領(lǐng)域的1000個(gè)高質(zhì)量、多樣化和高難度的問(wèn)題,并附帶推理過(guò)程。

這個(gè)數(shù)據(jù)集對(duì)于訓(xùn)練s1-32B模型至關(guān)重要。

測(cè)試時(shí)擴(kuò)展方法

其核心思想是通過(guò)在測(cè)試時(shí)增加計(jì)算量來(lái)提高語(yǔ)言模型的性能。

論文將測(cè)試時(shí)擴(kuò)展方法分為兩類:順序(Sequential)和并行(Parallel)。

順序擴(kuò)展是指后面的計(jì)算依賴于前面的計(jì)算,例如長(zhǎng)的推理過(guò)程;并行擴(kuò)展是指計(jì)算是獨(dú)立運(yùn)行的,例如多數(shù)投票。

論文主要關(guān)注順序擴(kuò)展,因?yàn)樽髡哒J(rèn)為它可以更好地利用中間結(jié)果進(jìn)行更深入的推理和迭代改進(jìn)。

預(yù)算強(qiáng)制(Budget Forcing):通過(guò)限制模型在測(cè)試時(shí)使用的最大和/或最小思考token數(shù)量來(lái)控制計(jì)算量。

論文通過(guò)實(shí)驗(yàn)證明了,這種簡(jiǎn)單的方法能夠引導(dǎo)模型修正答案。

下圖這個(gè)例子中,模型最初在回答一個(gè)關(guān)于「raspberry」中 「r」的數(shù)量的問(wèn)題時(shí)給出了錯(cuò)誤的答案 「2」。

然而,通過(guò)抑制結(jié)束思考的token生成,并追加「Wait」來(lái)強(qiáng)制模型繼續(xù)推理,模型最終意識(shí)到自己快速閱讀導(dǎo)致了錯(cuò)誤,并最終給出了正確的答案「3」。

測(cè)試時(shí)擴(kuò)展方法

如下圖所示,s1-32B模型在使用預(yù)算強(qiáng)制技術(shù)后,其性能會(huì)隨著測(cè)試時(shí)計(jì)算量的增加而提高。

具體來(lái)說(shuō),通過(guò)增加模型思考的token數(shù)量(例如,通過(guò)追加「Wait」),模型在 AIME24 基準(zhǔn)測(cè)試上的表現(xiàn)得到了提升。

然而,這種提升最終會(huì)趨于平緩,過(guò)度抑制結(jié)束思考的token會(huì)導(dǎo)致模型進(jìn)入重復(fù)循環(huán)。

結(jié)果表明,s1-32B模型是目前樣本效率最高的開(kāi)源推理模型。盡管只使用了1000個(gè)樣本進(jìn)行微調(diào),s1-32B的性能仍明顯優(yōu)于其基礎(chǔ)模型Qwen2.5-32B-Instruct。

同時(shí),雖然DeepSeek r1-32B模型性能更強(qiáng),但其使用了800倍的訓(xùn)練樣本。

此外,s1-32B模型在AIME24上的表現(xiàn)幾乎與Gemini 2.0 Thinking API持平,表明其蒸餾過(guò)程是有效的。

總之,實(shí)驗(yàn)結(jié)果證明了s1-32B模型在測(cè)試時(shí)擴(kuò)展、樣本效率和推理能力方面的優(yōu)勢(shì),并驗(yàn)證了預(yù)算強(qiáng)制技術(shù)的有效性。

消融實(shí)驗(yàn)

數(shù)據(jù)消融實(shí)驗(yàn):研究人員通過(guò)以下對(duì)比實(shí)驗(yàn),驗(yàn)證了高質(zhì)量、多樣性、和難度這三個(gè)數(shù)據(jù)選擇標(biāo)準(zhǔn)的重要性:

  • 僅質(zhì)量 (1K-random):隨機(jī)選取1000個(gè)高質(zhì)量樣本,性能明顯低于s1K,表明難度和多樣性過(guò)濾的重要性。
  • 僅多樣性 (1K-diverse):均勻選取各個(gè)領(lǐng)域樣本,性能也遠(yuǎn)不如s1K,表明只關(guān)注多樣性是不夠的。
  • 僅難度 (1K-longest):選擇推理軌跡最長(zhǎng)的1000個(gè)樣本,在GPQA上有提升,但整體不如s1K,表明難度只是一個(gè)方面。
  • 最大化數(shù)據(jù)量 (59K-full):使用所有59K樣本訓(xùn)練,雖然性能略有提升,但訓(xùn)練資源消耗巨大,且提升幅度有限,說(shuō)明精心挑選的少量數(shù)據(jù)比大量數(shù)據(jù)更高效。

結(jié)果表明,將質(zhì)量、難度和多樣性相結(jié)合是實(shí)現(xiàn)樣本高效推理訓(xùn)練的關(guān)鍵。

測(cè)試時(shí)擴(kuò)展方法消融實(shí)驗(yàn):研究人員通過(guò)比較不同的測(cè)試時(shí)擴(kuò)展方法,驗(yàn)證了預(yù)算強(qiáng)制的優(yōu)越性:

  • Token/步驟/類別 條件控制 (TCC/SCC/CCC):這些方法都無(wú)法有效控制計(jì)算量或獲得良好的擴(kuò)展效果,表明僅在提示中告知模型計(jì)算量或步驟是不足的。
  • 拒絕采樣 (RS):使用拒絕采樣會(huì)導(dǎo)致性能隨著計(jì)算量的增加而下降,因?yàn)楦痰纳赏悄P鸵婚_(kāi)始就走在正確軌道上的結(jié)果。
  • 預(yù)算強(qiáng)制 (BF):實(shí)驗(yàn)表明,預(yù)算強(qiáng)制在控制性、擴(kuò)展性和性能方面都優(yōu)于其他方法。
  • 在預(yù)算強(qiáng)制中,追加「Wait」能夠鼓勵(lì)模型進(jìn)行額外的思考,從而提高性能。

下圖展示了在AIME24數(shù)據(jù)集上使用s1-32B模型進(jìn)行拒絕采樣(rejection sampling)的實(shí)驗(yàn)結(jié)果,結(jié)果表明,隨著平均思考時(shí)間(以token數(shù)量衡量)的增加,模型的準(zhǔn)確率反而下降,呈現(xiàn)出反向擴(kuò)展趨勢(shì)。

更長(zhǎng)的推理過(guò)程并不一定意味著更好的性能。 這一結(jié)果也反襯了論文提出的預(yù)算強(qiáng)制方法(budget forcing)的優(yōu)越性,因?yàn)轭A(yù)算強(qiáng)制可以更有效地控制測(cè)試時(shí)的計(jì)算量,并促使模型進(jìn)行更有目的性的思考。

實(shí)驗(yàn)結(jié)果表明,預(yù)算強(qiáng)制是測(cè)試時(shí)擴(kuò)展的最佳方法。

總結(jié)

盡管很多模型,例如DeepSeek-r1和k1.5,通過(guò)強(qiáng)化學(xué)習(xí)或使用數(shù)萬(wàn)個(gè)蒸餾樣本來(lái)構(gòu)建強(qiáng)大的推理模型。

但該研究表明,僅需在1000個(gè)樣本上進(jìn)行監(jiān)督微調(diào) (SFT) 就足以構(gòu)建一個(gè)具有競(jìng)爭(zhēng)力的推理模型,該模型可以與 OpenAI的o1-preview相媲美。

李飛飛團(tuán)隊(duì)研究人員認(rèn)為,預(yù)訓(xùn)練階段模型已經(jīng)接觸了大量的推理數(shù)據(jù),因此微調(diào)階段只需少量樣本就能激活模型的推理能力,這與LIMA論文中提出的表面「對(duì)齊假說(shuō)」類似。

論文提出的預(yù)算強(qiáng)制 (budget forcing) 是一種簡(jiǎn)單有效的順序擴(kuò)展方法,它通過(guò)控制模型思考的token數(shù)量來(lái)提高性能,并首次復(fù)現(xiàn)了OpenAI的測(cè)試時(shí)擴(kuò)展曲線。

盡管預(yù)算強(qiáng)制有其局限性,例如最終會(huì)趨于平緩和受上下文窗口的限制,但它證明了測(cè)試時(shí)擴(kuò)展的潛力,并為未來(lái)的研究提供了明確的指標(biāo):可控性、擴(kuò)展性和性能。

為了克服順序擴(kuò)展的局限性,論文還探討了并行擴(kuò)展方法,如多數(shù)投票和基于REBASE的樹搜索(下圖)。實(shí)驗(yàn)結(jié)果表明,將順序擴(kuò)展與并行擴(kuò)展方法相結(jié)合,還可以進(jìn)一步擴(kuò)展測(cè)試時(shí)的計(jì)算量。

未來(lái)方向

論文強(qiáng)調(diào),未來(lái)的研究可以探索如何進(jìn)一步改進(jìn)預(yù)算強(qiáng)制,例如輪換使用不同的字符串或結(jié)合頻率懲罰。

一個(gè)有前景的方向是將預(yù)算強(qiáng)制應(yīng)用于通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的推理模型,并研究新的測(cè)試時(shí)擴(kuò)展方法。

此外,可以研究如何進(jìn)一步擴(kuò)展測(cè)試時(shí)的計(jì)算量,以克服現(xiàn)有語(yǔ)言模型上下文窗口的限制。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-02-07 08:33:02

2025-02-06 18:37:46

GPUQwen2.5模型

2024-11-15 09:36:07

2018-03-02 08:30:07

Windows 10電腦卡測(cè)試版

2025-02-06 08:45:22

2025-02-08 09:30:00

2024-12-20 14:30:00

2024-09-23 16:00:00

AI模型測(cè)評(píng)

2024-11-25 12:50:14

2023-06-30 09:53:08

英偉達(dá)AI

2025-10-17 09:53:23

2020-03-11 10:52:08

2024-12-10 07:00:00

2013-05-27 10:21:39

游戲設(shè)計(jì)

2023-06-29 21:30:30

英偉達(dá)用戶基礎(chǔ)設(shè)施

2025-01-02 09:53:17

2025-05-06 15:39:53

DeepSeek-R英偉達(dá)開(kāi)源

2015-11-23 17:34:33

秒借

2018-03-12 21:31:24

區(qū)塊鏈

2017-03-16 08:46:57

延時(shí)消息環(huán)形隊(duì)列數(shù)據(jù)結(jié)構(gòu)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)