偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nobr id="sm312"></nobr><strong id="sm312"><fieldset id="sm312"><legend id="sm312"></legend></fieldset></strong>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

小而美！1B模型如何通過(guò)測(cè)試時(shí)優(yōu)化逆襲405B LLM？

發(fā)布于 2025-2-24 11:01

瀏覽

0收藏

今天分享一篇來(lái)自上海人工智能實(shí)驗(yàn)室、清華大學(xué)、哈爾濱工業(yè)大學(xué)和北京郵電大學(xué)聯(lián)合的一篇文章，標(biāo)題是：Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling（1B 的 LLM 能否超越 405B 的 LLM？重新思考計(jì)算最優(yōu)的測(cè)試時(shí)縮放）。

這篇文章研究了大型語(yǔ)言模型（LLMs）在「推理階段通過(guò)增加計(jì)算量來(lái)提高性能的測(cè)試時(shí)縮放」（Test-Time Scaling, TTS）方法。作者們「系統(tǒng)地分析了策略模型、過(guò)程獎(jiǎng)勵(lì)模型（PRMs）和問(wèn)題難度如何影響 TTS」，并提出了兩個(gè)核心問(wèn)題：「(1) 在不同的策略模型、PRMs 和問(wèn)題難度水平下，擴(kuò)展測(cè)試時(shí)計(jì)算的最佳方法是什么？(2) 擴(kuò)展計(jì)算能在多大程度上提高 LLMs 在復(fù)雜任務(wù)上的性能，以及較小的語(yǔ)言模型是否能通過(guò)這種方法超越較大的模型？」

該方法的主要特點(diǎn)包括：

「全面評(píng)估」：對(duì)不同的 TTS 方法進(jìn)行了全面的評(píng)估，使用了各種最新的策略模型、多個(gè) PRMs、不同的縮放方法和更具挑戰(zhàn)性的任務(wù)。
「獎(jiǎng)勵(lì)感知」：強(qiáng)調(diào)了在 TTS 過(guò)程中考慮獎(jiǎng)勵(lì)的必要性，并引入了獎(jiǎng)勵(lì)感知的計(jì)算最優(yōu) TTS。
「小模型潛力」：實(shí)證結(jié)果表明，較小的語(yǔ)言模型通過(guò) TTS 有可能超越較大的模型。

一、概述

「Title:」Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
「URL:」??https://arxiv.org/abs/2502.06703v1??
「Authors:」Runze Liu, Junqi Gao, Jian Zhao, Kaiyan Zhang, Xiu Li, Biqing Qi, Wanli Ouyang, Bowen Zhou
「Code:」??https://ryanliu112.github.io/compute-optimal-tts??

1 Motivation

當(dāng)前測(cè)試時(shí)間縮放（TTS）的研究缺乏對(duì)策略模型、過(guò)程獎(jiǎng)勵(lì)模型（PRM）和問(wèn)題難度如何影響TTS的系統(tǒng)分析，限制了對(duì)TTS方法理解和實(shí)際應(yīng)用。
如何在不同的策略模型、PRM和問(wèn)題難度級(jí)別上優(yōu)化測(cè)試時(shí)間計(jì)算的縮放方法？
擴(kuò)展計(jì)算能在多大程度上提高LLM在復(fù)雜任務(wù)上的性能，以及小模型是否可以通過(guò)這種方法超越大模型？

2 Methods

「省流版總結(jié):」

本文提出了一種計(jì)算最佳的TTS策略，通過(guò)綜合實(shí)驗(yàn)分析了策略模型、PRM和問(wèn)題難度對(duì)TTS的影響。實(shí)驗(yàn)使用了MATH-500和AIME24數(shù)據(jù)集，以及不同大小的Llama 3和Qwen2.5模型。研究發(fā)現(xiàn)，計(jì)算最佳的TTS策略高度依賴于策略模型、PRM和問(wèn)題難度的選擇。

「問(wèn)題建模」: 將推理問(wèn)題建模為馬爾可夫決策過(guò)程 (MDP)。
「測(cè)試時(shí)縮放方法」: 考慮了三種 TTS 方法：Best-of-N (BoN), Beam Search, 和 Diverse Verifier Tree Search (DVTS) 。
「計(jì)算最優(yōu)的測(cè)試時(shí)縮放」: 選擇超參數(shù)以最大化給定測(cè)試時(shí)策略的性能。
「Reward-Aware Compute-Optimal TTS:」將獎(jiǎng)勵(lì)集成到計(jì)算最優(yōu)的 TTS 策略中，形成更通用的框架。

「詳細(xì)方法和步驟:」

論文通過(guò)以下步驟詳細(xì)闡述了其方法：

「問(wèn)題形式化」：

將推理問(wèn)題定義為馬爾可夫決策過(guò)程（MDP），包括狀態(tài)空間、動(dòng)作空間、轉(zhuǎn)移函數(shù)、獎(jiǎng)勵(lì)函數(shù)和折扣因子。

策略根據(jù)當(dāng)前狀態(tài)生成動(dòng)作，狀態(tài)根據(jù)動(dòng)作進(jìn)行轉(zhuǎn)移，并獲得獎(jiǎng)勵(lì)。

目標(biāo)是找到最優(yōu)策略，最大化累積獎(jiǎng)勵(lì)。

「測(cè)試時(shí)縮放方法」：

特征	Best-of-N (BoN)	Beam Search	Diverse Verifier Tree Search (DVTS)
核心思想	生成多個(gè)獨(dú)立響應(yīng)，選擇最優(yōu)	逐步擴(kuò)展候選序列，擇優(yōu)保留	多樣性搜索，并行探索多個(gè)子樹(shù)
生成方式	一次性生成N個(gè)完整響應(yīng)	逐步生成，每步選擇Top N個(gè)擴(kuò)展	分成多個(gè)子樹(shù)并行Beam Search
選擇標(biāo)準(zhǔn)	PRM評(píng)分、投票等	驗(yàn)證器（PRM）評(píng)分	驗(yàn)證器（PRM）評(píng)分
計(jì)算量	與N成正比	每步計(jì)算量與Beam Width成正比	計(jì)算量較大，與子樹(shù)數(shù)量和Beam Width相關(guān)
優(yōu)點(diǎn)	實(shí)現(xiàn)簡(jiǎn)單，易于并行	逐步優(yōu)化，效果通常優(yōu)于BoN	探索多樣性，避免局部最優(yōu)
缺點(diǎn)	缺乏探索性，易受初始生成質(zhì)量影響	容易陷入局部最優(yōu)	計(jì)算量大，實(shí)現(xiàn)復(fù)雜
適用場(chǎng)景	簡(jiǎn)單任務(wù)，計(jì)算資源有限	中等復(fù)雜度任務(wù)	復(fù)雜任務(wù)，需要多樣性探索

「Best-of-N (BoN)」：策略模型生成 N 個(gè)響應(yīng)，然后應(yīng)用評(píng)分和投票方法選擇最終答案。
「Beam Search」：給定束寬 N 和束大小 M，策略模型首先生成 N 個(gè)步驟。驗(yàn)證器選擇最佳的 N/M 個(gè)步驟進(jìn)行后續(xù)搜索。下一步，策略模型對(duì)每個(gè)選定的先前步驟采樣 M 個(gè)步驟。此過(guò)程重復(fù)，直到達(dá)到最大深度或生成標(biāo)記。
「Diverse Verifier Tree Search (DVTS)」：通過(guò)將搜索過(guò)程劃分為 N 個(gè)子樹(shù)來(lái)擴(kuò)展 Beam Search，每個(gè)子樹(shù)使用 Beam Search 獨(dú)立探索。

小而美！1B模型如何通過(guò)測(cè)試時(shí)優(yōu)化逆襲405B LLM？-AI.x社區(qū)

「目標(biāo):」 這個(gè)公式旨在找到一個(gè)最優(yōu)的測(cè)試時(shí)計(jì)算縮放策略（compute-optimal test-time scaling strategy），簡(jiǎn)單來(lái)說(shuō)就是「怎么用最合理的計(jì)算資源，讓模型在推理的時(shí)候表現(xiàn)最好」。

「符號(hào)說(shuō)明:」

「公式含義:」

提出了一個(gè)測(cè)試時(shí)計(jì)算最優(yōu)縮放策略，該策略選擇超參數(shù)以最大化給定測(cè)試時(shí)策略在特定提示上的性能收益。

小而美！1B模型如何通過(guò)測(cè)試時(shí)優(yōu)化逆襲405B LLM？-AI.x社區(qū)

「符號(hào)說(shuō)明 (與公式2對(duì)比):」

「公式含義:」

「公式3與公式2的區(qū)別:」

提出應(yīng)將獎(jiǎng)勵(lì)整合到計(jì)算最優(yōu) TTS 策略中。

「絕對(duì)問(wèn)題難度標(biāo)準(zhǔn)」：

使用絕對(duì)閾值而不是分位數(shù)來(lái)衡量問(wèn)題難度。
基于 Pass@1 準(zhǔn)確率定義了三個(gè)難度級(jí)別：easy (50% ~ 100%)、medium (10% ~ 50%) 和 hard (0% ~ 10%)。

3 Conclusion

計(jì)算最佳的「TTS策略高度依賴于策略模型、PRM和問(wèn)題難度的選擇?！?/strong>
通過(guò)「計(jì)算最佳的TTS策略，極小的策略模型可以勝過(guò)更大的模型。例如，一個(gè)1B的LLM可以在MATH-500上超過(guò)一個(gè)405B的LLM。」
實(shí)驗(yàn)結(jié)果表明，「與CoT和多數(shù)投票相比，計(jì)算最佳的TTS可以提高LLM的推理性能?！?/strong>

4 Limitation

將TTS擴(kuò)展到更多任務(wù)，如編碼和化學(xué)任務(wù)。
探索更有效的計(jì)算最佳TTS方法。

二、詳細(xì)內(nèi)容

1 獎(jiǎng)勵(lì)會(huì)顯著影響生成的過(guò)程和結(jié)果

image-20250216224908584

說(shuō)明：

RLHFlow-PRM-Mistral-8B對(duì)短響應(yīng)給予高獎(jiǎng)勵(lì)，卻產(chǎn)生了錯(cuò)誤的答案；
使用RLHFlow-Deepseek-PRM-8B進(jìn)行搜索雖然產(chǎn)生正確答案，但使用了更多token。

結(jié)論：獎(jiǎng)勵(lì)應(yīng)該被整合到計(jì)算最優(yōu)的TTS策略中。

2 PRM的過(guò)程監(jiān)督能力是決定其在TTS中性能的關(guān)鍵因素

image-20250216225517615

說(shuō)明：PRM的過(guò)程監(jiān)督能力越強(qiáng)，其在TTS中通常能帶來(lái)更好的性能。

結(jié)論：應(yīng)該注重提高PRM的過(guò)程監(jiān)督能力，而不僅僅是增加參數(shù)量。

3 策略模型大小對(duì)TTS參數(shù)的影響

image-20250216225948348

說(shuō)明：使用了Qwen2.5系列的不同大小LLM（從0.5B到72B）進(jìn)行實(shí)驗(yàn)，分析最優(yōu)TTS參數(shù)。

結(jié)論：

小型策略模型：基于搜索的方法優(yōu)于BoN3。對(duì)于大型策略模型，BoN比基于搜索的方法更有效。
最優(yōu)的TTS方法依賴于策略模型的大小，在選擇TTS方法時(shí)需要考慮模型的推理能力。

4 題目難度對(duì)TTS參數(shù)的影響

image-20250216230308416

結(jié)論：

「小規(guī)模策略模型（參數(shù)少于7B）」：BoN在簡(jiǎn)單問(wèn)題上表現(xiàn)更好，而束搜索更適合解決較難問(wèn)題。
「中等規(guī)模策略模型（參數(shù)7B至32B）」：DVTS在簡(jiǎn)單和中等問(wèn)題上表現(xiàn)優(yōu)異，束搜索則在困難問(wèn)題上更具優(yōu)勢(shì)。
「大規(guī)模策略模型（參數(shù)72B）」：BoN在所有難度級(jí)別上均為最佳選擇。

5 小模型在TTS加持下可以擊敗例如DeepSeek-R1, O1, GPT-4o等模型

結(jié)論：

1B模型在TTS加持下能超過(guò)405B的模型。
TTS加持下，DeepSeek-R1蒸餾系列的模型(1.5B和7B模型)能超過(guò)DeepSeek-R1。

6 TTS最優(yōu)相對(duì)COT能顯著提升推理能力同時(shí)提高效率

結(jié)論：

對(duì)于推理能力較弱的模型，Scaling測(cè)試時(shí)計(jì)算會(huì)帶來(lái)顯著改進(jìn)；
而對(duì)于推理能力較強(qiáng)的模型，提升效果則較為有限。

7 TTS比RL或者SFT加持更有效但是比不過(guò)R1蒸餾的模型

三、總結(jié)

本文對(duì)計(jì)算最優(yōu)的測(cè)試時(shí)縮放進(jìn)行了深入的實(shí)證分析，從不同的策略模型、PRMs 和更具挑戰(zhàn)性的評(píng)估任務(wù)的角度出發(fā)。研究結(jié)果「驗(yàn)證了較小的語(yǔ)言模型在應(yīng)用計(jì)算最優(yōu) TTS 時(shí)可以表現(xiàn)得比更大的模型更好?！?/strong> 結(jié)果表明，一個(gè) 1B 模型可以通過(guò) TTS 實(shí)現(xiàn)比 405B 模型更好的性能。此外，還證明了一個(gè) 7B PRM 可以通過(guò)監(jiān)督一個(gè)更有能力的 72B 策略模型來(lái)實(shí)現(xiàn)強(qiáng)大的 TTS 結(jié)果，這表明了研究真正的“弱到強(qiáng)”方法的重要性，而不是目前用于策略優(yōu)化的“強(qiáng)到弱”監(jiān)督。為了實(shí)現(xiàn)這一目標(biāo)，需要開(kāi)發(fā)更有效的監(jiān)督方法，因?yàn)榛?PRM 和基于 RL 的方法由于依賴于高質(zhì)量的監(jiān)督而存在局限性。未來(lái)的工作應(yīng)側(cè)重于開(kāi)發(fā)更具適應(yīng)性和通用性的監(jiān)督機(jī)制，以提高小型語(yǔ)言模型在復(fù)雜任務(wù)上的性能，并提供開(kāi)發(fā)高效推理策略的新方法。

「結(jié)論1:」 通過(guò)自適應(yīng)地調(diào)整測(cè)試時(shí)計(jì)算量，「小規(guī)模語(yǔ)言模型在特定任務(wù)上可以達(dá)到甚至超過(guò)大規(guī)模模型的性能，實(shí)現(xiàn)了更高的效率?！?/strong>

「結(jié)論2:」 最佳的「測(cè)試時(shí)計(jì)算縮放策略高度依賴于所使用的策略模型、過(guò)程獎(jiǎng)勵(lì)模型（PRM）以及問(wèn)題的難度?！?/strong> 這意味著沒(méi)有一種通用的TTS策略適用于所有情況，需要根據(jù)具體任務(wù)和模型進(jìn)行調(diào)整。

「結(jié)論3:」 本文通過(guò)實(shí)證分析揭示了「計(jì)算最佳TTS策略的依賴性，強(qiáng)調(diào)了在實(shí)際應(yīng)用中考慮獎(jiǎng)勵(lì)信息的重要性」，并為未來(lái)的研究方向提供了指導(dǎo)。

本文轉(zhuǎn)載自 ??NLP PaperWeekly??，作者： NLP PaperWeekly

標(biāo)簽
LLM
模型
測(cè)試

已于2025-2-24 12:17:08修改

贊

收藏

回復(fù)

分享

微博

QQ

微信

舉報(bào)
舉報(bào)

微信掃碼分享

刪除帖子
刪除取消

回復(fù)

相關(guān)推薦

最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開(kāi)源引領(lǐng)新時(shí)代

輕薄滴假象 ? 3354瀏覽 ? 0回復(fù)
Meta 開(kāi)源最強(qiáng)大模型Llama 3.1，參數(shù)多達(dá) 405B，超16000塊H100訓(xùn)練，燃燒數(shù)億經(jīng)費(fèi)！小扎：堅(jiān)定開(kāi)源不動(dòng)搖！

51CTO技術(shù)棧 ? 5481瀏覽 ? 0回復(fù)
最強(qiáng)大模型 Llama 3.1-405B 架構(gòu)設(shè)計(jì)剖析

玄姐聊AGI ? 4737瀏覽 ? 0回復(fù)
Meta正式發(fā)布Llama-3.1，超大杯405B！千呼萬(wàn)喚始出來(lái)！

PaperAgent ? 4512瀏覽 ? 0回復(fù)
Llama3.1系列模型正式開(kāi)源，最大405B，閉源模型的統(tǒng)治時(shí)代將迎來(lái)結(jié)束？

NLP工作站 ? 3551瀏覽 ? 0回復(fù)
Llama3.2開(kāi)源：Meta發(fā)布1B和3B端側(cè)模型、11B和90B多模態(tài)模型

NLP工作站 ? 6271瀏覽 ? 0回復(fù)
Llama 3.2 強(qiáng)勢(shì)震撼登場(chǎng)：從 1B 純文本躍至 90B 多模態(tài)，成就端側(cè) AI 巔峰杰作

穿越時(shí)空111 ? 5057瀏覽 ? 0回復(fù)
Qwen2.5：13個(gè)新模型來(lái)襲！開(kāi)源通用、編碼、數(shù)學(xué)模型全解讀，72B超越Llama 405B - 本地安裝測(cè)試

老蛀蟲(chóng) ? 8793瀏覽 ? 0回復(fù)
Meta AI發(fā)布全新量化版本Llama 3.2（1B & 3B）：推理速度提升2-4倍，模型大小減少56%

Halo咯咯 ? 4287瀏覽 ? 0回復(fù)
Llama 3.1 405B，教你白嫖使用最強(qiáng)開(kāi)源大模型

小虎哦哦 ? 4404瀏覽 ? 0回復(fù)
AMD 開(kāi)源 AMD OLMo：完全開(kāi)源的 1B 語(yǔ)言模型系列

Halo咯咯 ? 3657瀏覽 ? 0回復(fù)
Qwen2.5：13個(gè)新模型來(lái)襲！開(kāi)源通用、編碼、數(shù)學(xué)模型全解讀，72B超越Llama 405B - 本地安裝測(cè)試

老蛀蟲(chóng) ? 7331瀏覽 ? 0回復(fù)
9B參數(shù)吊打GPT-4V！NVIDIA開(kāi)源新模型（Eagle 2），竟靠“透明數(shù)據(jù)”逆襲？

Halo咯咯 ? 3585瀏覽 ? 0回復(fù)
32B逆襲671BDeepSeek R1！阿里推理模型炸翻了：小到筆記本就能run,成本僅1/10！又是強(qiáng)化學(xué)習(xí)帶來(lái)驚喜！

51CTO技術(shù)棧 ? 3448瀏覽 ? 0回復(fù)
320億參數(shù)逆襲6710億！阿里QwQ-32B開(kāi)源引爆AI效率革命：?jiǎn)慰ㄟ\(yùn)行、成本降60倍，國(guó)產(chǎn)芯片突圍AGI

墨風(fēng)如雪小站 ? 5379瀏覽 ? 0回復(fù)
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 5513瀏覽 ? 0回復(fù)
微軟rStar2智能體：破解AI推理 “工具噪聲 + GPU 閑置” ，“智能體RL” 14B 逆襲 671B！

十一月雨_55 ? 2474瀏覽 ? 0回復(fù)
騰訊混元開(kāi)源翻譯模型：Hunyuan-MT-7B與Chimera-7B，如何做到小模型媲美巨頭？

Halo咯咯 ? 4863瀏覽 ? 0回復(fù)
直面 GPT-4：GLM 4.5 如何憑開(kāi)源+代理能力逆襲？

Halo咯咯 ? 3803瀏覽 ? 0回復(fù)

arnoldzhw

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Trade in Minutes! 揭秘首個(gè)將策略與執(zhí)行完全分離的量化交易Agent 2天前發(fā)布
AI Agent落地必讀：深度解讀OpenAI 姚順雨的T-bench，如何評(píng)測(cè)智能體的“真功夫” 2025-10-20 07:55:42發(fā)布

熱門(mén)推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開(kāi)發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)
別再怪AI“聽(tīng)不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)
Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)
代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)
DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇： DeepSeek-R1技術(shù)大揭秘：論文核心原理拆解與模型性能突破關(guān)鍵

下一篇： LMEDR對(duì)話模型：引入自然語(yǔ)言推理數(shù)據(jù)提升對(duì)話模型的連貫性和一致性

社區(qū)精華內(nèi)容

目錄

Copyright ? 2005-2025 51CTO.COM 京ICP證060544版權(quán)所有未經(jīng)許可請(qǐng)勿轉(zhuǎn)載

客服

感谢您访问我们的网站，您可能还对以下资源感兴趣：
偷偷摘套内射激情视频