三思而后行,讓大模型推理更強(qiáng)的秘密是「THINK TWICE」?
近年來(lái),大語(yǔ)言模型(LLM)的性能提升逐漸從訓(xùn)練時(shí)規(guī)模擴(kuò)展轉(zhuǎn)向推理階段的優(yōu)化,這一趨勢(shì)催生了「測(cè)試時(shí)擴(kuò)展(test-time scaling)」的研究熱潮。OpenAI 的 o1 系列與 DeepSeek 的 R1 模型已展示出顯著的推理能力提升。然而,在實(shí)現(xiàn)高性能的同時(shí),復(fù)雜的訓(xùn)練策略、冗長(zhǎng)的提示工程和對(duì)外部評(píng)分系統(tǒng)的依賴仍是現(xiàn)實(shí)挑戰(zhàn)。
近日,由 a-m-team 團(tuán)隊(duì)提出的一項(xiàng)新研究提出了一個(gè)更簡(jiǎn)潔直觀的思路:三思而后行(Think Twice)。它不依賴新的訓(xùn)練,不引入復(fù)雜機(jī)制,僅通過(guò)一種非常人類式的思維策略 ——“再想一輪”—— 在多個(gè)基準(zhǔn)任務(wù)中帶來(lái)顯著性能提升。
- 論文標(biāo)題:Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking
- 論文連接:https://arxiv.org/abs/2503.19855
- 項(xiàng)目地址:https://github.com/a-m-team/a-m-models
“Multi-round Thinking”
一輪不夠,那就兩輪、三輪
該方法的核心思想類似于人類在做題時(shí)的反思機(jī)制:模型先基于原始問(wèn)題生成第一次答案,再將該答案(而非推理過(guò)程)作為新的提示,促使模型獨(dú)立 “重答” 一次,并在每一輪中不斷修正先前的偏誤。
這個(gè)過(guò)程中,模型不會(huì)受限于上一次的推理軌跡,而是以一個(gè)「結(jié)果驅(qū)動(dòng)」的方式自我反思與糾錯(cuò),逐步逼近更合理的答案。研究人員指出,這種策略有效緩解了大模型推理中常見(jiàn)的 “認(rèn)知慣性”,即模型過(guò)度依賴初始推理路徑而難以跳脫錯(cuò)誤邏輯。
不靠訓(xùn)練,也能提升多個(gè)基準(zhǔn)性能
研究團(tuán)隊(duì)在四個(gè)權(quán)威數(shù)據(jù)集上驗(yàn)證了該方法,包括:
- AIME 2024(美國(guó)數(shù)學(xué)邀請(qǐng)賽)
- MATH-500(由 OpenAI 從原始 MATH 數(shù)據(jù)集中精選出 500 個(gè)最具挑戰(zhàn)性的問(wèn)題)
- GPQA-Diamond(研究生級(jí)別問(wèn)答)
- LiveCodeBench(編程任務(wù))
在不改變模型結(jié)構(gòu)、無(wú)額外訓(xùn)練的前提下,DeepSeek-R1 和 QwQ-32B 等主流模型在所有測(cè)試集上均表現(xiàn)出不同程度的提升。例如:
- DeepSeek-R1 在 AIME 上從 79.7% 提升至 82.0%
- QwQ-32B 在 AIME 上從 80.3% 提升至 83.1%
更值得注意的是,在進(jìn)行 2 輪、3 輪甚至 4 輪的 “再思考” 后,準(zhǔn)確率穩(wěn)步上升,模型表現(xiàn)出更強(qiáng)的穩(wěn)定性和反思能力。
更短的答案、更少的猶豫
模型開(kāi)始 “自信發(fā)言”
除了準(zhǔn)確率的提升,研究團(tuán)隊(duì)還觀察到了語(yǔ)言風(fēng)格的變化。通過(guò)分析模型生成內(nèi)容中 “but”、“wait”、“maybe”、“therefore” 等語(yǔ)氣詞的使用頻率,他們發(fā)現(xiàn):
- 模型在第二輪中使用 “but”、“wait” 等不確定詞的頻率明顯減少;
- 即使在多輪中仍答錯(cuò),模型的表達(dá)也趨向更加簡(jiǎn)潔、自信;
- 當(dāng)模型成功從錯(cuò)誤中修正時(shí),常伴隨著更慎重的過(guò)渡語(yǔ),例如 “wait”、“therefore” 增多。
這種變化表明,多輪推理不僅提升了結(jié)果準(zhǔn)確性,也改變了模型的表達(dá)風(fēng)格,使其在回答時(shí)更加 “像人類”,且邏輯清晰。
不同推理路徑中平均詞頻的變化。每個(gè)子圖展示了四個(gè)具有代表性的詞語(yǔ) —— “but”(但是)、“wait”(等等)、“maybe”(也許)和 “therefore”(因此)—— 在第 1 輪與第 2 輪中的平均詞頻,對(duì)回答類型進(jìn)行分組:I-C(錯(cuò)誤 → 正確)、I-I(錯(cuò)誤 → 錯(cuò)誤)、C-C(正確 → 正確)和 C-I(正確 → 錯(cuò)誤)。
多做題同時(shí)多思考
可能是更好路徑
這項(xiàng)研究的一個(gè)關(guān)鍵優(yōu)勢(shì)在于:它完全作用于推理階段,不需要額外的訓(xùn)練資源,即插即用。這種方法對(duì)于模型部署階段的優(yōu)化具有高度實(shí)用性,同時(shí)也為后續(xù)研究提供了可拓展的思路 —— 如何結(jié)合監(jiān)督微調(diào),或構(gòu)建更智能的多輪判斷機(jī)制。
目前研究團(tuán)隊(duì)已嘗試使用基于多輪推理結(jié)果的監(jiān)督微調(diào)數(shù)據(jù)對(duì)模型進(jìn)一步訓(xùn)練,初步結(jié)果顯示尚未顯著突破,但為 “訓(xùn)練 + 推理” 的結(jié)合方向奠定了基礎(chǔ)。
結(jié)語(yǔ)
“Think Twice” 展示了一種簡(jiǎn)單有效的思路:鼓勵(lì)大模型主動(dòng) “反思”,用多輪推理激發(fā)更強(qiáng)的認(rèn)知能力。它不僅提升了準(zhǔn)確率,更令模型在語(yǔ)言表達(dá)上變得更加理性、緊湊、自信。
在訓(xùn)練成本不斷攀升的今天,這種無(wú)需再訓(xùn)練的 “輕量級(jí)優(yōu)化” 無(wú)疑具有極強(qiáng)的現(xiàn)實(shí)吸引力。未來(lái),多輪推理或許能成為一種標(biāo)準(zhǔn)機(jī)制,幫助模型更接近真正意義上的 “會(huì)思考”。