三思而后行，讓大模型推理更強(qiáng)的秘密是「THINK TWICE」？

作者：機(jī)器之心 2025-04-07 09:00:00

近日，由 a-m-team 團(tuán)隊(duì)提出的一項(xiàng)新研究提出了一個(gè)更簡(jiǎn)潔直觀的思路：三思而后行（Think Twice）。

近年來(lái)，大語(yǔ)言模型（LLM）的性能提升逐漸從訓(xùn)練時(shí)規(guī)模擴(kuò)展轉(zhuǎn)向推理階段的優(yōu)化，這一趨勢(shì)催生了「測(cè)試時(shí)擴(kuò)展（test-time scaling）」的研究熱潮。OpenAI 的 o1 系列與 DeepSeek 的 R1 模型已展示出顯著的推理能力提升。然而，在實(shí)現(xiàn)高性能的同時(shí)，復(fù)雜的訓(xùn)練策略、冗長(zhǎng)的提示工程和對(duì)外部評(píng)分系統(tǒng)的依賴仍是現(xiàn)實(shí)挑戰(zhàn)。

近日，由 a-m-team 團(tuán)隊(duì)提出的一項(xiàng)新研究提出了一個(gè)更簡(jiǎn)潔直觀的思路：三思而后行（Think Twice）。它不依賴新的訓(xùn)練，不引入復(fù)雜機(jī)制，僅通過(guò)一種非常人類式的思維策略 ——“再想一輪”—— 在多個(gè)基準(zhǔn)任務(wù)中帶來(lái)顯著性能提升。

論文標(biāo)題：Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking
論文連接：https://arxiv.org/abs/2503.19855
項(xiàng)目地址：https://github.com/a-m-team/a-m-models

“Multi-round Thinking”

一輪不夠，那就兩輪、三輪

該方法的核心思想類似于人類在做題時(shí)的反思機(jī)制：模型先基于原始問(wèn)題生成第一次答案，再將該答案（而非推理過(guò)程）作為新的提示，促使模型獨(dú)立 “重答” 一次，并在每一輪中不斷修正先前的偏誤。

這個(gè)過(guò)程中，模型不會(huì)受限于上一次的推理軌跡，而是以一個(gè)「結(jié)果驅(qū)動(dòng)」的方式自我反思與糾錯(cuò)，逐步逼近更合理的答案。研究人員指出，這種策略有效緩解了大模型推理中常見(jiàn)的 “認(rèn)知慣性”，即模型過(guò)度依賴初始推理路徑而難以跳脫錯(cuò)誤邏輯。

不靠訓(xùn)練，也能提升多個(gè)基準(zhǔn)性能

研究團(tuán)隊(duì)在四個(gè)權(quán)威數(shù)據(jù)集上驗(yàn)證了該方法，包括：

AIME 2024（美國(guó)數(shù)學(xué)邀請(qǐng)賽）
MATH-500（由 OpenAI 從原始 MATH 數(shù)據(jù)集中精選出 500 個(gè)最具挑戰(zhàn)性的問(wèn)題）
GPQA-Diamond（研究生級(jí)別問(wèn)答）
LiveCodeBench（編程任務(wù)）

在不改變模型結(jié)構(gòu)、無(wú)額外訓(xùn)練的前提下，DeepSeek-R1 和 QwQ-32B 等主流模型在所有測(cè)試集上均表現(xiàn)出不同程度的提升。例如：

DeepSeek-R1 在 AIME 上從 79.7% 提升至 82.0%
QwQ-32B 在 AIME 上從 80.3% 提升至 83.1%

更值得注意的是，在進(jìn)行 2 輪、3 輪甚至 4 輪的 “再思考” 后，準(zhǔn)確率穩(wěn)步上升，模型表現(xiàn)出更強(qiáng)的穩(wěn)定性和反思能力。

更短的答案、更少的猶豫

模型開(kāi)始 “自信發(fā)言”

除了準(zhǔn)確率的提升，研究團(tuán)隊(duì)還觀察到了語(yǔ)言風(fēng)格的變化。通過(guò)分析模型生成內(nèi)容中 “but”、“wait”、“maybe”、“therefore” 等語(yǔ)氣詞的使用頻率，他們發(fā)現(xiàn)：

模型在第二輪中使用 “but”、“wait” 等不確定詞的頻率明顯減少；
即使在多輪中仍答錯(cuò)，模型的表達(dá)也趨向更加簡(jiǎn)潔、自信；
當(dāng)模型成功從錯(cuò)誤中修正時(shí)，常伴隨著更慎重的過(guò)渡語(yǔ)，例如 “wait”、“therefore” 增多。

這種變化表明，多輪推理不僅提升了結(jié)果準(zhǔn)確性，也改變了模型的表達(dá)風(fēng)格，使其在回答時(shí)更加 “像人類”，且邏輯清晰。

不同推理路徑中平均詞頻的變化。每個(gè)子圖展示了四個(gè)具有代表性的詞語(yǔ) —— “but”（但是）、“wait”（等等）、“maybe”（也許）和 “therefore”（因此）—— 在第 1 輪與第 2 輪中的平均詞頻，對(duì)回答類型進(jìn)行分組：I-C（錯(cuò)誤 → 正確）、I-I（錯(cuò)誤 → 錯(cuò)誤）、C-C（正確 → 正確）和 C-I（正確 → 錯(cuò)誤）。

多做題同時(shí)多思考

可能是更好路徑

這項(xiàng)研究的一個(gè)關(guān)鍵優(yōu)勢(shì)在于：它完全作用于推理階段，不需要額外的訓(xùn)練資源，即插即用。這種方法對(duì)于模型部署階段的優(yōu)化具有高度實(shí)用性，同時(shí)也為后續(xù)研究提供了可拓展的思路 —— 如何結(jié)合監(jiān)督微調(diào)，或構(gòu)建更智能的多輪判斷機(jī)制。

目前研究團(tuán)隊(duì)已嘗試使用基于多輪推理結(jié)果的監(jiān)督微調(diào)數(shù)據(jù)對(duì)模型進(jìn)一步訓(xùn)練，初步結(jié)果顯示尚未顯著突破，但為 “訓(xùn)練 + 推理” 的結(jié)合方向奠定了基礎(chǔ)。

結(jié)語(yǔ)

“Think Twice” 展示了一種簡(jiǎn)單有效的思路：鼓勵(lì)大模型主動(dòng) “反思”，用多輪推理激發(fā)更強(qiáng)的認(rèn)知能力。它不僅提升了準(zhǔn)確率，更令模型在語(yǔ)言表達(dá)上變得更加理性、緊湊、自信。

在訓(xùn)練成本不斷攀升的今天，這種無(wú)需再訓(xùn)練的 “輕量級(jí)優(yōu)化” 無(wú)疑具有極強(qiáng)的現(xiàn)實(shí)吸引力。未來(lái)，多輪推理或許能成為一種標(biāo)準(zhǔn)機(jī)制，幫助模型更接近真正意義上的 “會(huì)思考”。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型 AI 推理

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

三思而后行，讓大模型推理更強(qiáng)的秘密是「THINK TWICE」？