偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

三思而后行,讓大模型推理更強(qiáng)的秘密是「THINK TWICE」?

人工智能 新聞
近日,由 a-m-team 團(tuán)隊(duì)提出的一項(xiàng)新研究提出了一個(gè)更簡(jiǎn)潔直觀的思路:三思而后行(Think Twice)。

近年來(lái),大語(yǔ)言模型(LLM)的性能提升逐漸從訓(xùn)練時(shí)規(guī)模擴(kuò)展轉(zhuǎn)向推理階段的優(yōu)化,這一趨勢(shì)催生了「測(cè)試時(shí)擴(kuò)展(test-time scaling)」的研究熱潮。OpenAI 的 o1 系列與 DeepSeek 的 R1 模型已展示出顯著的推理能力提升。然而,在實(shí)現(xiàn)高性能的同時(shí),復(fù)雜的訓(xùn)練策略、冗長(zhǎng)的提示工程和對(duì)外部評(píng)分系統(tǒng)的依賴仍是現(xiàn)實(shí)挑戰(zhàn)。

近日,由 a-m-team 團(tuán)隊(duì)提出的一項(xiàng)新研究提出了一個(gè)更簡(jiǎn)潔直觀的思路:三思而后行(Think Twice)。它不依賴新的訓(xùn)練,不引入復(fù)雜機(jī)制,僅通過(guò)一種非常人類式的思維策略 ——“再想一輪”—— 在多個(gè)基準(zhǔn)任務(wù)中帶來(lái)顯著性能提升。

圖片

  • 論文標(biāo)題:Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking
  • 論文連接:https://arxiv.org/abs/2503.19855
  • 項(xiàng)目地址:https://github.com/a-m-team/a-m-models

“Multi-round Thinking”

一輪不夠,那就兩輪、三輪

圖片

該方法的核心思想類似于人類在做題時(shí)的反思機(jī)制:模型先基于原始問(wèn)題生成第一次答案,再將該答案(而非推理過(guò)程)作為新的提示,促使模型獨(dú)立 “重答” 一次,并在每一輪中不斷修正先前的偏誤。

這個(gè)過(guò)程中,模型不會(huì)受限于上一次的推理軌跡,而是以一個(gè)「結(jié)果驅(qū)動(dòng)」的方式自我反思與糾錯(cuò),逐步逼近更合理的答案。研究人員指出,這種策略有效緩解了大模型推理中常見(jiàn)的 “認(rèn)知慣性”,即模型過(guò)度依賴初始推理路徑而難以跳脫錯(cuò)誤邏輯。

不靠訓(xùn)練,也能提升多個(gè)基準(zhǔn)性能

研究團(tuán)隊(duì)在四個(gè)權(quán)威數(shù)據(jù)集上驗(yàn)證了該方法,包括:

  • AIME 2024(美國(guó)數(shù)學(xué)邀請(qǐng)賽)
  • MATH-500(由 OpenAI 從原始 MATH 數(shù)據(jù)集中精選出 500 個(gè)最具挑戰(zhàn)性的問(wèn)題)
  • GPQA-Diamond(研究生級(jí)別問(wèn)答)
  • LiveCodeBench(編程任務(wù))

圖片

在不改變模型結(jié)構(gòu)、無(wú)額外訓(xùn)練的前提下,DeepSeek-R1 和 QwQ-32B 等主流模型在所有測(cè)試集上均表現(xiàn)出不同程度的提升。例如:

  • DeepSeek-R1 在 AIME 上從 79.7% 提升至 82.0%
  • QwQ-32B 在 AIME 上從 80.3% 提升至 83.1%

更值得注意的是,在進(jìn)行 2 輪、3 輪甚至 4 輪的 “再思考” 后,準(zhǔn)確率穩(wěn)步上升,模型表現(xiàn)出更強(qiáng)的穩(wěn)定性和反思能力。

更短的答案、更少的猶豫

模型開(kāi)始 “自信發(fā)言”

除了準(zhǔn)確率的提升,研究團(tuán)隊(duì)還觀察到了語(yǔ)言風(fēng)格的變化。通過(guò)分析模型生成內(nèi)容中 “but”、“wait”、“maybe”、“therefore” 等語(yǔ)氣詞的使用頻率,他們發(fā)現(xiàn):


  • 模型在第二輪中使用 “but”、“wait” 等不確定詞的頻率明顯減少;
  • 即使在多輪中仍答錯(cuò),模型的表達(dá)也趨向更加簡(jiǎn)潔、自信;
  • 當(dāng)模型成功從錯(cuò)誤中修正時(shí),常伴隨著更慎重的過(guò)渡語(yǔ),例如 “wait”、“therefore” 增多。

這種變化表明,多輪推理不僅提升了結(jié)果準(zhǔn)確性,也改變了模型的表達(dá)風(fēng)格,使其在回答時(shí)更加 “像人類”,且邏輯清晰。

圖片

不同推理路徑中平均詞頻的變化。每個(gè)子圖展示了四個(gè)具有代表性的詞語(yǔ) —— “but”(但是)、“wait”(等等)、“maybe”(也許)和 “therefore”(因此)—— 在第 1 輪與第 2 輪中的平均詞頻,對(duì)回答類型進(jìn)行分組:I-C(錯(cuò)誤 → 正確)、I-I(錯(cuò)誤 → 錯(cuò)誤)、C-C(正確 → 正確)和 C-I(正確 → 錯(cuò)誤)。

多做題同時(shí)多思考

可能是更好路徑

這項(xiàng)研究的一個(gè)關(guān)鍵優(yōu)勢(shì)在于:它完全作用于推理階段,不需要額外的訓(xùn)練資源,即插即用。這種方法對(duì)于模型部署階段的優(yōu)化具有高度實(shí)用性,同時(shí)也為后續(xù)研究提供了可拓展的思路 —— 如何結(jié)合監(jiān)督微調(diào),或構(gòu)建更智能的多輪判斷機(jī)制。

目前研究團(tuán)隊(duì)已嘗試使用基于多輪推理結(jié)果的監(jiān)督微調(diào)數(shù)據(jù)對(duì)模型進(jìn)一步訓(xùn)練,初步結(jié)果顯示尚未顯著突破,但為 “訓(xùn)練 + 推理” 的結(jié)合方向奠定了基礎(chǔ)。

結(jié)語(yǔ)

“Think Twice” 展示了一種簡(jiǎn)單有效的思路:鼓勵(lì)大模型主動(dòng) “反思”,用多輪推理激發(fā)更強(qiáng)的認(rèn)知能力。它不僅提升了準(zhǔn)確率,更令模型在語(yǔ)言表達(dá)上變得更加理性、緊湊、自信。

在訓(xùn)練成本不斷攀升的今天,這種無(wú)需再訓(xùn)練的 “輕量級(jí)優(yōu)化” 無(wú)疑具有極強(qiáng)的現(xiàn)實(shí)吸引力。未來(lái),多輪推理或許能成為一種標(biāo)準(zhǔn)機(jī)制,幫助模型更接近真正意義上的 “會(huì)思考”。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2009-10-29 18:04:32

2018-08-08 06:49:35

云計(jì)算私有云公有云

2011-03-29 15:53:28

數(shù)據(jù)庫(kù)管理

2023-10-14 13:07:52

訓(xùn)練模型

2015-02-26 14:10:58

部署虛擬化

2011-02-18 10:22:30

2015-04-20 10:47:53

微服務(wù)容器技術(shù)PaaS

2010-08-26 15:33:28

無(wú)線網(wǎng)絡(luò)

2013-09-11 11:00:59

HTML5企業(yè)

2023-09-06 08:30:00

低代碼自動(dòng)化開(kāi)發(fā)

2023-10-16 13:39:00

AI智能

2025-02-18 08:00:00

2010-02-01 16:39:32

Dell主板質(zhì)量

2023-07-18 15:14:04

人工智能自動(dòng)化

2014-08-20 11:17:03

2013-12-09 11:06:47

2015-04-16 16:58:39

2015-08-24 13:42:58

WiFi安全

2016-01-05 15:40:07

2013-09-12 10:30:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)