AI真的需要「像人類」那樣思考嗎?AlphaOne揭示屬于大模型的「思考之道」
本文共同第一作者為張均瑜與董潤(rùn)沛,分別為伊利諾伊大學(xué)厄巴納-香檳分校計(jì)算機(jī)科學(xué)研究生與博士生;該研究工作在伊利諾伊大學(xué)厄巴納-香檳分校張歡教授與 Saurabh Gupta 教授,加州大學(xué)伯克利分校 Jitendra Malik 教授的指導(dǎo)下完成。
「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman,Thinking,F(xiàn)ast and Slow(2011)

在思維節(jié)奏這件事上,人類早已形成一種獨(dú)特而復(fù)雜的模式。
我們習(xí)慣讓 AI 模仿人類思維方式:先依賴直覺快速反應(yīng)(System 1),再慢慢進(jìn)入邏輯推理(System 2);答題時(shí)先給出初步判斷,再自我反思逐步修正……模仿人類的推理節(jié)奏,已經(jīng)成為語(yǔ)言模型推理策略的默認(rèn)路徑。
最近,一項(xiàng)來(lái)自 UIUC 與 UC Berkeley 的新研究提出:也許模型不該再走這條「人類范式」的老路。
他們提出了一種新的測(cè)試時(shí)推理調(diào)控框架——AlphaOne,主張讓模型反其道而行:先慢速思考,再快速推理。

- 論文標(biāo)題: AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
- 項(xiàng)目主頁(yè):https://alphaone-project.github.io/
- 論文地址:https://arxiv.org/pdf/2505.24863
- 代碼地址:https://github.com/ASTRAL-Group/AlphaOne
令人意外的是,這一策略不依賴任何額外訓(xùn)練,僅需在測(cè)試階段引入一個(gè)全局推理調(diào)控超參數(shù) α,即可顯著提升模型的推理準(zhǔn)確率,同時(shí)讓生成過(guò)程更加高效緊湊?;蛟S,是時(shí)候重新思考:AI 真的需要「像人類」那樣思考嗎?
看似聰明的推理,其實(shí)是不懂停下來(lái)的錯(cuò)覺
近年的大型推理模型(LRMs),如 OpenAI o1 和 DeepSeek-R1,在復(fù)雜推理任務(wù)上取得顯著進(jìn)展,逐漸具備類似人類的 System-2 能力,能夠在測(cè)試階段主動(dòng)慢思考,從而處理需要高階認(rèn)知的難題。
這些模型通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練出的「慢思考」策略,讓它們?cè)诿鎸?duì)復(fù)雜問題時(shí)能夠自動(dòng)放緩?fù)评砉?jié)奏,從而取得更好的表現(xiàn)。但這種自動(dòng)「慢下來(lái)」的能力真的可靠嗎?
與人類不同的是,大模型在推理過(guò)程中很難像我們那樣靈活切換快慢節(jié)奏。心理學(xué)中描述的 System-1 與 System-2 轉(zhuǎn)換,是一種受控、動(dòng)態(tài)的思維過(guò)程——我們先快速判斷,再在困難時(shí)激活深度思考,從而在效率與準(zhǔn)確之間找到平衡。
相比之下,現(xiàn)有模型往往要么陷入過(guò)度思考(overthinking),生成冗長(zhǎng)無(wú)用的推理鏈;要么思考不足(underthinking),在問題真正展開前就草率收?qǐng)觥?/span>
這背后的根源在于:模型缺乏對(duì)推理節(jié)奏的主動(dòng)調(diào)控能力,無(wú)法準(zhǔn)確找到「該慢下來(lái)」的最佳時(shí)機(jī)。
無(wú)需訓(xùn)練的全局推理調(diào)控,AlphaOne 只做了一件事
AlphaOne 的核心,是引入統(tǒng)一的調(diào)控點(diǎn) α-moment:α-moment 之前通過(guò) Bernoulli 過(guò)程插入「慢思考」標(biāo)記,之后用終止標(biāo)記切換為快思考,實(shí)現(xiàn)無(wú)需訓(xùn)練的連續(xù)推理調(diào)控。

圖 1: 不同推理調(diào)控方法在推理過(guò)程中的表現(xiàn)對(duì)比。α1(紅色)采用由 α 控制的「先慢后快」推理策略,相比之下,α1 的推理效率優(yōu)于單調(diào)延長(zhǎng)思考型方法 s1(黃色),并在整體表現(xiàn)上普遍優(yōu)于單調(diào)壓縮推理型方法(紫色)。
什么是 α-moment?
目前多數(shù)現(xiàn)有方法要么采用固定的慢思考機(jī)制(如在末尾強(qiáng)制延長(zhǎng)思考),或者采用單調(diào)壓縮推理生成策略。然而,這類設(shè)計(jì)通常缺乏對(duì)推理階段整體結(jié)構(gòu)的統(tǒng)一建模。我們是否可以在無(wú)需訓(xùn)練的前提下,統(tǒng)一調(diào)控整個(gè)推理過(guò)程的演進(jìn)方式,并設(shè)計(jì)出更高效的「慢思考轉(zhuǎn)化策略」?
AlphaOne 對(duì)此提出了解答:通過(guò)引入 α-moment——一個(gè)統(tǒng)一的調(diào)控節(jié)點(diǎn),即推理階段達(dá)到平均思考長(zhǎng)度 α 倍的位置。在此之前引導(dǎo)深度思考,在此之后轉(zhuǎn)入快速推進(jìn)。它不依賴固定閾值或啟發(fā)式規(guī)則,而是提供了一個(gè)可調(diào)、可遷移的推理控制接口。

圖 2: AlphaOne(α1)整體流程示意圖。在 α-moment 之前,模型按照用戶設(shè)定的策略,以 Bernoulli 過(guò)程插入 wait,引導(dǎo)深度推理;α-moment 之后,wait 會(huì)被替換為 </think>,以促進(jìn)快思考。α 的數(shù)值決定這一轉(zhuǎn)換的時(shí)機(jī),例如將 α 從 1.4 降至 1.0,會(huì)提前結(jié)束慢思考,并加快 pwait 的衰減速度。
α-moment 前:慢思考調(diào)控機(jī)制
在 α-moment 之前,α1 通過(guò)一種概率驅(qū)動(dòng)的調(diào)控策略,逐步引導(dǎo)模型進(jìn)入深度推理狀態(tài)。
具體來(lái)說(shuō),當(dāng)模型生成結(jié)構(gòu)性停頓(如 \n\n)時(shí),會(huì)以一定概率插入 wait——這是一種慢思考過(guò)渡標(biāo)記(slow-reasoning transition token),用于顯式地觸發(fā)模型的慢思考行為。這種插入并不是固定次數(shù),而是基于一個(gè) Bernoulli 采樣過(guò)程,其概率 pwait 由用戶設(shè)定的調(diào)度函數(shù) S(t) 控制。
調(diào)度函數(shù)可以是線性下降(先慢后快)、線性上升(先快后慢)、指數(shù)衰減等多種形式。AlphaOne 默認(rèn)采用線性衰減策略——在推理初期更頻繁地引導(dǎo)慢思考,后期逐步減少干預(yù),避免過(guò)度拖延。

圖 3: 不同調(diào)度函數(shù)的可視化
α-moment 后:快思考引導(dǎo)機(jī)制
但另一個(gè)挑戰(zhàn)隨之而來(lái):如果持續(xù)插入 wait,模型可能會(huì)陷入「慢思考慣性」,遲遲無(wú)法回歸高效推理。
為了解決這個(gè)問題,AlphaOne 在 α-moment 之后顯式終止慢思考: 一旦生成節(jié)點(diǎn)超過(guò) α-moment,所有后續(xù)的 wait(即慢思考過(guò)渡標(biāo)記)將被統(tǒng)一替換為 </think>——這是一個(gè)思考終止標(biāo)記(end-of-thinking token),用于打斷延續(xù)中的慢思考鏈。
值得注意的是,</think> 并不代表模型立即開始作答。由于慢思考慣性,模型往往無(wú)法直接切換到答案生成階段。因此,</think> 實(shí)際上起到的是快思考觸發(fā)信號(hào)的作用,用于提醒模型當(dāng)前應(yīng)結(jié)束反復(fù)推理、轉(zhuǎn)向高效推進(jìn)。這種機(jī)制被稱為確定性推理終止,它讓模型能夠自然地從「深度反思」切換到「快速收斂」,避免低效的推理拖延。
從數(shù)學(xué)到科學(xué)問答,AlphaOne 的策略勝在哪里?
研究團(tuán)隊(duì)在六大推理任務(wù)中進(jìn)行了系統(tǒng)實(shí)驗(yàn),涵蓋數(shù)學(xué)題解、代碼生成、科學(xué)問題理解等多種類型。
實(shí)驗(yàn)總結(jié)
- 準(zhǔn)確率全面領(lǐng)先:無(wú)論在小模型(1.5B)還是大模型(32B)上,α1 都比原始模型和現(xiàn)有推理調(diào)控方法(如 s1 和 CoD)更準(zhǔn)確。
- 以 1.5B 模型為例,α1 提升準(zhǔn)確率達(dá) +6.15%。
- 推理效率顯著優(yōu)化:盡管采用了慢思考機(jī)制,α1 在 1.5B 模型中平均生成 token 數(shù)卻減少了 14%,展現(xiàn)出高效慢思考的非直覺優(yōu)勢(shì)。

表 1:α1 與基線方法在數(shù)學(xué)、代碼與科學(xué)推理任務(wù)中的系統(tǒng)性能比較
關(guān)鍵問題分析
- 哪種「慢思考調(diào)度」最有效?
對(duì)比四種調(diào)度策略(常數(shù)調(diào)度、線性遞增、線性衰減、指數(shù)衰減)后發(fā)現(xiàn),線性衰減在多個(gè)任務(wù)上均取得最優(yōu)表現(xiàn),驗(yàn)證了 α1 所采用的「先慢思、后加速」式推理調(diào)控方式在實(shí)踐中更加有效和穩(wěn)定。

圖 4: 不同調(diào)度策略在 AMC23 和 OlympiadBench 上的推理準(zhǔn)確率
- α-moment 能否靈活調(diào)控「思考預(yù)算」?
實(shí)驗(yàn)結(jié)果表明,調(diào)節(jié) α 值可以有效擴(kuò)展或壓縮模型的「思考階段」長(zhǎng)度。隨著 α 增大,模型插入的 wait 標(biāo)記數(shù)量相應(yīng)增加,平均思考 token 數(shù)也隨之增長(zhǎng),體現(xiàn)出 α-moment 對(duì)思考預(yù)算具有良好的可伸縮性(scalability)。
盡管如此,推理準(zhǔn)確率并非隨 α 增大而持續(xù)提升,存在一個(gè)性能最優(yōu)的 α 區(qū)間,而 α1 在較寬的 α 調(diào)控范圍內(nèi)始終優(yōu)于原模型,體現(xiàn)出良好的魯棒性和泛化能力。

圖 5:α 的縮放特性分析
- α1 推理效率真的更高嗎?
使用 REP(Reasoning Efficiency–Performance)指標(biāo)系統(tǒng)評(píng)估后發(fā)現(xiàn),α1 在多個(gè)任務(wù)中更高效率下的更優(yōu)推理準(zhǔn)確率,優(yōu)于 s1 和 CoD 等基線方法。


圖 6: 基于 REP 指標(biāo)的推理效率分析
- 慢思考標(biāo)記的采樣頻率應(yīng)如何設(shè)定?
通過(guò)調(diào)整
,我們發(fā)現(xiàn):過(guò)低或過(guò)高的采樣頻率都會(huì)降低模型性能,說(shuō)明慢思考既不能太少,也不能太密。不過(guò),α1 在較寬頻率區(qū)間內(nèi)依然表現(xiàn)穩(wěn)健,說(shuō)明只需設(shè)定一個(gè)適中頻率,即可帶來(lái)穩(wěn)定的推理提升。

圖 7: 常數(shù)調(diào)度下 wait 插入頻率的縮放特性
- α-moment 后的快思考引導(dǎo)機(jī)制是否必要?
如果在 α-moment 后沒有明確「結(jié)束慢思考」,模型容易陷入推理慣性,導(dǎo)致性能明顯下降。實(shí)驗(yàn)證明,僅依賴前段慢思考調(diào)控是遠(yuǎn)遠(yuǎn)不夠的。
α1 通過(guò) α-moment 之后的顯式終止操作,成功促使模型切換至快思考,驗(yàn)證了從快到慢的雙階段調(diào)控策略對(duì)于提升推理效果的必要性。

表 2: 是否啟用后 α-moment 調(diào)控機(jī)制對(duì)推理性能的影響
具體案例
為了更直觀地理解 α1 的作用,研究者展示了來(lái)自不同基準(zhǔn)的推理案例,分別對(duì)應(yīng)模型在使用 α1 后的成功與失敗。
- 成功案例:化學(xué)混合題(OlympiadBench)

- 失敗案例:多角恒等式推理(AMC23)

AlphaOne 之后,還有哪些可能?
α1 提供了一種無(wú)需訓(xùn)練、即可在測(cè)試階段靈活調(diào)控推理過(guò)程的全新框架,初步驗(yàn)證了「慢思考→快思考」的策略對(duì)大模型推理效果與效率的顯著提升。
但真正理解「思考」如何被更好地建模,僅僅邁出了一小步。研究者提出了幾個(gè)值得關(guān)注的方向:
- 更復(fù)雜的慢思考調(diào)度策略:當(dāng)前只探索了簡(jiǎn)單的「先慢后快」調(diào)控策略,未來(lái)可以設(shè)計(jì)更精細(xì)的調(diào)度函數(shù),甚至發(fā)展出獨(dú)立的推理調(diào)控模塊。
- 擺脫特定標(biāo)記的依賴:現(xiàn)階段調(diào)控往往依賴
wait等特殊轉(zhuǎn)移標(biāo)記,但不同模型對(duì)這些標(biāo)記的響應(yīng)不同。未來(lái)若能完全擺脫這些「外部標(biāo)簽」,將極大增強(qiáng)泛化能力。 - 跨模態(tài)推理的擴(kuò)展:當(dāng)前工作聚焦于文本推理,而多模態(tài)大模型(如圖文、視頻大模型)正快速崛起。未來(lái)可將 α1 框架擴(kuò)展至多模態(tài)場(chǎng)景,探索語(yǔ)言與感知信息的協(xié)同推理。


































