偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI真的需要「像人類」那樣思考嗎?AlphaOne揭示屬于大模型的「思考之道」

人工智能 新聞
一項(xiàng)來(lái)自 UIUC 與 UC Berkeley 的新研究提出:也許模型不該再走這條「人類范式」的老路。

本文共同第一作者為張均瑜與董潤(rùn)沛,分別為伊利諾伊大學(xué)厄巴納-香檳分校計(jì)算機(jī)科學(xué)研究生與博士生;該研究工作在伊利諾伊大學(xué)厄巴納-香檳分校張歡教授與 Saurabh Gupta 教授,加州大學(xué)伯克利分校 Jitendra Malik 教授的指導(dǎo)下完成。

「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman,Thinking,F(xiàn)ast and Slow(2011)

圖片

在思維節(jié)奏這件事上,人類早已形成一種獨(dú)特而復(fù)雜的模式。

我們習(xí)慣讓 AI 模仿人類思維方式:先依賴直覺快速反應(yīng)(System 1),再慢慢進(jìn)入邏輯推理(System 2);答題時(shí)先給出初步判斷,再自我反思逐步修正……模仿人類的推理節(jié)奏,已經(jīng)成為語(yǔ)言模型推理策略的默認(rèn)路徑。

最近,一項(xiàng)來(lái)自 UIUC 與 UC Berkeley 的新研究提出:也許模型不該再走這條「人類范式」的老路。

他們提出了一種新的測(cè)試時(shí)推理調(diào)控框架——AlphaOne,主張讓模型反其道而行:先慢速思考,再快速推理。

圖片

  • 論文標(biāo)題: AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
  • 項(xiàng)目主頁(yè):https://alphaone-project.github.io/
  • 論文地址:https://arxiv.org/pdf/2505.24863
  • 代碼地址:https://github.com/ASTRAL-Group/AlphaOne

令人意外的是,這一策略不依賴任何額外訓(xùn)練,僅需在測(cè)試階段引入一個(gè)全局推理調(diào)控超參數(shù) α,即可顯著提升模型的推理準(zhǔn)確率,同時(shí)讓生成過(guò)程更加高效緊湊?;蛟S,是時(shí)候重新思考:AI 真的需要「像人類」那樣思考嗎?

看似聰明的推理,其實(shí)是不懂停下來(lái)的錯(cuò)覺

近年的大型推理模型(LRMs),如 OpenAI o1 和 DeepSeek-R1,在復(fù)雜推理任務(wù)上取得顯著進(jìn)展,逐漸具備類似人類的 System-2 能力,能夠在測(cè)試階段主動(dòng)慢思考,從而處理需要高階認(rèn)知的難題。

這些模型通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練出的「慢思考」策略,讓它們?cè)诿鎸?duì)復(fù)雜問題時(shí)能夠自動(dòng)放緩?fù)评砉?jié)奏,從而取得更好的表現(xiàn)。但這種自動(dòng)「慢下來(lái)」的能力真的可靠嗎?

與人類不同的是,大模型在推理過(guò)程中很難像我們那樣靈活切換快慢節(jié)奏。心理學(xué)中描述的 System-1 與 System-2 轉(zhuǎn)換,是一種受控、動(dòng)態(tài)的思維過(guò)程——我們先快速判斷,再在困難時(shí)激活深度思考,從而在效率與準(zhǔn)確之間找到平衡。

相比之下,現(xiàn)有模型往往要么陷入過(guò)度思考(overthinking),生成冗長(zhǎng)無(wú)用的推理鏈;要么思考不足(underthinking),在問題真正展開前就草率收?qǐng)觥?/span>

這背后的根源在于:模型缺乏對(duì)推理節(jié)奏的主動(dòng)調(diào)控能力,無(wú)法準(zhǔn)確找到「該慢下來(lái)」的最佳時(shí)機(jī)。

無(wú)需訓(xùn)練的全局推理調(diào)控,AlphaOne 只做了一件事

AlphaOne 的核心,是引入統(tǒng)一的調(diào)控點(diǎn) α-moment:α-moment 之前通過(guò) Bernoulli 過(guò)程插入「慢思考」標(biāo)記,之后用終止標(biāo)記切換為快思考,實(shí)現(xiàn)無(wú)需訓(xùn)練的連續(xù)推理調(diào)控。

圖片

圖 1: 不同推理調(diào)控方法在推理過(guò)程中的表現(xiàn)對(duì)比。α1(紅色)采用由 α 控制的「先慢后快」推理策略,相比之下,α1 的推理效率優(yōu)于單調(diào)延長(zhǎng)思考型方法 s1(黃色),并在整體表現(xiàn)上普遍優(yōu)于單調(diào)壓縮推理型方法(紫色)。

什么是 α-moment?

目前多數(shù)現(xiàn)有方法要么采用固定的慢思考機(jī)制(如在末尾強(qiáng)制延長(zhǎng)思考),或者采用單調(diào)壓縮推理生成策略。然而,這類設(shè)計(jì)通常缺乏對(duì)推理階段整體結(jié)構(gòu)的統(tǒng)一建模。我們是否可以在無(wú)需訓(xùn)練的前提下,統(tǒng)一調(diào)控整個(gè)推理過(guò)程的演進(jìn)方式,并設(shè)計(jì)出更高效的「慢思考轉(zhuǎn)化策略」?

AlphaOne 對(duì)此提出了解答:通過(guò)引入 α-moment——一個(gè)統(tǒng)一的調(diào)控節(jié)點(diǎn),即推理階段達(dá)到平均思考長(zhǎng)度 α 倍的位置。在此之前引導(dǎo)深度思考,在此之后轉(zhuǎn)入快速推進(jìn)。它不依賴固定閾值或啟發(fā)式規(guī)則,而是提供了一個(gè)可調(diào)、可遷移的推理控制接口。

圖片

圖 2: AlphaOne(α1)整體流程示意圖。在 α-moment 之前,模型按照用戶設(shè)定的策略,以 Bernoulli 過(guò)程插入 wait,引導(dǎo)深度推理;α-moment 之后,wait 會(huì)被替換為 </think>,以促進(jìn)快思考。α 的數(shù)值決定這一轉(zhuǎn)換的時(shí)機(jī),例如將 α 從 1.4 降至 1.0,會(huì)提前結(jié)束慢思考,并加快 pwait 的衰減速度。

α-moment 前:慢思考調(diào)控機(jī)制

在 α-moment 之前,α1 通過(guò)一種概率驅(qū)動(dòng)的調(diào)控策略,逐步引導(dǎo)模型進(jìn)入深度推理狀態(tài)。

具體來(lái)說(shuō),當(dāng)模型生成結(jié)構(gòu)性停頓(如 \n\n)時(shí),會(huì)以一定概率插入 wait——這是一種慢思考過(guò)渡標(biāo)記(slow-reasoning transition token),用于顯式地觸發(fā)模型的慢思考行為。這種插入并不是固定次數(shù),而是基于一個(gè) Bernoulli 采樣過(guò)程,其概率 pwait 由用戶設(shè)定的調(diào)度函數(shù) S(t) 控制。

調(diào)度函數(shù)可以是線性下降(先慢后快)、線性上升(先快后慢)、指數(shù)衰減等多種形式。AlphaOne 默認(rèn)采用線性衰減策略——在推理初期更頻繁地引導(dǎo)慢思考,后期逐步減少干預(yù),避免過(guò)度拖延。

圖片

圖 3: 不同調(diào)度函數(shù)的可視化

α-moment 后:快思考引導(dǎo)機(jī)制

但另一個(gè)挑戰(zhàn)隨之而來(lái):如果持續(xù)插入 wait,模型可能會(huì)陷入「慢思考慣性」,遲遲無(wú)法回歸高效推理。

為了解決這個(gè)問題,AlphaOne 在 α-moment 之后顯式終止慢思考: 一旦生成節(jié)點(diǎn)超過(guò) α-moment,所有后續(xù)的 wait(即慢思考過(guò)渡標(biāo)記)將被統(tǒng)一替換為 </think>——這是一個(gè)思考終止標(biāo)記(end-of-thinking token),用于打斷延續(xù)中的慢思考鏈。

值得注意的是,</think> 并不代表模型立即開始作答。由于慢思考慣性,模型往往無(wú)法直接切換到答案生成階段。因此,</think> 實(shí)際上起到的是快思考觸發(fā)信號(hào)的作用,用于提醒模型當(dāng)前應(yīng)結(jié)束反復(fù)推理、轉(zhuǎn)向高效推進(jìn)。這種機(jī)制被稱為確定性推理終止,它讓模型能夠自然地從「深度反思」切換到「快速收斂」,避免低效的推理拖延。

從數(shù)學(xué)到科學(xué)問答,AlphaOne 的策略勝在哪里?

研究團(tuán)隊(duì)在六大推理任務(wù)中進(jìn)行了系統(tǒng)實(shí)驗(yàn),涵蓋數(shù)學(xué)題解、代碼生成、科學(xué)問題理解等多種類型。

實(shí)驗(yàn)總結(jié)

  • 準(zhǔn)確率全面領(lǐng)先:無(wú)論在小模型(1.5B)還是大模型(32B)上,α1 都比原始模型和現(xiàn)有推理調(diào)控方法(如 s1 和 CoD)更準(zhǔn)確。
  • 以 1.5B 模型為例,α1 提升準(zhǔn)確率達(dá) +6.15%。
  • 推理效率顯著優(yōu)化:盡管采用了慢思考機(jī)制,α1 在 1.5B 模型中平均生成 token 數(shù)卻減少了 14%,展現(xiàn)出高效慢思考的非直覺優(yōu)勢(shì)。

圖片

表 1:α1 與基線方法在數(shù)學(xué)、代碼與科學(xué)推理任務(wù)中的系統(tǒng)性能比較

關(guān)鍵問題分析

  • 哪種「慢思考調(diào)度」最有效?

對(duì)比四種調(diào)度策略(常數(shù)調(diào)度、線性遞增、線性衰減、指數(shù)衰減)后發(fā)現(xiàn),線性衰減在多個(gè)任務(wù)上均取得最優(yōu)表現(xiàn),驗(yàn)證了 α1 所采用的「先慢思、后加速」式推理調(diào)控方式在實(shí)踐中更加有效和穩(wěn)定。

圖片

圖 4: 不同調(diào)度策略在 AMC23 和 OlympiadBench 上的推理準(zhǔn)確率

  • α-moment 能否靈活調(diào)控「思考預(yù)算」?

實(shí)驗(yàn)結(jié)果表明,調(diào)節(jié) α 值可以有效擴(kuò)展或壓縮模型的「思考階段」長(zhǎng)度。隨著 α 增大,模型插入的 wait 標(biāo)記數(shù)量相應(yīng)增加,平均思考 token 數(shù)也隨之增長(zhǎng),體現(xiàn)出 α-moment 對(duì)思考預(yù)算具有良好的可伸縮性(scalability)。

盡管如此,推理準(zhǔn)確率并非隨 α 增大而持續(xù)提升,存在一個(gè)性能最優(yōu)的 α 區(qū)間,而 α1 在較寬的 α 調(diào)控范圍內(nèi)始終優(yōu)于原模型,體現(xiàn)出良好的魯棒性和泛化能力。

圖片

圖 5:α 的縮放特性分析

  • α1 推理效率真的更高嗎?

使用 REP(Reasoning Efficiency–Performance)指標(biāo)系統(tǒng)評(píng)估后發(fā)現(xiàn),α1 在多個(gè)任務(wù)中更高效率下的更優(yōu)推理準(zhǔn)確率,優(yōu)于 s1 和 CoD 等基線方法。

圖片

圖片

圖 6: 基于 REP 指標(biāo)的推理效率分析

  • 慢思考標(biāo)記的采樣頻率應(yīng)如何設(shè)定?

通過(guò)調(diào)整圖片,我們發(fā)現(xiàn):過(guò)低或過(guò)高的采樣頻率都會(huì)降低模型性能,說(shuō)明慢思考既不能太少,也不能太密。不過(guò),α1 在較寬頻率區(qū)間內(nèi)依然表現(xiàn)穩(wěn)健,說(shuō)明只需設(shè)定一個(gè)適中頻率,即可帶來(lái)穩(wěn)定的推理提升。

圖片

圖 7: 常數(shù)調(diào)度下 wait 插入頻率的縮放特性

  • α-moment 后的快思考引導(dǎo)機(jī)制是否必要?

如果在 α-moment 后沒有明確「結(jié)束慢思考」,模型容易陷入推理慣性,導(dǎo)致性能明顯下降。實(shí)驗(yàn)證明,僅依賴前段慢思考調(diào)控是遠(yuǎn)遠(yuǎn)不夠的。

α1 通過(guò) α-moment 之后的顯式終止操作,成功促使模型切換至快思考,驗(yàn)證了從快到慢的雙階段調(diào)控策略對(duì)于提升推理效果的必要性。

圖片

表 2: 是否啟用后 α-moment 調(diào)控機(jī)制對(duì)推理性能的影響

具體案例

為了更直觀地理解 α1 的作用,研究者展示了來(lái)自不同基準(zhǔn)的推理案例,分別對(duì)應(yīng)模型在使用 α1 后的成功與失敗。

  • 成功案例:化學(xué)混合題(OlympiadBench)

圖片

  • 失敗案例:多角恒等式推理(AMC23)

圖片

AlphaOne 之后,還有哪些可能?

α1 提供了一種無(wú)需訓(xùn)練、即可在測(cè)試階段靈活調(diào)控推理過(guò)程的全新框架,初步驗(yàn)證了「慢思考→快思考」的策略對(duì)大模型推理效果與效率的顯著提升。

但真正理解「思考」如何被更好地建模,僅僅邁出了一小步。研究者提出了幾個(gè)值得關(guān)注的方向:

  • 更復(fù)雜的慢思考調(diào)度策略:當(dāng)前只探索了簡(jiǎn)單的「先慢后快」調(diào)控策略,未來(lái)可以設(shè)計(jì)更精細(xì)的調(diào)度函數(shù),甚至發(fā)展出獨(dú)立的推理調(diào)控模塊。
  • 擺脫特定標(biāo)記的依賴:現(xiàn)階段調(diào)控往往依賴 wait 等特殊轉(zhuǎn)移標(biāo)記,但不同模型對(duì)這些標(biāo)記的響應(yīng)不同。未來(lái)若能完全擺脫這些「外部標(biāo)簽」,將極大增強(qiáng)泛化能力。
  • 跨模態(tài)推理的擴(kuò)展:當(dāng)前工作聚焦于文本推理,而多模態(tài)大模型(如圖文、視頻大模型)正快速崛起。未來(lái)可將 α1 框架擴(kuò)展至多模態(tài)場(chǎng)景,探索語(yǔ)言與感知信息的協(xié)同推理。
責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-02-27 10:33:36

2023-09-22 11:56:57

模型駕駛

2025-07-10 15:29:10

2016-12-02 19:14:16

數(shù)據(jù)科學(xué)大數(shù)據(jù)

2024-08-14 14:43:00

2012-10-22 14:17:42

函數(shù)式程序員

2022-07-12 14:56:30

AI模型研究

2023-09-05 14:43:15

2023-12-04 14:28:15

模型應(yīng)用設(shè)計(jì)

2023-02-09 10:15:23

AIChatGPT

2019-05-27 05:22:42

2020-09-04 16:07:28

智慧城市Quayside多倫多

2025-05-30 09:10:00

2023-07-11 09:51:04

訓(xùn)練模型

2021-10-31 08:09:07

網(wǎng)絡(luò)攻擊黑客網(wǎng)絡(luò)安全

2021-12-21 15:28:30

廣義形狀GSE自動(dòng)駕駛

2024-04-07 00:00:05

事務(wù)Java開發(fā)

2024-11-21 15:44:21

2021-10-15 10:26:56

代碼項(xiàng)目Mapper

2015-04-09 11:27:34

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)