AI是否知道什么時候該"思考"？Thinkless教會大模型何時該動腦筋

作者：無影寺 2025-05-23 18:47:33

Thinkless研究向我們展示了AI系統(tǒng)中一個重要的思想：不是所有問題都需要同等深度的思考。這一點(diǎn)與人類思維極為相似——我們在日常生活中也會根據(jù)問題復(fù)雜度調(diào)整思考深度。

你是否曾經(jīng)問過簡單問題，卻得到AI長篇大論的回答？或者問復(fù)雜問題時，AI卻草草了事？今天我要和大家分享一項(xiàng)突破性研究，它讓AI學(xué)會了"什么時候該思考，什么時候該直接回答"。

圖片

1、AI的思考困境：要不要動腦子？

現(xiàn)代的大語言模型（LLM）已經(jīng)能夠通過"思維鏈"（Chain-of-Thought，簡稱CoT）進(jìn)行復(fù)雜推理。簡單來說，這種方法讓AI像人類一樣，先列出解決問題的步驟，再得出最終答案。

但這種方式存在一個明顯問題：無論問題簡單還是復(fù)雜，AI都一律使用詳細(xì)推理。就像你問朋友"1+1等于幾"，他卻認(rèn)真地寫下："首先，我們有數(shù)字1，然后再加上數(shù)字1。根據(jù)加法定義，1+1=2。"——這顯然太浪費(fèi)時間了！

這種"過度思考"帶來三大弊端：

（1）產(chǎn)生大量冗余token（AI輸出的基本單位）

（2）增加內(nèi)存占用

（3）顯著提高計算成本

2、Thinkless：教會AI"適時思考"的利器

論文提出一個關(guān)鍵問題：AI能否學(xué)會根據(jù)任務(wù)復(fù)雜度和自身能力，決定何時該思考？

研究者開發(fā)了Thinkless框架，它巧妙地使用兩個控制標(biāo)記：表示簡潔回答，表示詳細(xì)推理。通過強(qiáng)化學(xué)習(xí)，AI可以自主決定對特定問題使用哪種回答模式。

3、Thinkless是如何工作的？

圖片

這個框架通過兩個階段訓(xùn)練AI：

（1）熱身蒸餾階段

首先，模型從兩位"專家"那里學(xué)習(xí)：一個擅長詳細(xì)推理的模型和一個擅長簡潔回答的模型。這個過程就像一個學(xué)生同時向兩位風(fēng)格不同的老師學(xué)習(xí)，掌握兩種回答方式。

這個階段建立了控制標(biāo)記和回答格式之間的明確映射，為后續(xù)的強(qiáng)化學(xué)習(xí)提供多樣化的輸出基礎(chǔ)。

（2）解耦群體相對策略優(yōu)化（DeGRPO）

這是Thinkless的核心創(chuàng)新。研究者發(fā)現(xiàn)，傳統(tǒng)的優(yōu)化方法會導(dǎo)致"模式崩潰"——模型可能完全傾向于使用其中一種推理模式，失去靈活性。

DeGRPO巧妙地將學(xué)習(xí)目標(biāo)分解為兩部分：

1）模式選擇：控制模型如何根據(jù)當(dāng)前準(zhǔn)確率調(diào)整策略

2）準(zhǔn)確率提升：改進(jìn)回答內(nèi)容，提高選定推理模式下的答案正確性

這種解耦設(shè)計避免了模式崩潰，使模型能夠?qū)W習(xí)出準(zhǔn)確的輸出和情境敏感的推理策略。

3、效果：節(jié)省50%-90%的計算資源

經(jīng)過訓(xùn)練，Thinkless模型學(xué)會了準(zhǔn)確識別簡單查詢，并使用更高效的非思考模式回應(yīng)。在多個基準(zhǔn)測試中，它實(shí)現(xiàn)了令人印象深刻的結(jié)果：

1）在MATH-500、Minerva Algebra和GSM8K數(shù)據(jù)集上，長形式推理的使用減少了50%-90%

2）在更具挑戰(zhàn)性的AIME任務(wù)上，模型自然地采用了更高比例的長形式推理

這意味著AI變得更加"聰明"——它知道什么時候詳細(xì)思考，什么時候直接回答。這大大降低了推理成本，同時保持了任務(wù)性能。

圖片

4、結(jié)語

研究者在訓(xùn)練過程中發(fā)現(xiàn)了一些有趣現(xiàn)象：

U形學(xué)習(xí)曲線

在訓(xùn)練初期，模型傾向于使用長鏈推理，因?yàn)檫@種方式通常能帶來更高的準(zhǔn)確率。但隨著訓(xùn)練進(jìn)行，短鏈回答的準(zhǔn)確率逐漸提高，模型開始更多地探索簡短推理的可行性。

這種行為表現(xiàn)為短鏈輸出比例隨時間的上升，許多短回答在訓(xùn)練后期達(dá)到完美準(zhǔn)確率。同時，長鏈回答的準(zhǔn)確率下降，這并非模型推理能力下降，而是因?yàn)楦嗬щy問題被分配給了長鏈模式。

控制標(biāo)記的權(quán)重影響

控制標(biāo)記的權(quán)重決定了模式選擇的學(xué)習(xí)速度。權(quán)重過高會導(dǎo)致模型過快更新策略，可能過早將某些樣本分配到長鏈模式，而沒有給短模式的性能提升留出足夠空間。

實(shí)際案例展示

當(dāng)Thinkless面對不同復(fù)雜度的問題時，它如何做出決策？

（1）簡單問題："計算123 + 456" 模式選擇：短回答模式（）回答："579"

（2）中等復(fù)雜度問題："一個球的體積是多少，如果它的表面積是100平方厘米？" 模式選擇：取決于模型對自身能力的評估可能的短回答："球的體積約為166.67立方厘米"

（3）復(fù)雜問題："證明任意三角形的內(nèi)角和等于180度" 模式選擇：思考模式（）回答：詳細(xì)的幾何證明步驟...

Thinkless研究雖然取得了顯著成果，但仍有進(jìn)一步改進(jìn)空間：

（1）改進(jìn)熱身階段：探索更好的混合模型構(gòu)建策略，如合并技術(shù)或輕量級微調(diào)方法

（2）擴(kuò)展到更多領(lǐng)域：目前主要在數(shù)學(xué)問題上驗(yàn)證，未來可擴(kuò)展到更廣泛的領(lǐng)域

（3）更復(fù)雜的決策機(jī)制：開發(fā)能考慮更多因素的決策系統(tǒng)，如用戶偏好、環(huán)境約束等

這項(xiàng)研究不僅大幅提升了AI系統(tǒng)的效率，更向我們揭示了構(gòu)建更智能、更自然AI系統(tǒng)的方向。未來，AI將更懂得"張弛有度"，在需要時深入思考，在可以時直接回答，從而提供更自然、更高效的用戶體驗(yàn)。

論文標(biāo)題：Thinkless: LLM Learns When to Think

論文鏈接：https://arxiv.org/abs/2505.13379

責(zé)任編輯：武曉燕來源： AI帝國

Thinkless AI 系統(tǒng)

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI是否知道什么時候該"思考"？Thinkless教會大模型何時該動腦筋

1、AI的思考困境：要不要動腦子？