偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI是否知道什么時(shí)候該"思考"?Thinkless教會(huì)大模型何時(shí)該動(dòng)腦筋

人工智能
Thinkless研究向我們展示了AI系統(tǒng)中一個(gè)重要的思想:不是所有問(wèn)題都需要同等深度的思考。這一點(diǎn)與人類思維極為相似——我們?cè)谌粘I钪幸矔?huì)根據(jù)問(wèn)題復(fù)雜度調(diào)整思考深度。

你是否曾經(jīng)問(wèn)過(guò)簡(jiǎn)單問(wèn)題,卻得到AI長(zhǎng)篇大論的回答?或者問(wèn)復(fù)雜問(wèn)題時(shí),AI卻草草了事?今天我要和大家分享一項(xiàng)突破性研究,它讓AI學(xué)會(huì)了"什么時(shí)候該思考,什么時(shí)候該直接回答"。

圖片圖片

1、AI的思考困境:要不要?jiǎng)幽X子?

現(xiàn)代的大語(yǔ)言模型(LLM)已經(jīng)能夠通過(guò)"思維鏈"(Chain-of-Thought,簡(jiǎn)稱CoT)進(jìn)行復(fù)雜推理。簡(jiǎn)單來(lái)說(shuō),這種方法讓AI像人類一樣,先列出解決問(wèn)題的步驟,再得出最終答案。

但這種方式存在一個(gè)明顯問(wèn)題:無(wú)論問(wèn)題簡(jiǎn)單還是復(fù)雜,AI都一律使用詳細(xì)推理。就像你問(wèn)朋友"1+1等于幾",他卻認(rèn)真地寫(xiě)下:"首先,我們有數(shù)字1,然后再加上數(shù)字1。根據(jù)加法定義,1+1=2。"——這顯然太浪費(fèi)時(shí)間了!

這種"過(guò)度思考"帶來(lái)三大弊端:

(1)產(chǎn)生大量冗余token(AI輸出的基本單位)

(2)增加內(nèi)存占用

(3)顯著提高計(jì)算成本

2、Thinkless:教會(huì)AI"適時(shí)思考"的利器

論文提出一個(gè)關(guān)鍵問(wèn)題:AI能否學(xué)會(huì)根據(jù)任務(wù)復(fù)雜度和自身能力,決定何時(shí)該思考?

研究者開(kāi)發(fā)了Thinkless框架,它巧妙地使用兩個(gè)控制標(biāo)記:表示簡(jiǎn)潔回答,表示詳細(xì)推理。通過(guò)強(qiáng)化學(xué)習(xí),AI可以自主決定對(duì)特定問(wèn)題使用哪種回答模式。

3、Thinkless是如何工作的?

圖片圖片

這個(gè)框架通過(guò)兩個(gè)階段訓(xùn)練AI:

(1)熱身蒸餾階段

首先,模型從兩位"專家"那里學(xué)習(xí):一個(gè)擅長(zhǎng)詳細(xì)推理的模型和一個(gè)擅長(zhǎng)簡(jiǎn)潔回答的模型。這個(gè)過(guò)程就像一個(gè)學(xué)生同時(shí)向兩位風(fēng)格不同的老師學(xué)習(xí),掌握兩種回答方式。

這個(gè)階段建立了控制標(biāo)記和回答格式之間的明確映射,為后續(xù)的強(qiáng)化學(xué)習(xí)提供多樣化的輸出基礎(chǔ)。

(2) 解耦群體相對(duì)策略優(yōu)化(DeGRPO)

這是Thinkless的核心創(chuàng)新。研究者發(fā)現(xiàn),傳統(tǒng)的優(yōu)化方法會(huì)導(dǎo)致"模式崩潰"——模型可能完全傾向于使用其中一種推理模式,失去靈活性。

DeGRPO巧妙地將學(xué)習(xí)目標(biāo)分解為兩部分:

1)模式選擇:控制模型如何根據(jù)當(dāng)前準(zhǔn)確率調(diào)整策略

2)準(zhǔn)確率提升:改進(jìn)回答內(nèi)容,提高選定推理模式下的答案正確性

這種解耦設(shè)計(jì)避免了模式崩潰,使模型能夠?qū)W習(xí)出準(zhǔn)確的輸出和情境敏感的推理策略。

3、效果:節(jié)省50%-90%的計(jì)算資源

經(jīng)過(guò)訓(xùn)練,Thinkless模型學(xué)會(huì)了準(zhǔn)確識(shí)別簡(jiǎn)單查詢,并使用更高效的非思考模式回應(yīng)。在多個(gè)基準(zhǔn)測(cè)試中,它實(shí)現(xiàn)了令人印象深刻的結(jié)果:

1)在MATH-500、Minerva Algebra和GSM8K數(shù)據(jù)集上,長(zhǎng)形式推理的使用減少了50%-90%

2)在更具挑戰(zhàn)性的AIME任務(wù)上,模型自然地采用了更高比例的長(zhǎng)形式推理

這意味著AI變得更加"聰明"——它知道什么時(shí)候詳細(xì)思考,什么時(shí)候直接回答。這大大降低了推理成本,同時(shí)保持了任務(wù)性能。

圖片圖片

圖片圖片

圖片圖片

4、結(jié)語(yǔ)

研究者在訓(xùn)練過(guò)程中發(fā)現(xiàn)了一些有趣現(xiàn)象:

U形學(xué)習(xí)曲線

在訓(xùn)練初期,模型傾向于使用長(zhǎng)鏈推理,因?yàn)檫@種方式通常能帶來(lái)更高的準(zhǔn)確率。但隨著訓(xùn)練進(jìn)行,短鏈回答的準(zhǔn)確率逐漸提高,模型開(kāi)始更多地探索簡(jiǎn)短推理的可行性。

這種行為表現(xiàn)為短鏈輸出比例隨時(shí)間的上升,許多短回答在訓(xùn)練后期達(dá)到完美準(zhǔn)確率。同時(shí),長(zhǎng)鏈回答的準(zhǔn)確率下降,這并非模型推理能力下降,而是因?yàn)楦嗬щy問(wèn)題被分配給了長(zhǎng)鏈模式。

控制標(biāo)記的權(quán)重影響

控制標(biāo)記的權(quán)重決定了模式選擇的學(xué)習(xí)速度。權(quán)重過(guò)高會(huì)導(dǎo)致模型過(guò)快更新策略,可能過(guò)早將某些樣本分配到長(zhǎng)鏈模式,而沒(méi)有給短模式的性能提升留出足夠空間。

實(shí)際案例展示

當(dāng)Thinkless面對(duì)不同復(fù)雜度的問(wèn)題時(shí),它如何做出決策?

(1)簡(jiǎn)單問(wèn)題:"計(jì)算123 + 456" 模式選擇:短回答模式() 回答:"579"

(2)中等復(fù)雜度問(wèn)題:"一個(gè)球的體積是多少,如果它的表面積是100平方厘米?" 模式選擇:取決于模型對(duì)自身能力的評(píng)估 可能的短回答:"球的體積約為166.67立方厘米"

(3)復(fù)雜問(wèn)題:"證明任意三角形的內(nèi)角和等于180度" 模式選擇:思考模式() 回答:詳細(xì)的幾何證明步驟...

Thinkless研究雖然取得了顯著成果,但仍有進(jìn)一步改進(jìn)空間:

(1)改進(jìn)熱身階段:探索更好的混合模型構(gòu)建策略,如合并技術(shù)或輕量級(jí)微調(diào)方法

(2)擴(kuò)展到更多領(lǐng)域:目前主要在數(shù)學(xué)問(wèn)題上驗(yàn)證,未來(lái)可擴(kuò)展到更廣泛的領(lǐng)域

(3)更復(fù)雜的決策機(jī)制:開(kāi)發(fā)能考慮更多因素的決策系統(tǒng),如用戶偏好、環(huán)境約束等

Thinkless研究向我們展示了AI系統(tǒng)中一個(gè)重要的思想:不是所有問(wèn)題都需要同等深度的思考。這一點(diǎn)與人類思維極為相似——我們?cè)谌粘I钪幸矔?huì)根據(jù)問(wèn)題復(fù)雜度調(diào)整思考深度。

這項(xiàng)研究不僅大幅提升了AI系統(tǒng)的效率,更向我們揭示了構(gòu)建更智能、更自然AI系統(tǒng)的方向。未來(lái),AI將更懂得"張弛有度",在需要時(shí)深入思考,在可以時(shí)直接回答,從而提供更自然、更高效的用戶體驗(yàn)。

論文標(biāo)題:Thinkless: LLM Learns When to Think 

論文鏈接:https://arxiv.org/abs/2505.13379


責(zé)任編輯:武曉燕 來(lái)源: AI帝國(guó)
相關(guān)推薦

2020-01-05 23:28:51

MQ消息進(jìn)程

2017-04-05 21:43:08

MQ互聯(lián)網(wǎng)架構(gòu)

2014-09-23 10:16:03

程序員

2025-02-28 09:04:08

2013-04-25 10:28:38

大數(shù)據(jù)云服務(wù)

2014-09-17 10:57:22

802.11acWLAN

2024-11-12 08:59:39

2024-08-07 14:10:12

模型云計(jì)算大數(shù)據(jù)

2023-12-13 16:28:02

2013-01-10 09:47:50

辭職就業(yè)面試

2021-03-24 11:35:03

人工智能

2015-08-18 10:09:13

云服務(wù)監(jiān)控工具負(fù)載遷移

2016-11-15 16:21:26

開(kāi)發(fā)編程方法

2013-02-18 10:03:20

CIO云計(jì)算CFO

2013-09-02 13:19:09

2014-01-22 09:39:08

無(wú)線IT管理員802.11

2021-04-27 07:52:18

跳槽數(shù)據(jù)分析

2021-07-13 07:41:08

人工智能AI深度學(xué)習(xí)

2021-07-13 09:42:32

可信AI人工智能AI

2017-04-07 13:15:44

程序員辭職
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)