偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Thinkless框架:讓LLM學(xué)會(huì)“聰明偷懶”的智慧

人工智能
新加坡國(guó)立大學(xué)的 Thinkless 框架,讓 LLM 學(xué)會(huì) “偷懶”,在簡(jiǎn)單問(wèn)題上不再過(guò)度思考,效率提升高達(dá) 90%。

大家好,我是肆〇柒。今天,我想和大家聊一下,我看到關(guān)于自適應(yīng)思考的另外一片論文,它介紹了Thinkless 框架,并且還有開(kāi)源倉(cāng)庫(kù)。今天我們要了解的 Thinkless 這個(gè)框架,由新加坡國(guó)立大學(xué)的研究人員提出,它能夠巧妙地解決當(dāng)前推理語(yǔ)言模型(LLM)在處理簡(jiǎn)單問(wèn)題時(shí)過(guò)度推理、浪費(fèi)資源的難題。

以往,推理語(yǔ)言模型如同一位不知疲倦的學(xué)者,無(wú)論面對(duì)的是復(fù)雜深?yuàn)W的數(shù)學(xué)定理,還是簡(jiǎn)單如孩童般的算術(shù)問(wèn)題,它都會(huì)一絲不茍地展開(kāi) lengthy 的推理過(guò)程。然而,這種“過(guò)度勤奮”卻帶來(lái)了計(jì)算資源的巨大浪費(fèi)。每一次冗余的推理都是對(duì)效率的無(wú)情吞噬,讓本可以迅速給出的簡(jiǎn)潔答案,也變得拖沓而冗長(zhǎng)。

這種現(xiàn)象引發(fā)了 Thinkless 研究人員的思考:如何讓 LLM 擁有自主決策推理深度的智慧,在效率與性能之間找到精妙的平衡?新加坡國(guó)立大學(xué)的研究人員給出了他們的答案——Thinkless 框架。這一思路不僅讓模型學(xué)會(huì)了“聰明偷懶”,更在效率與性能之間找到了平衡。

研究背景與動(dòng)機(jī):推理模型的“效率困局”

推理語(yǔ)言模型通過(guò)鏈?zhǔn)剿伎迹徊讲焦タ穗y題,展現(xiàn)出驚人的能力。然而,這種“萬(wàn)能鑰匙”式的推理方式卻隱藏著效率危機(jī)。當(dāng)我們回顧模型的推理過(guò)程時(shí),會(huì)發(fā)現(xiàn)一種“一刀切”的思維慣性:無(wú)論問(wèn)題難易,都啟動(dòng)復(fù)雜推理機(jī)制。

這種慣性帶來(lái)的后果是顯而易見(jiàn)的。在簡(jiǎn)單的加減法問(wèn)題上,模型依然會(huì)生成冗長(zhǎng)的推理鏈條,每一步都詳盡到近乎繁瑣,導(dǎo)致 token 生成數(shù)量激增。這不僅讓內(nèi)存占用如同吹氣球般膨脹,更讓計(jì)算成本節(jié)節(jié)攀升,仿佛在用大象的力氣去搬動(dòng)螞蟻的食物。

Thinkless 框架的提出,正是為了打破這一困局。它可以賦予 LLM 一種“情境感知”的能力,使其能夠像經(jīng)驗(yàn)豐富的工匠一樣,根據(jù)手頭任務(wù)的復(fù)雜度和自身技藝的精湛程度,靈活地選擇最合適的工具。

Thinkless框架:讓LLM“聰明偷懶”的核心

雙控制Token:簡(jiǎn)潔與深度的抉擇之門(mén)

Thinkless 框架的核心創(chuàng)新之一在于引入了兩個(gè) special Token:<short> 和 <think>。這兩個(gè)Token就好比是模型手中的兩把鑰匙,分別對(duì)應(yīng)著簡(jiǎn)潔回答和詳細(xì)推理的大門(mén)。

在實(shí)際操作中,當(dāng)模型面對(duì)一個(gè)輸入查詢時(shí),它首先會(huì)快速評(píng)估問(wèn)題的復(fù)雜程度。如果問(wèn)題像是簡(jiǎn)單的加減法運(yùn)算,模型會(huì)毫不猶豫地選擇 <short> Token,直接給出簡(jiǎn)潔明了的答案,無(wú)需多余贅述。而當(dāng)問(wèn)題變成復(fù)雜的多元方程求解時(shí),<think> Token會(huì)被激活,模型隨即開(kāi)啟深度推理模式,步步為營(yíng),直至找到問(wèn)題的解決之道。

DeGRPO算法:精準(zhǔn)調(diào)控的“智慧大腦”

Decoupled Group Relative Policy Optimization(DeGRPO)算法是 Thinkless 框架的智慧核心,它巧妙地將混合推理目標(biāo)分解為兩大關(guān)鍵任務(wù):模式選擇和答案準(zhǔn)確性提高。

在傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法中,模型往往陷入一種“失衡”的困境。長(zhǎng)鏈推理由于 token 數(shù)量多,會(huì)主導(dǎo)學(xué)習(xí)信號(hào),使得短鏈推理難以獲得足夠的優(yōu)化權(quán)重,最終導(dǎo)致模型在訓(xùn)練初期就迅速偏向長(zhǎng)鏈推理,失去了多樣性。而 DeGRPO 算法通過(guò)獨(dú)立地對(duì)控制Token和響應(yīng)Token進(jìn)行歸一化處理,引入一個(gè)長(zhǎng)度無(wú)關(guān)的權(quán)重系數(shù) α,確保了兩種推理模式在優(yōu)化過(guò)程中的平等對(duì)話。

數(shù)學(xué)公式層面,算法首先定義了一個(gè)簡(jiǎn)單的獎(jiǎng)勵(lì)函數(shù) r(a, y?, c),對(duì)不同推理模式下的正確和錯(cuò)誤答案賦予不同的獎(jiǎng)勵(lì)值。例如,對(duì)于短鏈正確答案給予最高獎(jiǎng)勵(lì) 1.0,而長(zhǎng)鏈正確答案則給予略低的獎(jiǎng)勵(lì) 1.0?γ,以此體現(xiàn)對(duì)短鏈答案的偏好。

在優(yōu)化目標(biāo)方面,DeGRPO 將原始的 GRPO 框架進(jìn)行擴(kuò)展。對(duì)于每一個(gè)查詢樣本,算法從當(dāng)前策略中抽取一批樣本,計(jì)算每個(gè) token 級(jí)別的優(yōu)勢(shì)函數(shù)。通過(guò)巧妙地分離控制Token和響應(yīng)Token的貢獻(xiàn),使得模式選擇和答案準(zhǔn)確性提高這兩個(gè)目標(biāo)能夠獨(dú)立地貢獻(xiàn)于整體優(yōu)化過(guò)程,從而避免了傳統(tǒng)方法中由于序列長(zhǎng)度差異導(dǎo)致的梯度不平衡問(wèn)題。

下圖展示了 Thinkless 框架如何通過(guò)兩個(gè) special Token <think> 和 <short>,結(jié)合 DeGRPO 算法,實(shí)現(xiàn)對(duì)推理模式的動(dòng)態(tài)選擇。這一過(guò)程不僅提高了模型的效率,還保證了答案的準(zhǔn)確性。

圖片

圖片

Thinkless 學(xué)習(xí)了一種混合型 LLM,能夠自適應(yīng)地在思考推理模式和非思考推理模式之間進(jìn)行選擇,這一選擇過(guò)程由兩個(gè) special tokens:<think> 和 <short> 來(lái)引導(dǎo)。方法的核心是 Decoupled Group Relative Policy Optimization,它將模式選擇在控制 token 上的分解與在響應(yīng) token 上的準(zhǔn)確性提升進(jìn)行了平衡

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果:Thinkless的“實(shí)力驗(yàn)證之旅”

實(shí)驗(yàn)環(huán)境搭建

在實(shí)驗(yàn)設(shè)置方面,研究人員精心選擇了 DeepSeek-R1-Distill-Qwen-1.5B 作為基礎(chǔ)模型,搭配 DeepScaleR 數(shù)據(jù)集進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。訓(xùn)練硬件配置為 4 塊 H100 GPU,最大上下文長(zhǎng)度在預(yù)訓(xùn)練熱身階段設(shè)為 16K,強(qiáng)化學(xué)習(xí)階段擴(kuò)展至 24K。優(yōu)化器選用 AdamW,學(xué)習(xí)率設(shè)定為 1×10?6,批次大小為 128,每個(gè)查詢采樣 8 個(gè)響應(yīng),確保了實(shí)驗(yàn)的嚴(yán)謹(jǐn)性和可重復(fù)性。

對(duì)比實(shí)驗(yàn)的“高光時(shí)刻”

在與基線模型的對(duì)比中,Thinkless 顯示出了壓倒性的優(yōu)勢(shì)。以 Minerva Algebra 數(shù)據(jù)集為例,基線模型 DeepSeek-R1-1.5B 在追求高準(zhǔn)確率的同時(shí),token 使用量高達(dá) 18063,而 Thinkless 僅使用了 7099 個(gè) token,token 使用量減少了近 60%,準(zhǔn)確率卻依然保持在 94.59%,幾乎與基線模型持平。

與其他技術(shù)的對(duì)比同樣令人矚目。模型融合方法雖然能在一定程度上減少 token 使用量,但在不同數(shù)據(jù)集上的表現(xiàn)波動(dòng)較大,難以兼顧效率與性能。CoT-Valve 技術(shù)雖然提供了可調(diào)節(jié)的推理長(zhǎng)度,但需要針對(duì)每個(gè)數(shù)據(jù)集手動(dòng)調(diào)整參數(shù),缺乏自適應(yīng)性。而基于路由器的方法則受限于獨(dú)立模型對(duì)目標(biāo)模型能力的有限理解,無(wú)法做出精準(zhǔn)的推理模式?jīng)Q策。

關(guān)鍵結(jié)論的“硬核數(shù)據(jù)”

在多個(gè)基準(zhǔn)測(cè)試中,Thinkless 的表現(xiàn)堪稱驚艷。在 Minerva Algebra 數(shù)據(jù)集上,長(zhǎng)鏈推理使用比例僅為 25.88%,token 使用量大幅減少,準(zhǔn)確率卻高達(dá) 94.59%;在 AIME 2024 數(shù)據(jù)集中,面對(duì)復(fù)雜問(wèn)題,Thinkless 依然能保持 27.33% 的準(zhǔn)確率,且推理模式使用比例高達(dá) 100%,展現(xiàn)了強(qiáng)大的適應(yīng)能力;在 GSM8K 數(shù)據(jù)集上,長(zhǎng)鏈推理使用比例僅為 13.31%,準(zhǔn)確率卻達(dá)到了 84.18%。

為了更直觀地呈現(xiàn) Thinkless 的優(yōu)勢(shì),我們繪制了如下對(duì)比柱狀圖和折線圖。這些圖表展示了 Thinkless 在減少長(zhǎng)鏈推理使用頻率和保持高準(zhǔn)確率方面的顯著優(yōu)勢(shì)。

圖片

混合推理的實(shí)證結(jié)果。對(duì)于混合算法,研究人員還報(bào)告了在評(píng)估過(guò)程中以思考模式執(zhí)行的查詢所占的比例。

訓(xùn)練動(dòng)態(tài)與策略分析:深度剖析模型的“學(xué)習(xí)成長(zhǎng)之路”

訓(xùn)練過(guò)程的“可視化奇觀”

在強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中,研究人員發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:傳統(tǒng) GRPO 方法常常會(huì)遭遇模式崩潰問(wèn)題。模型在訓(xùn)練初期會(huì)迅速偏向長(zhǎng)鏈推理,導(dǎo)致短鏈推理幾乎消失,仿佛模型被一種“長(zhǎng)鏈偏好癥”所困擾。然而,DeGRPO 算法的引入徹底改變了這一局面。

下圖展示了傳統(tǒng) GRPO 和 DeGRPO 算法在訓(xùn)練過(guò)程中的模式選擇變化曲線。從圖中可以看出,傳統(tǒng) GRPO 的長(zhǎng)鏈推理樣本數(shù)量在訓(xùn)練初期迅速上升,而后又急劇下降,最終趨于穩(wěn)定,呈現(xiàn)出一種“過(guò)山車”式的不穩(wěn)定趨勢(shì)。

圖片

訓(xùn)練策略對(duì)比:普通GRPO與解耦GRPO

而 DeGRPO 算法則展現(xiàn)出了獨(dú)特的 U 型學(xué)習(xí)曲線。在訓(xùn)練初期,由于長(zhǎng)鏈推理的準(zhǔn)確率相對(duì)較高,模型會(huì)傾向于選擇長(zhǎng)鏈推理。但隨著訓(xùn)練的深入,短鏈推理的準(zhǔn)確率逐漸提升,模型開(kāi)始更多地探索短鏈推理的可能性,短鏈推理樣本數(shù)量逐漸增加,最終在訓(xùn)練后期達(dá)到一個(gè)相對(duì)平衡的狀態(tài)。

控制Token權(quán)重的“微妙影響”

控制Token權(quán)重 α 在模型學(xué)習(xí)過(guò)程中扮演著至關(guān)重要的角色。當(dāng) α 值較大時(shí),模型對(duì)模式選擇的學(xué)習(xí)速度會(huì)顯著加快。這意味著在訓(xùn)練初期,模型會(huì)更早地學(xué)會(huì)如何在短鏈和長(zhǎng)鏈推理之間做出選擇,從而更早地出現(xiàn)全正確的短鏈樣本。

然而,過(guò)大的 α 值也并非全然無(wú)弊。它可能導(dǎo)致模型過(guò)早地將一些樣本分配給長(zhǎng)鏈推理模式,而忽視了這些樣本在短鏈推理下可能達(dá)到的高準(zhǔn)確率。這種情況下,模型的決策會(huì)變得過(guò)于“急功近利”,沒(méi)有充分考慮到長(zhǎng)期的優(yōu)化潛力。

相反,一個(gè)適中的 α 值能夠?qū)崿F(xiàn)模式選擇和答案準(zhǔn)確性提高的平衡學(xué)習(xí)。模型會(huì)在訓(xùn)練過(guò)程中逐步探索兩種推理模式的優(yōu)劣,根據(jù)問(wèn)題的復(fù)雜度和自身能力動(dòng)態(tài)調(diào)整策略,最終達(dá)到一種“智慧”的決策狀態(tài)。

圖片

一個(gè)較大的token損失系數(shù)α加速了推理行為的轉(zhuǎn)變,導(dǎo)致all-correct short-mode samples(全正確短模式樣本)的迅速出現(xiàn)

梯度變化與參數(shù)更新的“幕后故事”

在不同訓(xùn)練階段,模型的梯度變化情況和參數(shù)更新頻率也呈現(xiàn)出獨(dú)特的規(guī)律。在訓(xùn)練初期,由于長(zhǎng)鏈推理樣本占據(jù)主導(dǎo)地位,長(zhǎng)鏈推理相關(guān)的參數(shù)更新較為頻繁,梯度變化也較大。此時(shí),模型主要在學(xué)習(xí)如何通過(guò)長(zhǎng)鏈推理解決復(fù)雜問(wèn)題,提升整體準(zhǔn)確率。

隨著訓(xùn)練的進(jìn)行,短鏈推理的準(zhǔn)確率逐漸提升,短鏈推理相關(guān)的參數(shù)更新開(kāi)始增加,梯度變化也逐漸趨于穩(wěn)定。這一階段,模型開(kāi)始更多地關(guān)注如何在保證準(zhǔn)確率的前提下減少 token 使用量,提高推理效率。

研究人員詳細(xì)記錄了控制Token權(quán)重 α 在不同訓(xùn)練階段的具體調(diào)整策略。例如,在訓(xùn)練初期,給予推理模型較高的權(quán)重,使其能夠充分傳授長(zhǎng)鏈推理的精髓。隨著訓(xùn)練的深入,逐漸增加指令遵循模型的權(quán)重,使目標(biāo)模型能夠更好地掌握簡(jiǎn)潔回答的技巧。

通過(guò)這種精心設(shè)計(jì)的訓(xùn)練策略,模型在不同階段都能夠獲得最有效的學(xué)習(xí)信號(hào),從而實(shí)現(xiàn)高效的推理模式選擇和答案準(zhǔn)確性提高。

預(yù)訓(xùn)練與蒸餾細(xì)節(jié):構(gòu)建混合推理模型的“基石工程”

知識(shí)蒸餾:打造“雙面專家”

在預(yù)訓(xùn)練熱身階段,知識(shí)蒸餾方法被巧妙地運(yùn)用,為 Thinkless 框架奠定了堅(jiān)實(shí)的基礎(chǔ)。研究人員利用兩個(gè)預(yù)訓(xùn)練專家模型:推理模型和指令遵循模型,分別擅長(zhǎng)長(zhǎng)鏈推理和簡(jiǎn)潔回答。這兩個(gè)模型如同兩位經(jīng)驗(yàn)豐富的導(dǎo)師,共同指導(dǎo)目標(biāo)模型的學(xué)習(xí)。

在蒸餾過(guò)程中,目標(biāo)模型需要同時(shí)學(xué)習(xí)兩位導(dǎo)師的專長(zhǎng)。為了實(shí)現(xiàn)這一目標(biāo),研究人員精心設(shè)計(jì)了配對(duì)數(shù)據(jù)集的生成方法。他們從海量問(wèn)題中篩選出具有代表性的樣本,根據(jù)問(wèn)題的復(fù)雜度和領(lǐng)域相關(guān)性進(jìn)行分類。對(duì)于簡(jiǎn)單問(wèn)題,主要參考指令遵循模型的簡(jiǎn)潔回答;而對(duì)于復(fù)雜問(wèn)題,則借鑒推理模型的長(zhǎng)鏈推理過(guò)程。

為了平衡兩位導(dǎo)師的影響力,研究人員采用了巧妙的權(quán)重分配策略。在訓(xùn)練初期,給予推理模型較高的權(quán)重,使其能夠充分傳授長(zhǎng)鏈推理的精髓。隨著訓(xùn)練的深入,逐漸增加指令遵循模型的權(quán)重,使目標(biāo)模型能夠更好地掌握簡(jiǎn)潔回答的技巧。

通過(guò)這種精心設(shè)計(jì)的蒸餾過(guò)程,目標(biāo)模型不僅能夠生成高質(zhì)量的長(zhǎng)鏈和短鏈回答,還能夠根據(jù)輸入問(wèn)題的復(fù)雜度靈活調(diào)整回答風(fēng)格,為后續(xù)的強(qiáng)化學(xué)習(xí)階段打下了堅(jiān)實(shí)的基礎(chǔ)。

圖片

ThinkLess訓(xùn)練了一個(gè)混合模型,該模型能夠根據(jù)任務(wù)復(fù)雜性和模型容量自適應(yīng)地選擇推理模式。這一過(guò)程始于蒸餾,使模型能夠遵循控制token(<think>或<short>)來(lái)進(jìn)行引導(dǎo)式推理。隨后,通過(guò)使用解耦的GRPO進(jìn)行強(qiáng)化學(xué)習(xí),將訓(xùn)練分解為兩個(gè)目標(biāo):優(yōu)化控制token以實(shí)現(xiàn)有效的模式選擇,以及精煉回答以提高答案的準(zhǔn)確性

數(shù)據(jù)集效果的“邊際遞減之謎”

在實(shí)驗(yàn)中,研究人員對(duì)比了不同規(guī)模和領(lǐng)域的蒸餾數(shù)據(jù)集對(duì)模型性能的影響。從 OpenR1-97K 到 OpenThoughts-114K,再到 OpenThoughts-1M,數(shù)據(jù)集的規(guī)模和領(lǐng)域覆蓋范圍逐漸擴(kuò)大。結(jié)果顯示,較大的數(shù)據(jù)集確實(shí)能夠帶來(lái)更好的性能提升,但當(dāng)數(shù)據(jù)集規(guī)模超過(guò)一定閾值后,邊際收益開(kāi)始遞減。

OpenR1-97K 數(shù)據(jù)集雖然規(guī)模較小,但其數(shù)學(xué)領(lǐng)域的專業(yè)性使得目標(biāo)模型能夠快速掌握簡(jiǎn)潔回答的技巧。然而,在面對(duì)復(fù)雜問(wèn)題時(shí),模型的長(zhǎng)鏈推理能力稍顯不足。

OpenThoughts-114K 數(shù)據(jù)集在規(guī)模和領(lǐng)域覆蓋上都有所擴(kuò)展,目標(biāo)模型在長(zhǎng)鏈推理和簡(jiǎn)潔回答方面的表現(xiàn)都有了顯著提升。但當(dāng)數(shù)據(jù)集進(jìn)一步擴(kuò)展到 OpenThoughts-1M 時(shí),雖然模型的長(zhǎng)鏈推理準(zhǔn)確率略有提高,但簡(jiǎn)潔回答的性能提升卻并不明顯。

這一現(xiàn)象表明,在構(gòu)建混合推理模型時(shí),數(shù)據(jù)集的規(guī)模并非越大越好。關(guān)鍵在于數(shù)據(jù)的質(zhì)量和多樣性,以及如何根據(jù)模型的特點(diǎn)和任務(wù)需求進(jìn)行合理選擇。未來(lái)的研究可以進(jìn)一步探索如何優(yōu)化數(shù)據(jù)集的構(gòu)建方法,提高數(shù)據(jù)的利用效率,從而實(shí)現(xiàn)更高效的混合推理模型訓(xùn)練。

圖片

在熱身階段,不同的SFT數(shù)據(jù)集的有效性。由于這些模型尚未通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行優(yōu)化,因此手動(dòng)插入控制token <think>和<short>以引出所需的響應(yīng)模式

案例研究:Thinkless的“實(shí)戰(zhàn)演練”

MATH-500數(shù)據(jù)集的概率分布“全景圖”

在 MATH-500 數(shù)據(jù)集中,研究人員展示了 Thinkless 模型對(duì)不同難度問(wèn)題選擇 <think> Token的概率分布。從概率分布圖中可以看出,模型能夠根據(jù)問(wèn)題的復(fù)雜度做出精準(zhǔn)的判斷。

例如,對(duì)于簡(jiǎn)單的算術(shù)問(wèn)題“7 加 2 等于多少”,模型選擇 <short> Token的概率極高,幾乎接近 100%。這是因?yàn)檫@類問(wèn)題無(wú)需復(fù)雜的推理過(guò)程,直接給出答案即可。而對(duì)于復(fù)雜的代數(shù)問(wèn)題,如“求解一元二次方程的根”,模型選擇 <think> Token的概率則高達(dá) 90%。

圖片

在MATH-500中模型發(fā)出“<think>”的概率分布。具有最高、中等和最低概率的樣本已被突出顯示。思考得分接近0的示例主要涉及簡(jiǎn)單的計(jì)算,而概率為1.0的查詢則更多依賴于理解和邏輯推理

具體案例

案例1:Minerva Algebra數(shù)據(jù)集中的簡(jiǎn)單算術(shù)問(wèn)題

在 Minerva Algebra 數(shù)據(jù)集中,研究人員選取了一個(gè)簡(jiǎn)單算術(shù)問(wèn)題:“The arithmetic mean of 7, 2, x and 10 is 9. What is the value of x?”。模型迅速識(shí)別出問(wèn)題的簡(jiǎn)單性,選擇了 <short> Token進(jìn)行簡(jiǎn)潔回答。

推理過(guò)程如下:

1. 問(wèn)題理解:模型首先理解題目要求求解一個(gè)簡(jiǎn)單的算術(shù)平均數(shù)問(wèn)題。

2. 簡(jiǎn)潔回答:模型直接給出答案:“The value of x is 10.”

通過(guò)這個(gè)案例,我們可以看到 Thinkless 模型在面對(duì)簡(jiǎn)單問(wèn)題時(shí)的高效性。它無(wú)需冗長(zhǎng)的推理過(guò)程,直接給出簡(jiǎn)潔明了的答案,大大提高了推理效率。

案例2:AIME 2024數(shù)據(jù)集中的復(fù)雜數(shù)學(xué)問(wèn)題

在 AIME 2024 數(shù)據(jù)集中,研究人員選取了一個(gè)復(fù)雜數(shù)學(xué)問(wèn)題:“Let S be the set of points (a,b) with 0 ≤ a, b ≤ 1 such that the equation x? + a x3 - b x2 + a x + 1 = 0 has at least one real root. Determine the area of the graph of S.”。模型識(shí)別出問(wèn)題的復(fù)雜性,選擇了 <think> Token進(jìn)行詳細(xì)推理。

推理過(guò)程如下:

1. 問(wèn)題理解:模型首先理解題目要求求解一個(gè)復(fù)雜的代數(shù)方程的實(shí)根問(wèn)題,并確定相關(guān)點(diǎn)集的面積。

2. 詳細(xì)推理:模型逐步展開(kāi)推理過(guò)程,從方程的性質(zhì)入手,分析實(shí)根存在的條件,逐步推導(dǎo)出點(diǎn)集的邊界條件。

3. 最終答案:經(jīng)過(guò)一系列復(fù)雜的推理步驟,模型最終給出答案:“The area of the graph of S is 0.5.”

通過(guò)這個(gè)案例,我們可以看到 Thinkless 模型在面對(duì)復(fù)雜問(wèn)題時(shí)的強(qiáng)大推理能力。它能夠像一位經(jīng)驗(yàn)豐富的數(shù)學(xué)家一樣,逐步剖析問(wèn)題,最終給出準(zhǔn)確的答案。

案例3:GSM8K數(shù)據(jù)集中的中等難度問(wèn)題

在 GSM8K 數(shù)據(jù)集中,研究人員選取了一個(gè)中等難度的問(wèn)題:“How many r's are in the word 'strawberry'”。模型在不同訓(xùn)練階段對(duì)該問(wèn)題的推理方式變化如下:

  • 訓(xùn)練初期:模型傾向于選擇 <think> Token,進(jìn)行詳細(xì)的推理過(guò)程,逐步分析單詞的每個(gè)字母,最終得出答案。
  • 訓(xùn)練中期:隨著短鏈推理準(zhǔn)確率的提升,模型開(kāi)始更多地選擇 <short> Token,直接給出答案:“There are 2 r's in the word 'strawberry'.'
  • 訓(xùn)練后期:模型已經(jīng)能夠根據(jù)問(wèn)題的復(fù)雜度靈活選擇推理模式,對(duì)于這類中等難度的問(wèn)題,它會(huì)根據(jù)實(shí)際情況在短鏈和長(zhǎng)鏈推理之間做出最優(yōu)選擇。

通過(guò)這個(gè)案例,我們可以看到 Thinkless 模型在訓(xùn)練過(guò)程中的動(dòng)態(tài)學(xué)習(xí)能力。它能夠根據(jù)問(wèn)題的難度和自身能力的變化,不斷調(diào)整推理策略,最終達(dá)到高效且準(zhǔn)確的推理效果。

開(kāi)源倉(cāng)庫(kù)實(shí)操

安裝指南

在開(kāi)始使用 Thinkless 框架之前,確保你的環(huán)境已經(jīng)正確配置。以下是詳細(xì)的安裝步驟:

conda create -n thinkless pythnotallow==3.10
conda activate thinkless
git clone https://github.com/VainF/Thinkless.git
cd Thinkless
pip install -r requirements.txt

快速開(kāi)始代碼

以下是一個(gè)完整的推理代碼示例,展示了如何加載模型、設(shè)置控制Token以及生成答案:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Vinnnf/Thinkless-1.5B-RL-DeepScaleR"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

prompt = "The arithmetic mean of 7, 2, x and 10 is 9. What is the value of x?"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=16384, temperature=0.6)
answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(answer)

模型調(diào)用示例

在實(shí)際應(yīng)用中,你可以根據(jù)問(wèn)題類型動(dòng)態(tài)選擇推理模式。以下是一個(gè)示例函數(shù):

def infer(question, use_think_mode=False):
    if use_think_mode:
        prompt = "<think>" + question
    else:
        prompt = "<short>" + question
    inputs = tokenizer(prompt, return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=16384, temperature=0.6)
    answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return answer

參數(shù)優(yōu)化建議

根據(jù)業(yè)務(wù)需求調(diào)整 α 值和控制Token。例如,如果對(duì)效率有較高要求,可以適當(dāng)降低 α 值,促使模型更多地選擇短鏈推理模式。

總結(jié)一下

Thinkless 框架通過(guò)巧妙的雙控制Token與DeGRPO算法結(jié)合,該框架賦予了模型自主選擇推理深度的能力,使其能夠在效率與性能之間實(shí)現(xiàn)動(dòng)態(tài)平衡。在一系列嚴(yán)苛的實(shí)驗(yàn)驗(yàn)證下,Thinkless 展現(xiàn)出了卓越的效率提升能力,大幅減少了長(zhǎng)鏈推理的使用頻率,有效降低了系統(tǒng)資源消耗,同時(shí)在復(fù)雜問(wèn)題上依然保持著出色的準(zhǔn)確率表現(xiàn)。

這一創(chuàng)新思路不僅體現(xiàn)了研究人員對(duì)LLM推理模式的深刻洞察,更彰顯了其在算法設(shè)計(jì)上的巧妙構(gòu)思。從引入能夠精準(zhǔn)引導(dǎo)模型推理行為的special Token,到通過(guò)DeGRPO算法巧妙平衡模式選擇與答案準(zhǔn)確性優(yōu)化目標(biāo),每一個(gè)設(shè)計(jì)細(xì)節(jié)都旨在讓模型在面對(duì)不同復(fù)雜度的任務(wù)時(shí),能夠做出最為恰當(dāng)?shù)耐评聿呗詻Q策。

另外,盡管Thinkless框架已經(jīng)在提升推理效率和保持高性能方面取得了顯著成就,但AI領(lǐng)域的探索永無(wú)止境。研究人員計(jì)劃繼續(xù)優(yōu)化模型的初始性能,深入挖掘更高效的混合模型構(gòu)建策略,例如借助先進(jìn)的模型融合技術(shù)或輕量級(jí)微調(diào)方法。此外,將Thinkless框架擴(kuò)展應(yīng)用于更廣泛的領(lǐng)域和數(shù)據(jù)集,如自然語(yǔ)言處理和圖像識(shí)別等,也將是未來(lái)研究的重要方向。這不僅能夠進(jìn)一步驗(yàn)證該框架的普適性和魯棒性,也將為AI技術(shù)在更多實(shí)際場(chǎng)景中的應(yīng)用提供強(qiáng)有力的支持。

責(zé)任編輯:龐桂玉 來(lái)源: 覺(jué)察流
相關(guān)推薦

2020-07-25 22:44:50

華為

2025-04-25 10:03:12

2013-07-09 13:38:19

字符轉(zhuǎn)義

2025-10-13 08:14:48

2024-07-12 14:07:04

2025-07-01 08:37:13

2024-03-27 13:34:00

模型訓(xùn)練

2022-09-19 16:12:17

紅綠燈智能

2021-10-25 12:14:28

智慧城市物聯(lián)網(wǎng)

2016-10-17 10:17:21

H3C

2024-08-02 14:30:00

AI訓(xùn)練

2025-07-11 11:59:33

LLM模型AI

2020-11-07 17:58:05

AI

2024-09-06 10:46:04

2025-03-20 14:18:57

AI算法模型

2023-06-29 08:00:00

人工智能LLMGPT-4

2020-08-03 09:12:12

人工智能技術(shù)機(jī)器人

2025-08-12 09:23:34

2024-02-26 07:43:10

大語(yǔ)言模型LLM推理框架

2023-12-13 13:36:40

模型算力
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)