偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)跳動(dòng) AdaCoT:基于強(qiáng)化學(xué)習(xí)的自適應(yīng)推理觸發(fā)方法

人工智能
在人工智能領(lǐng)域,大型語言模型(LLM)正以前所未有的速度發(fā)展。然而,這些模型在處理復(fù)雜推理任務(wù)時(shí)仍面臨諸多挑戰(zhàn),如數(shù)學(xué)問題求解、邏輯推理等場(chǎng)景下的表現(xiàn)不足。而字節(jié)跳動(dòng)提出的 AdaCoT 框架,為 LLM 的高效推理提供了新的思路。

大家好,我是肆〇柒。在當(dāng)下,大型語言模型(LLM)憑借其強(qiáng)大的語言理解和生成能力,在眾多領(lǐng)域展現(xiàn)出了巨大的潛力。然而,盡管 LLM 在處理常規(guī)任務(wù)時(shí)表現(xiàn)出色,但在面對(duì)復(fù)雜推理任務(wù)時(shí),卻常常暴露出明顯的短板。

例如,在解決數(shù)學(xué)問題時(shí),LLM 需要進(jìn)行多步邏輯推理和精確的數(shù)值計(jì)算,但在這一過程中,模型往往會(huì)因?yàn)檫壿嬫湕l的斷裂或計(jì)算步驟的遺漏而導(dǎo)致錯(cuò)誤答案。類似的情況也出現(xiàn)在邏輯推理和創(chuàng)造性寫作等任務(wù)中。為了克服這一難題,研究者們提出了 Chain-of-Thought(CoT)推理方法。CoT 方法通過引導(dǎo)模型逐步輸出中間推理步驟,最終得出答案,從而顯著提升了模型在復(fù)雜任務(wù)中的表現(xiàn)。相關(guān)實(shí)驗(yàn)表明,在采用 CoT 方法后,LLM 在數(shù)學(xué)問題求解等復(fù)雜任務(wù)上的準(zhǔn)確率得到了顯著提升。

然而,CoT 推理方法并非完美無缺。其主要問題在于,無論查詢的復(fù)雜程度如何,CoT 都會(huì)生成 lengthy 的推理步驟,這導(dǎo)致了巨大的計(jì)算成本和低下的運(yùn)行效率。例如,對(duì)于簡(jiǎn)單的算術(shù)問題 “1+1=?” 或者一些簡(jiǎn)單的事實(shí)性查詢,CoT 方法依然會(huì)啟動(dòng)復(fù)雜的推理過程,這無疑是對(duì)計(jì)算資源的浪費(fèi)。這種無差別的推理觸發(fā)機(jī)制,使得 LLM 在實(shí)際應(yīng)用場(chǎng)景中面臨著巨大的推理成本壓力,限制了其在資源敏感型環(huán)境下的廣泛應(yīng)用。

圖片

針對(duì)上述問題,我在瀏覽論文的時(shí)候,發(fā)現(xiàn)了字節(jié)跳動(dòng)的一篇關(guān)于模型自適應(yīng)思考的框架,叫 AdaCoT。它通過將自適應(yīng)推理觸發(fā)機(jī)制與強(qiáng)化學(xué)習(xí)相結(jié)合,實(shí)現(xiàn)了在模型性能和 CoT 調(diào)用成本之間的有效平衡。AdaCoT 框架的核心思想是根據(jù)查詢的復(fù)雜程度,智能地決定是否啟動(dòng) CoT 推理過程,從而在保證復(fù)雜任務(wù)高性能的同時(shí),大幅降低簡(jiǎn)單查詢的推理成本。字節(jié)的論文在今年之前很少見到,最近倒是讀到好幾篇。下面我們一起來看看字節(jié)這篇介紹 AdaCoT 的論文都說了什么。

相關(guān)工作回顧

CoT 推理的發(fā)展歷程

CoT 推理方法自提出以來,便在人工智能領(lǐng)域引起了廣泛關(guān)注。早期的 LLM 在處理復(fù)雜任務(wù)時(shí),往往直接生成最終答案,忽略了中間推理過程,這導(dǎo)致模型在面對(duì)多步邏輯推理任務(wù)時(shí)容易出錯(cuò)。而 CoT 方法的出現(xiàn),徹底改變了這一局面。通過模仿人類解決問題時(shí)的逐步思考過程,CoT 方法引導(dǎo)模型先輸出中間推理步驟,再得出最終答案。這一創(chuàng)新方法在多個(gè)復(fù)雜任務(wù)中展現(xiàn)出了顯著的優(yōu)勢(shì)。

在數(shù)學(xué)推理領(lǐng)域,CoT 方法通過引導(dǎo)模型進(jìn)行分步計(jì)算和邏輯推理,大幅提升了模型在解決算術(shù)問題、代數(shù)方程求解、幾何證明等任務(wù)上的準(zhǔn)確率。例如,在某項(xiàng)關(guān)于數(shù)學(xué)問題求解的研究中,采用 CoT 方法后,模型的準(zhǔn)確率從 60% 提升至 85%。同樣,在邏輯推理任務(wù)中,CoT 方法幫助模型更好地梳理邏輯鏈條,避免了因中間步驟缺失而導(dǎo)致的錯(cuò)誤。在創(chuàng)造性寫作任務(wù)中,CoT 方法使得模型能夠先構(gòu)思故事大綱、角色設(shè)定等關(guān)鍵要素,再逐步展開情節(jié)創(chuàng)作,從而生成更加連貫、富有邏輯性的作品。

此外,CoT 方法還在自然語言推理、代碼生成與調(diào)試、多輪對(duì)話等眾多領(lǐng)域展現(xiàn)出了廣泛的應(yīng)用前景。隨著研究的不斷深入,CoT 方法也在不斷進(jìn)化。從最初的簡(jiǎn)單分步提示,到后來結(jié)合多種提示策略和優(yōu)化方法,CoT 方法在提升模型性能方面取得了顯著進(jìn)展。例如,研究者們提出了多種改進(jìn)的 CoT 方法,如通過引入多種角度的提示信息、采用動(dòng)態(tài)調(diào)整提示策略等,使得模型在不同任務(wù)中的表現(xiàn)更加出色。

然而,盡管 CoT 方法在提升模型性能方面取得了巨大成功,但其高計(jì)算成本和低效率問題也日益凸顯。尤其是在處理大規(guī)模數(shù)據(jù)和實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)景中,CoT 方法的這一缺點(diǎn)成為了限制其進(jìn)一步發(fā)展的瓶頸。

現(xiàn)有 CoT 優(yōu)化方法的局限性剖析

為了降低 CoT 推理的計(jì)算成本,研究者們提出了多種優(yōu)化方法。這些方法大致可以分為以下幾類:

1. 縮短 CoT 長(zhǎng)度 :一些方法試圖通過限制推理步驟的數(shù)量或者優(yōu)化推理路徑來縮短 CoT 的長(zhǎng)度。例如,通過設(shè)定最大推理步數(shù)限制,或者采用啟發(fā)式搜索算法尋找更短的推理路徑。然而,這些方法往往在縮短長(zhǎng)度的同時(shí),可能會(huì)導(dǎo)致推理過程的不完整性,進(jìn)而影響模型的準(zhǔn)確率。例如,在某項(xiàng)實(shí)驗(yàn)中,當(dāng)將推理步驟限制在 3 步以內(nèi)時(shí),模型在復(fù)雜數(shù)學(xué)問題求解任務(wù)上的準(zhǔn)確率下降了 20%。

2. 調(diào)整輸出結(jié)構(gòu) :另一些方法通過對(duì) CoT 輸出結(jié)構(gòu)進(jìn)行調(diào)整來降低計(jì)算成本。例如,采用分層輸出結(jié)構(gòu),將關(guān)鍵推理步驟提取出來,減少冗余信息。但這種方法在處理復(fù)雜多變的查詢時(shí),可能會(huì)因?yàn)檩敵鼋Y(jié)構(gòu)的固定而無法適應(yīng)不同的推理需求,導(dǎo)致模型在某些場(chǎng)景下的性能受限。

3. 使用顯式指令或選擇機(jī)制 :還有一些方法通過給模型提供顯式的指令或者設(shè)計(jì)特定的選擇機(jī)制來控制 CoT 的使用。例如,在查詢中明確指示模型是否需要進(jìn)行詳細(xì)推理,或者根據(jù)預(yù)定義的規(guī)則選擇是否啟動(dòng) CoT。然而,這些方法往往需要人工干預(yù)或者對(duì)查詢進(jìn)行預(yù)分類,缺乏自動(dòng)化和自適應(yīng)的能力。在實(shí)際應(yīng)用中,查詢的復(fù)雜性和多樣性使得人工預(yù)分類變得不切實(shí)際,而預(yù)定義規(guī)則又難以適應(yīng)各種不同的情況。

綜上所述,現(xiàn)有的 CoT 優(yōu)化方法在適應(yīng)查詢復(fù)雜性變化、動(dòng)態(tài)調(diào)整推理深度等方面存在明顯的局限性。它們無法根據(jù)查詢的具體復(fù)雜程度智能地決定是否啟動(dòng) CoT 推理過程,從而在模型性能和計(jì)算成本之間實(shí)現(xiàn)最佳平衡。這些局限性為 AdaCoT 框架的提出提供了充分的對(duì)比依據(jù)和研究空間。

AdaCoT 框架

核心思想與目標(biāo)定位

AdaCoT 框架的核心思想是將自適應(yīng)推理觸發(fā)視為一個(gè)多目標(biāo)優(yōu)化問題。在這一框架下,模型需要在兩個(gè)相互競(jìng)爭(zhēng)的目標(biāo)之間找到最佳平衡:一是最大化模型性能,即提高對(duì)復(fù)雜查詢的推理準(zhǔn)確率;二是最小化 CoT 使用成本,即降低對(duì)簡(jiǎn)單查詢的推理資源消耗。為了實(shí)現(xiàn)這一目標(biāo),AdaCoT 框架采用了 Pareto 優(yōu)化理論作為其理論基礎(chǔ)。

Pareto 優(yōu)化是一種在多目標(biāo)優(yōu)化問題中尋找最優(yōu)解的方法。在 AdaCoT 框架中,通過構(gòu)建合適的優(yōu)化模型,將模型性能和 CoT 使用成本作為兩個(gè)優(yōu)化目標(biāo),尋求在不同目標(biāo)之間達(dá)到 Pareto 前沿的解決方案。具體來說,AdaCoT 框架通過定義模型性能指標(biāo)和 CoT 使用成本指標(biāo),構(gòu)建了一個(gè)多目標(biāo)優(yōu)化函數(shù),并利用強(qiáng)化學(xué)習(xí)方法來動(dòng)態(tài)調(diào)整模型的推理觸發(fā)決策邊界。

AdaCoT 框架的目標(biāo)是使得模型能夠在面對(duì)不同復(fù)雜程度的查詢時(shí),自適應(yīng)地觸發(fā) CoT 推理過程。對(duì)于復(fù)雜查詢,模型將啟動(dòng)詳細(xì)的推理步驟,以確保準(zhǔn)確的答案;而對(duì)于簡(jiǎn)單查詢,則直接給出答案,避免不必要的推理開銷。通過這種方式,AdaCoT 框架是為了實(shí)現(xiàn)模型性能和計(jì)算成本之間的最佳平衡,從而提高 LLM 在實(shí)際應(yīng)用中的效率和經(jīng)濟(jì)性。

訓(xùn)練流程解析

1. 數(shù)據(jù)準(zhǔn)備與有監(jiān)督微調(diào)(SFT)

在數(shù)據(jù)準(zhǔn)備階段,AdaCoT 框架采用了一個(gè)輔助模型來對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注。這個(gè)輔助模型基于一組預(yù)定義的原則,如查詢復(fù)雜性、預(yù)期推理深度和領(lǐng)域等,對(duì)查詢進(jìn)行評(píng)估,判斷其是否需要 CoT 推理。具體來說,輔助模型會(huì)分析查詢的結(jié)構(gòu)、涉及的知識(shí)領(lǐng)域、可能的推理步驟等因素,將查詢標(biāo)記為 “需要 CoT 推理” 或 “不需要 CoT 推理”。

例如,對(duì)于一個(gè)數(shù)學(xué)方程求解的查詢,輔助模型會(huì)根據(jù)方程的類型、變量數(shù)量、運(yùn)算復(fù)雜性等因素,判斷其需要多步推理過程,從而標(biāo)記為 “需要 CoT 推理”。而對(duì)于一個(gè)簡(jiǎn)單的事實(shí)性查詢,如 “誰是美國(guó)第一任總統(tǒng)?”,則會(huì)被標(biāo)記為 “不需要 CoT 推理”。

基于這些標(biāo)注結(jié)果,SFT 數(shù)據(jù)集被構(gòu)建為兩種結(jié)構(gòu)。對(duì)于需要 CoT 推理的查詢,其對(duì)應(yīng)的響應(yīng)將包含完整的推理過程,格式為 “think”reasoning_steps”/think”answer”。而對(duì)于不需要 CoT 推理的查詢,響應(yīng)則省略了明確的推理過程,格式為 “think”/think”answer”。

SFT 階段的訓(xùn)練過程類似于傳統(tǒng)的監(jiān)督學(xué)習(xí)。模型通過學(xué)習(xí) SFT 數(shù)據(jù)集中的輸入 - 輸出對(duì),初步建立起對(duì) CoT 推理適用場(chǎng)景的認(rèn)知。這一階段的訓(xùn)練使模型能夠根據(jù)輸入查詢的特征,初步判斷是否需要啟動(dòng) CoT 推理過程,并生成相應(yīng)的響應(yīng)格式。SFT 階段的訓(xùn)練對(duì)于模型的性能提升具有基礎(chǔ)性作用,它為后續(xù)的強(qiáng)化學(xué)習(xí)階段提供了良好的初始化。

為了評(píng)估 SFT 階段的訓(xùn)練效果,研究者們采用了一系列評(píng)估指標(biāo),如準(zhǔn)確率、F1 分?jǐn)?shù)、召回率和精確率等。通過在驗(yàn)證集上的測(cè)試,可以定量地分析模型在初步 CoT 推理觸發(fā)決策方面的能力。例如,在某次實(shí)驗(yàn)中,經(jīng)過 SFT 階段訓(xùn)練后的模型在驗(yàn)證集上的準(zhǔn)確率達(dá)到 75%,相較于未經(jīng)過 SFT 訓(xùn)練的模型提升了 15 個(gè)百分點(diǎn)。

2. 強(qiáng)化學(xué)習(xí)(RL)階段

強(qiáng)化學(xué)習(xí)階段是 AdaCoT 框架的核心部分。在這一階段,模型通過與環(huán)境的交互,不斷調(diào)整其 CoT 推理觸發(fā)策略,以實(shí)現(xiàn)模型性能和 CoT 使用成本之間的最優(yōu)平衡。

獎(jiǎng)勵(lì)函數(shù)是 RL 階段的關(guān)鍵組成部分。其具體構(gòu)成如下:

  •  Rbase(x, r) :這是基礎(chǔ)獎(jiǎng)勵(lì)部分,用于衡量模型生成的響應(yīng)在質(zhì)量上的優(yōu)劣。它通?;谝恍╊A(yù)定義的評(píng)估指標(biāo),如響應(yīng)的準(zhǔn)確性、相關(guān)性、連貫性等。例如,在數(shù)學(xué)問題求解任務(wù)中,如果模型的最終答案正確,Rbase(x, r) 將獲得較高的分?jǐn)?shù);如果答案錯(cuò)誤,則得分較低。具體的計(jì)算方法可以表示為:

      a.對(duì)于數(shù)學(xué)問題求解任務(wù),Rbase(x, r) = 1(答案正確)或 0(答案錯(cuò)誤)。

      b. 對(duì)于自然語言推理任務(wù),Rbase(x, r) 可以根據(jù)語義相似度計(jì)算,例如采用余弦相似度衡量模型生成的響應(yīng)與參考答案之間的語義相似度,相似度越高,Rbase(x, r) 越高。

      c.對(duì)于創(chuàng)造性寫作任務(wù),Rbase(x, r) 可以通過一些文本質(zhì)量評(píng)估指標(biāo)來確定,如文本的連貫性、豐富度等,采用預(yù)訓(xùn)練的質(zhì)量評(píng)估模型進(jìn)行打分。

  • Pmiss(x, r) :這是一個(gè)二元懲罰項(xiàng),用于對(duì)模型在需要 CoT 推理時(shí)未啟動(dòng) CoT 推理的情況進(jìn)行懲罰。當(dāng)模型面對(duì)復(fù)雜查詢而未能觸發(fā) CoT 推理,導(dǎo)致答案錯(cuò)誤或質(zhì)量低下時(shí),Pmiss(x, r) 將對(duì)模型進(jìn)行懲罰,懲罰力度由懲罰系數(shù) α1 控制。例如,若模型對(duì)一個(gè)需要分步推理的數(shù)學(xué)問題直接給出了錯(cuò)誤答案,則 Pmiss(x, r) = 1,模型將受到懲罰。
  • Pover(x, r) :另一個(gè)二元懲罰項(xiàng),用于對(duì)模型在不需要 CoT 推理時(shí)錯(cuò)誤地啟動(dòng) CoT 推理的情況進(jìn)行懲罰。當(dāng)模型對(duì)簡(jiǎn)單查詢啟動(dòng)了不必要的 CoT 推理過程時(shí),Pover(x, r) 將發(fā)揮作用,懲罰系數(shù)為 α2。例如,模型對(duì) “誰是美國(guó)第一任總統(tǒng)?” 這類簡(jiǎn)單事實(shí)性查詢啟動(dòng)了 CoT 推理,則 Pover(x, r) = 1,模型將受到相應(yīng)的懲罰。
  • Pfmt(r) :用于對(duì)響應(yīng)格式錯(cuò)誤的情況進(jìn)行懲罰。如果模型生成的響應(yīng)不符合預(yù)定義的格式要求,如在需要 CoT 推理時(shí)未正確輸出推理步驟,或者在不需要 CoT 推理時(shí)出現(xiàn)了多余的推理內(nèi)容,Pfmt(r) 將對(duì)模型進(jìn)行懲罰,懲罰系數(shù)為 γ。例如,模型在不需要 CoT 推理時(shí),生成的響應(yīng)中包含了 “think” 標(biāo)簽內(nèi)的多余推理內(nèi)容,則 Pfmt(r) = 1,模型將受到懲罰。

通過調(diào)整懲罰系數(shù) α1、α2 和 γ,可以引導(dǎo)模型在不同查詢復(fù)雜性下探索最優(yōu)的推理策略。例如,當(dāng)增加 α1 的值時(shí),模型將更加傾向于啟動(dòng) CoT 推理過程,以避免因錯(cuò)過 CoT 推理而導(dǎo)致的懲罰;而增加 α2 的值,則會(huì)使模型更加謹(jǐn)慎地啟動(dòng) CoT 推理,避免不必要的推理開銷。

在訓(xùn)練過程中,模型通過不斷地試錯(cuò)和學(xué)習(xí),逐步收斂到 Pareto 前沿的解決方案。具體來說,模型在與環(huán)境交互過程中,根據(jù)當(dāng)前的策略生成響應(yīng),并計(jì)算相應(yīng)的獎(jiǎng)勵(lì)值。然后,模型根據(jù)獎(jiǎng)勵(lì)值對(duì)策略進(jìn)行更新,以期在未來獲得更高的累計(jì)獎(jiǎng)勵(lì)。這一過程反復(fù)進(jìn)行,直到模型的策略在不同查詢復(fù)雜性下達(dá)到最優(yōu)平衡。

為了更詳細(xì)地說明獎(jiǎng)勵(lì)函數(shù)的計(jì)算方法和模型的決策機(jī)制,下面以一個(gè)具體的例子進(jìn)行說明:

假設(shè)我們有一個(gè)數(shù)學(xué)問題求解的查詢:“已知三角形的三邊長(zhǎng)分別為 3、4、5,求這個(gè)三角形的面積?!?在訓(xùn)練過程中,模型可能會(huì)嘗試不同的策略:

  • 在某一次嘗試中,模型判斷這是一個(gè)簡(jiǎn)單查詢,直接給出了答案 “6”。此時(shí),模型的響應(yīng)不符合 CoT 推理的格式要求(未包含推理步驟),但答案是正確的。在這種情況下,Rbase(x, r) = 1(答案正確),Pfmt(r) = 1(格式錯(cuò)誤),Pmiss(x, r) = 0(模型未觸發(fā) CoT 推理,但答案正確,未造成性能損失),Pover(x, r) = 0(模型未觸發(fā) CoT 推理,符合實(shí)際情況)。根據(jù)獎(jiǎng)勵(lì)函數(shù)公式,模型的總獎(jiǎng)勵(lì)值將受到 Pfmt(r) 的懲罰,模型會(huì)根據(jù)這一懲罰信號(hào)調(diào)整策略,增加對(duì)格式正確性的關(guān)注。
  • 在另一次嘗試中,模型啟動(dòng)了 CoT 推理過程,逐步計(jì)算半周長(zhǎng)、應(yīng)用海倫公式等步驟,最終得出了正確答案。這時(shí),模型的響應(yīng)符合 CoT 推理的格式要求,Rbase(x, r) = 1(答案正確),Pfmt(r) = 0(格式正確),Pmiss(x, r) = 0(正確觸發(fā)了 CoT 推理),Pover(x, r) = 0(正確觸發(fā)了 CoT 推理)。模型獲得了較高的總獎(jiǎng)勵(lì)值,從而強(qiáng)化了這一正確的推理觸發(fā)策略。
  • 在又一次嘗試中,模型錯(cuò)誤地對(duì)一個(gè)需要 CoT 推理的復(fù)雜查詢(如一個(gè)需要多步邏輯推理的數(shù)學(xué)證明問題)未觸發(fā) CoT 推理,直接給出了錯(cuò)誤答案。此時(shí),Rbase(x, r) = 0(答案錯(cuò)誤),Pmiss(x, r) = 1(未觸發(fā) CoT 推理導(dǎo)致性能損失),Pfmt(r) = 0(格式符合簡(jiǎn)單查詢的要求),Pover(x, r) = 0(未觸發(fā) CoT 推理)。模型的總獎(jiǎng)勵(lì)值較低,模型將根據(jù)這一反饋信號(hào)調(diào)整策略,增加對(duì)復(fù)雜查詢的 CoT 推理觸發(fā)概率。

通過這種方式,模型逐漸學(xué)習(xí)到對(duì)于不同類型的查詢,如何觸發(fā) CoT 推理能夠獲得更高的獎(jiǎng)勵(lì),從而實(shí)現(xiàn)了推理觸發(fā)策略的優(yōu)化。

Selective Loss Masking(SLM)技術(shù)是 RL 階段的另一個(gè)重要?jiǎng)?chuàng)新。在多階段 RL 培訓(xùn)過程中,尤其是在處理具有偏斜 CoT 分布的數(shù)據(jù)集(例如數(shù)學(xué)數(shù)據(jù)集,CoT 推理幾乎總是有益的)時(shí),模型可能會(huì)出現(xiàn)決策邊界崩潰的現(xiàn)象。即模型可能會(huì)退化為始終啟動(dòng)或始終不啟動(dòng) CoT 推理的同質(zhì)化行為,從而失去在早期培訓(xùn)階段學(xué)到的精細(xì)決策能力。

SLM 技術(shù)通過選擇性地屏蔽關(guān)鍵 “決策token” 的損失貢獻(xiàn)來解決這一問題。在 RL 訓(xùn)練過程中,當(dāng)模型的輸出接近決策token(即 “think” 標(biāo)簽)時(shí),SLM 會(huì)暫時(shí)忽略該token的損失計(jì)算。具體來說,SLM 通過以下步驟實(shí)現(xiàn):

  1.  識(shí)別決策token :在模型生成的響應(yīng)序列中,定位到表示 CoT 推理開始的 “think” 標(biāo)簽及其對(duì)應(yīng)的結(jié)束標(biāo)簽 “/think”。這兩個(gè)標(biāo)簽之間的內(nèi)容即為 CoT 推理部分,而 “think” 標(biāo)簽本身是決定是否啟動(dòng) CoT 推理的關(guān)鍵決策token。
  2.  屏蔽損失計(jì)算 :在計(jì)算損失函數(shù)時(shí),對(duì)于決策token “think” 的損失貢獻(xiàn)進(jìn)行屏蔽,即不將其納入總的損失計(jì)算中。這樣,模型在訓(xùn)練過程中不會(huì)因?yàn)閱我粵Q策token的錯(cuò)誤而受到過大的損失影響,從而能夠更好地保持對(duì) CoT 推理觸發(fā)比率和分布的穩(wěn)定性。
  3. 與模型優(yōu)化相結(jié)合 :SLM 技術(shù)與模型的優(yōu)化過程緊密結(jié)合。在每次迭代更新模型參數(shù)時(shí),SLM 確保模型在學(xué)習(xí)其他部分(如 CoT 推理內(nèi)容、最終答案等)的同時(shí),不會(huì)過度擬合于決策token的預(yù)測(cè),從而維持了模型對(duì) CoT 推理觸發(fā)決策的泛化能力。

例如,在數(shù)學(xué)問題求解數(shù)據(jù)集的 RL 訓(xùn)練中,由于大部分查詢都需要 CoT 推理,模型可能會(huì)傾向于總是啟動(dòng) CoT 推理。通過應(yīng)用 SLM 技術(shù),當(dāng)模型在某些簡(jiǎn)單查詢上錯(cuò)誤地啟動(dòng) CoT 推理時(shí),SLM 會(huì)屏蔽這一決策token的損失貢獻(xiàn),使得模型能夠有機(jī)會(huì)調(diào)整其策略,而不會(huì)因?yàn)檫@一錯(cuò)誤決策而導(dǎo)致整個(gè)訓(xùn)練過程的偏差過大。實(shí)驗(yàn)結(jié)果顯示,應(yīng)用 SLM 技術(shù)后,模型在保持 CoT 推理觸發(fā)比率方面表現(xiàn)出顯著的穩(wěn)定性提升,其自適應(yīng) CoT 推理觸發(fā)能力得到了有效增強(qiáng)。

實(shí)驗(yàn)評(píng)估

實(shí)驗(yàn)設(shè)置細(xì)化

實(shí)驗(yàn)所用的 LLM 基礎(chǔ)模型是一個(gè)內(nèi)部的 15B/150B 參數(shù)的 Mixture-of-Experts(MoE)模型。MoE 模型是一種高效的模型架構(gòu),通過在不同的輸入數(shù)據(jù)上激活不同的專家網(wǎng)絡(luò),從而在保持模型性能的同時(shí)降低了計(jì)算成本。該模型具有大規(guī)模的參數(shù)量,能夠捕捉復(fù)雜的語言模式和語義信息,為 AdaCoT 框架的實(shí)現(xiàn)提供了強(qiáng)大的基礎(chǔ)支持。

SFT 和 RL 訓(xùn)練數(shù)據(jù)集的構(gòu)建過程經(jīng)過精心設(shè)計(jì),以確保數(shù)據(jù)的多樣性和代表性。數(shù)據(jù)來源廣泛涵蓋了多個(gè)領(lǐng)域,包括數(shù)學(xué)、推理、專業(yè)學(xué)科(如法律、醫(yī)學(xué))、對(duì)話、創(chuàng)造性寫作和一般知識(shí)問答等。這種廣泛的領(lǐng)域覆蓋確保了模型能夠?qū)W習(xí)到不同類型任務(wù)的特征和需求,從而在實(shí)際應(yīng)用中具有更好的適應(yīng)性。

在數(shù)據(jù)集的構(gòu)建過程中,研究者們采用了原則引導(dǎo)的評(píng)估方法對(duì) CoT 必要性進(jìn)行標(biāo)注。具體來說,對(duì)于每個(gè)查詢,輔助模型根據(jù)預(yù)定義的原則(如查詢復(fù)雜性、預(yù)期推理深度、領(lǐng)域等)進(jìn)行評(píng)估,判斷其是否需要 CoT 推理。在 SFT 數(shù)據(jù)集的標(biāo)注過程中,大約 67% 的樣本被標(biāo)記為需要 CoT 推理,而在 RL 數(shù)據(jù)集中,這一比例約為 40%。這種標(biāo)注比例反映了不同數(shù)據(jù)集在查詢復(fù)雜性分布上的差異,同時(shí)也為模型在不同階段的訓(xùn)練提供了合適的指導(dǎo)。

實(shí)驗(yàn)評(píng)估涉及到 15 個(gè)開源基準(zhǔn)數(shù)據(jù)集,這些數(shù)據(jù)集在特性和評(píng)估指標(biāo)上各具特色。例如,MMLU-Pro 數(shù)據(jù)集是一個(gè)增強(qiáng)版的多任務(wù)語言理解基準(zhǔn)測(cè)試,專注于復(fù)雜推理問題;SuperGPQA 數(shù)據(jù)集則涵蓋了 285 個(gè)研究生學(xué)科的知識(shí)和推理能力評(píng)估;還有 AIME24 & AIME25 數(shù)據(jù)集,用于評(píng)估數(shù)學(xué)推理和問題解決能力。這些數(shù)據(jù)集從不同角度對(duì)模型的性能進(jìn)行了全面的測(cè)試,確保了評(píng)估結(jié)果的可靠性和有效性。

此外,研究者們還精心創(chuàng)建了一個(gè)包含 1000 個(gè)日常使用提示的測(cè)試集。這些提示涵蓋了各種類型的查詢,從簡(jiǎn)單事實(shí)性問題到復(fù)雜推理任務(wù),具有廣泛的難度分布。為了確保標(biāo)注的準(zhǔn)確性,這些提示的標(biāo)注結(jié)果經(jīng)過了人工驗(yàn)證。通過這種方式,研究者們構(gòu)建了一個(gè)高質(zhì)量的測(cè)試集,用于評(píng)估模型在實(shí)際應(yīng)用場(chǎng)景中的自適應(yīng) CoT 推理觸發(fā)性能。

Pareto 前沿深度分析

在 15 個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,AdaCoT RL 模型變體(Exp1-Exp4)在平均得分與 CoT 觸發(fā)率的關(guān)系曲線上,形成了明顯的改進(jìn) Pareto 前沿。與基線模型相比,AdaCoT 模型在不同的懲罰系數(shù)設(shè)置下,實(shí)現(xiàn)了性能和 CoT 成本之間的有效權(quán)衡。

例如,AdaCoT RL Exp2 模型在 53.3% 的 CoT 觸發(fā)率下,達(dá)到了 62.8% 的平均得分,接近全 CoT RL 基線模型(100% CoT 觸發(fā)率,65.0% 平均得分)的性能。這表明 AdaCoT 模型能夠在大幅降低 CoT 使用成本的同時(shí),保持較高的模型性能。而 AdaCoT RL Exp4 模型在 67.7% 的 CoT 觸發(fā)率下,平均得分達(dá)到了 64.4%,進(jìn)一步縮小了與全 CoT RL 基線模型的差距。

通過對(duì)比不同模型的性能表現(xiàn),我們可以更深入地理解 AdaCoT 模型在不同 CoT 觸發(fā)率下的性能變化趨勢(shì)。例如,隨著 CoT 觸發(fā)率的增加,模型的平均得分逐漸提高,但提高的幅度逐漸減小。這表明在一定范圍內(nèi),增加 CoT 的使用能夠顯著提升模型性能,但超過某一閾值后,繼續(xù)增加 CoT 使用帶來的性能提升有限。同時(shí),與基線模型相比,AdaCoT 模型在大多數(shù)情況下都能以更低的 CoT 觸發(fā)率實(shí)現(xiàn)相近甚至更高的性能,充分展示了其在性能和成本之間權(quán)衡的優(yōu)勢(shì)。

圖片

平均分?jǐn)?shù)與15個(gè)廣泛采用的基準(zhǔn)測(cè)試中的CoT觸發(fā)率對(duì)比

在此過程中繪制的模型性能與 CoT 觸發(fā)率關(guān)系圖如上圖所示,不同模型在圖中的位置直觀地體現(xiàn)了它們?cè)谛阅芎统杀局g的平衡狀態(tài)。藍(lán)色點(diǎn)代表基線模型,綠色點(diǎn)代表 AdaCoT SFT 模型,橙色點(diǎn)代表 AdaCoT RL 模型,橙色虛線和陰影區(qū)域展示了相比基線改進(jìn)的 Pareto 前沿,虛線連接了無 CoT RL 基線和全 CoT RL 基線,描繪了一個(gè)更簡(jiǎn)單的權(quán)衡曲線。這一圖形化展示有助于讀者迅速把握 AdaCoT 框架相較于傳統(tǒng)方法在多目標(biāo)優(yōu)化上的優(yōu)勢(shì),明晰其在不同觸發(fā)率下性能的相對(duì)位置及改進(jìn)幅度。

自適應(yīng) CoT 觸發(fā)性能評(píng)估

基于日常使用提示測(cè)試集的實(shí)驗(yàn)結(jié)果,AdaCoT 模型在不同訓(xùn)練階段的自適應(yīng) CoT 觸發(fā)性能得到了全面評(píng)估。在 SFT 階段,模型的 CoT 觸發(fā)準(zhǔn)確性達(dá)到了 79.5%,F(xiàn)1 分?jǐn)?shù)為 75.0%,召回率為 61.6%,精確率為 95.9%。這些結(jié)果表明,經(jīng)過 SFT 階段的訓(xùn)練,模型已經(jīng)具備了一定的自適應(yīng) CoT 觸發(fā)能力,能夠在大多數(shù)情況下正確判斷是否需要啟動(dòng) CoT 推理過程。

在 RL-Math 階段,未應(yīng)用 SLM 技術(shù)時(shí),模型的性能出現(xiàn)了顯著的退化。其 CoT 觸發(fā)準(zhǔn)確性僅為 50.6%,F(xiàn)1 分?jǐn)?shù)為 66.9%,召回率為 1.0,精確率為 0.503。這表明模型在這一階段幾乎總是啟動(dòng) CoT 推理過程,導(dǎo)致了大量的誤觸發(fā)。然而,當(dāng)應(yīng)用 SLM 技術(shù)后,模型的性能得到了顯著提升。CoT 觸發(fā)準(zhǔn)確性提高到了 81.3%,F(xiàn)1 分?jǐn)?shù)為 78.1%,召回率為 0.670,精確率為 0.938。這一結(jié)果充分證明了 SLM 技術(shù)在穩(wěn)定模型自適應(yīng)觸發(fā)能力方面的重要作用。

在 RL-General 階段,通過調(diào)整懲罰系數(shù) α1 和 α2,模型的決策邊界得到了進(jìn)一步優(yōu)化。例如,AdaCoT RL Model Exp2 在這一階段的 CoT 觸發(fā)準(zhǔn)確性達(dá)到了 81.6%,F(xiàn)1 分?jǐn)?shù)為 81.4%,召回率為 0.804,精確率為 0.823。這些結(jié)果表明,經(jīng)過 RL-General 階段的訓(xùn)練,模型能夠在更廣泛的查詢類型上實(shí)現(xiàn)精確的 CoT 推理觸發(fā)決策。

圖片

不同AdaCoT階段和配置在1000個(gè)日常使用提示測(cè)試集上的CoT觸發(fā)表現(xiàn)(正類:需要CoT)。RL-Math是數(shù)學(xué)專項(xiàng)強(qiáng)化學(xué)習(xí)階段;RL-General指的是最終模型

上表展示了不同 AdaCoT 階段和配置在 1000 個(gè)日常使用提示測(cè)試集上的 CoT 觸發(fā)性能,其中陽性類別表示需要 CoT。從表中可以看出,隨著訓(xùn)練的推進(jìn)和 SLM 技術(shù)的應(yīng)用,模型的性能指標(biāo)呈現(xiàn)出逐步提升的趨勢(shì),尤其在 RL-General 階段,各模型的準(zhǔn)確率、F1 分?jǐn)?shù)等關(guān)鍵指標(biāo)均達(dá)到了較高水平,直觀地反映了模型自適應(yīng) CoT 觸發(fā)能力的不斷增強(qiáng)過程,為讀者提供了詳細(xì)的性能對(duì)比數(shù)據(jù),有助于深入理解 AdaCoT 框架在不同訓(xùn)練階段的優(yōu)化效果及最終的性能表現(xiàn)。

元推理策略在 SFT 階段的應(yīng)用也取得了顯著的效果。通過在 SFT 階段引入元推理機(jī)制,模型的 F1 分?jǐn)?shù)從 0.750 提高到了 0.840。這一提升表明,元推理策略能夠增強(qiáng)模型對(duì)查詢復(fù)雜性的評(píng)估能力,從而優(yōu)化 CoT 推理觸發(fā)決策。例如,在面對(duì)復(fù)雜查詢時(shí),模型能夠更加準(zhǔn)確地識(shí)別其復(fù)雜性,及時(shí)啟動(dòng) CoT 推理過程;而在面對(duì)簡(jiǎn)單查詢時(shí),模型則能夠更加自信地直接給出答案,避免不必要的推理開銷。

圖片

包含明確元推理(meta-reasoning)以用于因果鏈(Chain of Thought,CoT)決策的示例回答結(jié)構(gòu)

上圖展示了包含顯式元推理的響應(yīng)結(jié)構(gòu)示例,這種結(jié)構(gòu)使模型能夠先對(duì)查詢復(fù)雜性進(jìn)行自我評(píng)估,再?zèng)Q定是否進(jìn)行詳細(xì)推理。例如,對(duì)于復(fù)雜查詢,模型先輸出 “這是一個(gè)相對(duì)復(fù)雜的問題,我需要仔細(xì)思考”,隨后展開正式的 CoT 推理;而對(duì)于簡(jiǎn)單查詢,則直接判斷 “這是一個(gè)簡(jiǎn)單問題,可以直接作答”,然后給出答案。這種響應(yīng)結(jié)構(gòu)的可視化呈現(xiàn),有助于讀者直觀地理解元推理在實(shí)際推理決策中的應(yīng)用方式,清晰地展現(xiàn)了模型如何通過元推理來控制 CoT 的觸發(fā),進(jìn)一步提升了文章的可讀性和技術(shù)細(xì)節(jié)的透明度。

響應(yīng)長(zhǎng)度減少與效率提升量化分析

在生產(chǎn)流量測(cè)試集上的實(shí)驗(yàn)結(jié)果進(jìn)一步展示了 AdaCoT 模型在實(shí)際應(yīng)用場(chǎng)景中的效率提升效果。以移動(dòng)設(shè)備為例,AdaCoT RL Model Exp2 的平均響應(yīng)token數(shù)為 116.70,相較于全 CoT RL 基線模型的 377.18,減少了 69.1%。同時(shí),CoT 觸發(fā)率也從 100% 降低到了 3.18%。在 PC 端,AdaCoT RL Model Exp2 的平均響應(yīng)token數(shù)為 405.25,相較于全 CoT RL 基線模型的 1376.31,減少了 70.6%,CoT 觸發(fā)率降低到了 12.50%。

圖片

在生產(chǎn)流量測(cè)試集上,AdaCoT RL模型Exp2與完整CoT RL基線的平均響應(yīng)token數(shù)(標(biāo)注了減少量)和CoT觸發(fā)率對(duì)比

上表直觀地呈現(xiàn)了 AdaCoT RL Model Exp2 與全 CoT RL 基線模型在生產(chǎn)流量測(cè)試集上的平均響應(yīng)token數(shù)及 CoT 觸發(fā)率對(duì)比情況。通過具體數(shù)據(jù)的比較,讀者可以清晰地看到 AdaCoT 模型在實(shí)際應(yīng)用中帶來的顯著效率提升和成本降低效果。這對(duì)于關(guān)注模型部署和運(yùn)營(yíng)成本的讀者來說,提供了有力的數(shù)據(jù)支持,增強(qiáng)了文章的說服力和實(shí)用性。

這種顯著的響應(yīng)長(zhǎng)度減少和 CoT 觸發(fā)率降低,直接轉(zhuǎn)化為計(jì)算成本的大幅降低和系統(tǒng)效率的顯著提升。例如,對(duì)于一個(gè)擁有大量用戶的移動(dòng)應(yīng)用來說,采用 AdaCoT 模型后,服務(wù)器的計(jì)算負(fù)載將大幅減輕,響應(yīng)時(shí)間也將顯著縮短。這不僅能夠降低運(yùn)營(yíng)成本,還能夠提升用戶體驗(yàn),使應(yīng)用在市場(chǎng)中更具競(jìng)爭(zhēng)力。

討論與未來工作

設(shè)計(jì)考量與局限性深度剖析

AdaCoT 框架的設(shè)計(jì)理念是在模型性能和推理效率之間實(shí)現(xiàn)平衡。通過結(jié)合原則引導(dǎo)的初始數(shù)據(jù)標(biāo)注與基于 RL 的 CoT 決策邊界優(yōu)化,AdaCoT 能夠根據(jù)查詢的復(fù)雜程度智能地調(diào)整 CoT 推理的觸發(fā)策略。這種設(shè)計(jì)使得 AdaCoT 框架在保證復(fù)雜任務(wù)高性能的同時(shí),大幅降低了簡(jiǎn)單查詢的推理成本,從而在整體上提高了 LLM 的效率和經(jīng)濟(jì)性。

然而,AdaCoT 框架也存在一些局限性。首先,其對(duì)不同 LLM 的適配性是一個(gè)需要考慮的問題。由于不同 LLM 的架構(gòu)、參數(shù)規(guī)模和性能特點(diǎn)存在差異,AdaCoT 框架在應(yīng)用于不同的 LLM 時(shí),可能需要進(jìn)行相應(yīng)的調(diào)整和優(yōu)化。例如,對(duì)于一些較小的 LLM,其計(jì)算資源有限,可能需要簡(jiǎn)化 AdaCoT 的訓(xùn)練流程,如減少 SFT 和 RL 階段的訓(xùn)練數(shù)據(jù)量、降低模型的參數(shù)更新頻率等,以適應(yīng)其有限的計(jì)算資源。同時(shí),不同 LLM 的架構(gòu)差異也會(huì)影響 AdaCoT 框架的適配性。例如,基于 Transformer 的 LLM 和基于 RNN 的 LLM 在處理序列數(shù)據(jù)和生成響應(yīng)方面存在差異,這可能導(dǎo)致 AdaCoT 框架在不同架構(gòu)的 LLM 上的表現(xiàn)不同。針對(duì)這一問題,可以采用模型架構(gòu)轉(zhuǎn)換方法,將 AdaCoT 框架的關(guān)鍵組件(如 CoT 觸發(fā)決策模塊)適配到不同架構(gòu)的 LLM 中,或者設(shè)計(jì)可調(diào)整的訓(xùn)練超參數(shù),使框架能夠根據(jù)不同 LLM 的特點(diǎn)進(jìn)行自適應(yīng)調(diào)整。

其次,AdaCoT 框架目前采用的是二元 CoT 調(diào)用機(jī)制,即 CoT 推理要么完全啟動(dòng),要么完全不啟動(dòng)。這種簡(jiǎn)化方式雖然在一定程度上降低了模型的復(fù)雜性,但也限制了對(duì)推理深度和風(fēng)格的精細(xì)化控制。在實(shí)際應(yīng)用中,不同的查詢可能需要不同程度的推理深度,而 AdaCoT 框架的二元機(jī)制無法滿足這一需求。為了解決這一問題,可以引入多級(jí) CoT 調(diào)用閾值,根據(jù)查詢的復(fù)雜程度動(dòng)態(tài)調(diào)整 CoT 推理的深度。例如,對(duì)于中等復(fù)雜度的查詢,可以啟動(dòng)部分推理步驟,而不是完全啟動(dòng)或關(guān)閉 CoT 推理。此外,還可以采用基于連續(xù)推理深度的調(diào)整策略,通過構(gòu)建一個(gè)連續(xù)的推理深度控制機(jī)制,使模型能夠根據(jù)查詢的復(fù)雜性連續(xù)地調(diào)整推理深度。這些改進(jìn)方法雖然在實(shí)現(xiàn)上具有一定的可行性,但也面臨著一些挑戰(zhàn),如如何確定多級(jí)閾值的具體設(shè)置,如何設(shè)計(jì)連續(xù)推理深度控制機(jī)制以確保模型的穩(wěn)定性和性能等。

此外,領(lǐng)域泛化也是一個(gè)挑戰(zhàn)。不同知識(shí)領(lǐng)域的查詢具有不同的特征和推理需求,而 AdaCoT 框架目前在跨領(lǐng)域適應(yīng)性方面還有待提高。例如,在法律領(lǐng)域和醫(yī)學(xué)領(lǐng)域的查詢可能需要不同的推理策略和知識(shí)背景,AdaCoT 框架需要進(jìn)一步優(yōu)化以更好地適應(yīng)不同領(lǐng)域的查詢特點(diǎn)。為了提高領(lǐng)域泛化能力,可以采用領(lǐng)域自適應(yīng)算法,如在訓(xùn)練數(shù)據(jù)中增加不同領(lǐng)域的樣本比例,設(shè)計(jì)領(lǐng)域特定的特征提取模塊等,使模型能夠更好地捕捉不同領(lǐng)域的查詢特征和推理需求。同時(shí),還可以引入領(lǐng)域?qū)<抑R(shí),通過與領(lǐng)域?qū)<液献?,?duì)模型的 CoT 推理觸發(fā)策略進(jìn)行領(lǐng)域特定的優(yōu)化,從而提升模型在不同領(lǐng)域的適應(yīng)性。

最后,AdaCoT 框架缺乏對(duì)用戶對(duì)模型冗長(zhǎng)偏好個(gè)性化的需求滿足。不同的用戶可能對(duì)模型的回答風(fēng)格和詳細(xì)程度有不同的偏好,而 AdaCoT 框架目前無法根據(jù)用戶的個(gè)性化需求動(dòng)態(tài)調(diào)整 CoT 推理的觸發(fā)策略。這在一定程度上影響了用戶體驗(yàn)和模型的適用范圍。為了解決這一問題,可以開發(fā)用戶偏好自定義功能,通過收集用戶的反饋信息(如用戶對(duì)模型回答的滿意度評(píng)價(jià)、用戶對(duì)回答風(fēng)格的偏好設(shè)置等),構(gòu)建用戶偏好模型。然后,將用戶偏好模型與 AdaCoT 框架相結(jié)合,使模型能夠根據(jù)用戶的個(gè)性化需求動(dòng)態(tài)調(diào)整 CoT 推理的觸發(fā)方式和推理深度,從而提升用戶體驗(yàn)。

圖片

詳細(xì)基準(zhǔn)數(shù)據(jù)集的分?jǐn)?shù)?!癟R”表示推理觸發(fā)率(%)

上表列出了各基準(zhǔn)數(shù)據(jù)集上的詳細(xì)測(cè)試成績(jī),其中 “TR” 表示推理觸發(fā)率。這些數(shù)據(jù)涵蓋了不同領(lǐng)域的測(cè)試結(jié)果,包括數(shù)學(xué)、常識(shí)問答、專業(yè)學(xué)科等多個(gè)方面,反映了 AdaCoT 模型在各類任務(wù)中的性能表現(xiàn)及推理觸發(fā)頻率。通過該表格,讀者可以詳細(xì)了解模型在各個(gè)具體數(shù)據(jù)集上的得分情況,深入分析其優(yōu)勢(shì)領(lǐng)域和待提升方向,為后續(xù)研究提供了豐富的數(shù)據(jù)基礎(chǔ)和改進(jìn)參考,有助于全面評(píng)估 AdaCoT 框架的實(shí)際應(yīng)用價(jià)值和廣泛適用性。

元推理在推理決策中的應(yīng)用案例分析

元推理策略在推理決策中的應(yīng)用為 AdaCoT 框架帶來了顯著的優(yōu)勢(shì)。以下是一些具體的實(shí)際問答場(chǎng)景案例分析:

案例 1:歷史創(chuàng)意問題

原始問題:“玄武門之變的夜晚,李世民獨(dú)自一人會(huì)寫些什么?”

模型在接收到這一問題后,首先通過元推理機(jī)制快速評(píng)估查詢的復(fù)雜性。它識(shí)別到這是一個(gè)涉及歷史背景、人物心理和創(chuàng)意寫作的復(fù)雜問題。因此,模型決定啟動(dòng) CoT 推理過程,逐步展開對(duì)歷史背景的分析、人物心理的揣摩以及可能的寫作內(nèi)容的構(gòu)思。最終,模型生成了一段詳細(xì)而富有創(chuàng)意的回答,既體現(xiàn)了李世民作為政治家的果斷與謀略,又展現(xiàn)了其作為普通人內(nèi)心的矛盾與不安。

修改后的問題:“直接作答,無需深入思考:玄武門之變的夜晚,李世民獨(dú)自一人會(huì)寫些什么?”

在這一問題中,用戶明確要求模型無需進(jìn)行深入思考。模型通過元推理機(jī)制識(shí)別到這一指令,判斷查詢的復(fù)雜性較低,因此決定不啟動(dòng) CoT 推理過程。模型直接根據(jù)已有的知識(shí)和創(chuàng)意模板,生成了一段簡(jiǎn)潔的回答,滿足了用戶對(duì)簡(jiǎn)短答案的需求。

案例 2:事實(shí)性問題

原始問題:“世界上最高的山峰是哪座?”

模型在接收到這一問題后,通過元推理機(jī)制迅速判斷這是一個(gè)簡(jiǎn)單的事實(shí)性問題。它直接從知識(shí)庫中檢索相關(guān)信息,無需啟動(dòng) CoT 推理過程,快速生成了準(zhǔn)確的答案:“世界上最高的山峰是珠穆朗瑪峰,海拔高度為 8848.86 米。”

修改后的問題:“經(jīng)過仔細(xì)思考后回答:世界上最高的山峰是哪座?”

盡管用戶要求經(jīng)過仔細(xì)思考,但模型通過元推理機(jī)制識(shí)別到這一問題的本質(zhì)仍然是一個(gè)簡(jiǎn)單的事實(shí)性查詢。為了滿足用戶對(duì)思考過程的要求,模型在回答中加入了對(duì)不同衡量標(biāo)準(zhǔn)(如海拔高度、從基底到山頂?shù)母叨鹊龋┑暮?jiǎn)要說明,同時(shí)強(qiáng)調(diào)了在常規(guī)地理語境下,珠穆朗瑪峰被公認(rèn)為世界最高峰。通過這種方式,模型在滿足用戶需求的同時(shí),避免了不必要的復(fù)雜推理過程。

保留值性能的實(shí)驗(yàn)驗(yàn)證與分析

通過系統(tǒng)提示(SPs)控制 AdaCoT 的 CoT 推理觸發(fā)行為,研究者們?cè)诙鄠€(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果顯示,當(dāng)明確要求模型始終啟動(dòng) CoT 推理時(shí),AdaCoT 模型的平均得分與專門的始終開啟 CoT 模型相當(dāng),甚至在某些情況下略有超越。

例如,在 AIME24 數(shù)據(jù)集上,AdaCoT RL Model Exp3 在始終開啟 CoT 推理的情況下,平均得分為 88.0,超過了全 CoT RL 基線模型的 84.7。在 AIME25 數(shù)據(jù)集上,AdaCoT RL Model Exp2 的平均得分為 75.7,同樣超過了全 CoT RL 基線模型的 70.0。

圖片

在“始終推理”系統(tǒng)提示與完整CoT強(qiáng)化學(xué)習(xí)基線模型下,AdaCoT強(qiáng)化學(xué)習(xí)模型的表現(xiàn),展現(xiàn)了峰值性能的保持。這些指標(biāo)是在15個(gè)基準(zhǔn)數(shù)據(jù)集上平均得出的

上表展示了在 “始終推理” 系統(tǒng)提示下 AdaCoT RL 模型相較于全 CoT RL 基線的性能表現(xiàn),指標(biāo)為 15 個(gè)基準(zhǔn)數(shù)據(jù)集上的平均得分。從表中可以看出,多數(shù)模型在此提示下的平均得分接近甚至超過基線模型,有力地證明了 AdaCoT 框架在確保模型峰值推理能力方面的有效性,即使在自適應(yīng)觸發(fā)模式下,也能通過特定系統(tǒng)提示恢復(fù)至與始終開啟 CoT 相當(dāng)?shù)男阅芩?,為讀者提供了明確的數(shù)據(jù)支持,增強(qiáng)了對(duì) AdaCoT 框架在關(guān)鍵場(chǎng)景下性能保障能力的信心。

這些結(jié)果表明,AdaCoT 框架在明確要求全面推理時(shí),能夠保留峰值推理能力。這主要得益于 AdaCoT 在訓(xùn)練過程中采用的多樣化數(shù)據(jù)和優(yōu)化策略。通過在訓(xùn)練數(shù)據(jù)中包含非 CoT 示例,模型在學(xué)習(xí)過程中不僅能夠優(yōu)化 CoT 推理的觸發(fā)策略,還能夠提升其對(duì)復(fù)雜推理任務(wù)的處理能力。同時(shí),強(qiáng)化學(xué)習(xí)的優(yōu)化機(jī)制使得模型能夠在不同的推理需求下,靈活調(diào)整其推理策略,從而在保證簡(jiǎn)單查詢高效處理的同時(shí),保持對(duì)復(fù)雜任務(wù)的高性能表現(xiàn)。

總結(jié)、展望

通過了解 AdaCoT 框架,我認(rèn)識(shí)到 AdaCoT 框架通過將自適應(yīng)推理觸發(fā)機(jī)制與強(qiáng)化學(xué)習(xí)相結(jié)合,巧妙地解決了大型語言模型(LLM)在復(fù)雜推理任務(wù)中面臨的高成本和低效率問題。它不僅在理論上構(gòu)建了一個(gè)多目標(biāo)優(yōu)化的解決方案,更在實(shí)踐中通過大量實(shí)驗(yàn)驗(yàn)證了其有效性。

從技術(shù)層面來看,AdaCoT 的核心思想是根據(jù)查詢的復(fù)雜程度智能地決定是否啟動(dòng) CoT 推理過程。這種自適應(yīng)的觸發(fā)機(jī)制在保證復(fù)雜任務(wù)高性能的同時(shí),顯著降低了簡(jiǎn)單查詢的推理成本。通過 Pareto 優(yōu)化理論和強(qiáng)化學(xué)習(xí)方法的結(jié)合,AdaCoT 框架能夠在模型性能和 CoT 使用成本之間實(shí)現(xiàn)最佳平衡。實(shí)驗(yàn)結(jié)果表明,AdaCoT 模型在多個(gè)基準(zhǔn)數(shù)據(jù)集上的性能表現(xiàn)優(yōu)異,同時(shí)大幅減少了 CoT 的使用頻率,降低了計(jì)算成本。

在了解這個(gè)AdaCoT 框架的過程中,它具有一些亮點(diǎn)特性。它將模型性能和 CoT 使用成本這兩個(gè)相互競(jìng)爭(zhēng)的目標(biāo)整合到一個(gè)多目標(biāo)優(yōu)化框架中,并利用強(qiáng)化學(xué)習(xí)動(dòng)態(tài)調(diào)整決策邊界。這種設(shè)計(jì)不僅展現(xiàn)了研究者對(duì)問題的深刻洞察,也體現(xiàn)了他們?cè)诩夹g(shù)創(chuàng)新上的能力。此外,Selective Loss Masking(SLM)技術(shù)的引入,有效解決了決策邊界崩潰的問題,進(jìn)一步增強(qiáng)了模型的穩(wěn)定性和性能。

通過對(duì)實(shí)驗(yàn)數(shù)據(jù)和圖表的觀察,我直觀地感受到了 AdaCoT 框架的優(yōu)勢(shì)。例如,在 Pareto 前沿分析中,AdaCoT 模型在不同 CoT 觸發(fā)率下的性能表現(xiàn)明顯優(yōu)于基線模型,展示了其在性能和成本之間權(quán)衡的有效性。同時(shí),響應(yīng)長(zhǎng)度減少與效率提升的量化分析也讓我看到了 AdaCoT 框架在實(shí)際應(yīng)用中的巨大潛力。它不僅降低了計(jì)算成本,還顯著縮短了響應(yīng)時(shí)間,提升了用戶體驗(yàn)。

當(dāng)然,AdaCoT 框架也存在一些局限性。如何提高其對(duì)不同 LLM 的適配性、探索更精細(xì)的 CoT 調(diào)用機(jī)制、加強(qiáng)領(lǐng)域泛化能力以及滿足用戶個(gè)性化需求,這些都是需要解決的問題。例如,引入多級(jí) CoT 調(diào)用閾值、采用領(lǐng)域自適應(yīng)算法、開發(fā)用戶偏好自定義功能等方法,有望進(jìn)一步提升 AdaCoT 框架的性能和適用性。

總體來看,AdaCoT 框架的研究讓我在技術(shù)層面和研究方法上都受益匪淺。關(guān)于自適應(yīng)思考的文章,之前已發(fā)了兩篇,大家可以選擇對(duì)比著來看。它們分別是《AdaptThink:推理模型的自適應(yīng)思考范式》和《Thinkless框架:讓LLM學(xué)會(huì)“聰明偷懶”的智慧》。各位,看過此文有什么感想?如有其他想法可以在評(píng)論區(qū)留言,我們聊聊?;蛘呒尤搿坝X察流”社區(qū)群,與群里的小伙伴一起學(xué)習(xí)、交流。加入方法,私信回復(fù)“入群”“加群”即可。

參考資料


責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-06-05 06:36:17

2025-06-10 02:30:00

智能體ARTIST強(qiáng)化學(xué)習(xí)

2025-06-03 03:15:00

2025-06-26 09:06:59

2024-09-30 14:40:00

AI強(qiáng)化學(xué)習(xí)框架

2023-07-20 15:18:42

2022-12-01 08:00:00

2025-05-27 15:28:47

模型推理AI

2024-09-29 09:36:31

2025-01-26 11:00:00

2023-07-19 16:22:00

Hudi機(jī)器學(xué)習(xí)

2025-03-21 13:00:54

2025-05-28 02:40:00

AdaptThink推理模型AI

2022-12-21 17:27:30

強(qiáng)化學(xué)習(xí)AI

2025-04-18 12:25:34

2022-05-13 12:46:06

開源深度學(xué)習(xí)技術(shù)

2017-07-14 16:24:48

TensorFlow框架開發(fā)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2024-03-14 14:16:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)