偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

NeurIPS 2024 (Oral) | 如何量化與提升思維鏈的推理能力邊界?

人工智能 新聞
本研究提出了一個推理邊界(RB)框架,系統(tǒng)量化并優(yōu)化大語言模型(LLMs)在思維鏈(CoT)任務(wù)中的推理能力邊界。

本篇工作已被 NeurIPS(Conference on Neural Information Processing Systems)2024 會議接收,并被評為  Oral Presentation (72/4553) 。該文章的第一作者陳麒光,目前就讀于哈工大賽爾實驗室。他的主要研究方向包括大模型思維鏈、跨語言大模型等。

該研究主要提出了推理邊界框架(Reasoning Boundary Framework, RBF),首次嘗試量化并優(yōu)化思維鏈推理能力。

圖片

  • 論文鏈接:https://arxiv.org/abs/2410.05695
  • 代碼地址:https://github.com/LightChen233/reasoning-boundary

1. 大型語言模型(LLMs)與思維鏈推理能力

什么是思維鏈(Chain-of-Thought, CoT)?

近年來,大型語言模型(LLMs) 在處理各種復(fù)雜任務(wù)中取得了長足進展,從文本生成到問題解答,LLMs 幾乎無所不能。然而,面對復(fù)雜的推理任務(wù),LLMs 也存在瓶頸 —— 模型往往容易跳過推理的中間步驟,直接生成最終答案,這使得它們在應(yīng)對復(fù)雜問題時容易犯錯。

思維鏈推理(CoT) 是一種讓模型分步推理復(fù)雜問題的方法。與傳統(tǒng)模型的直接生成答案不同,CoT 通過逐步細(xì)化問題的每一步,從而得到更準(zhǔn)確、更有邏輯的結(jié)果。

為什么它如此重要?

為什么 CoT 很重要?因為面對復(fù)雜的推理任務(wù),模型往往會因為信息量大、推理路徑復(fù)雜而犯錯。CoT 的逐步推理策略使模型能夠處理更具挑戰(zhàn)性的任務(wù) —— 從數(shù)學(xué)題解到現(xiàn)實決策問題,它能幫助模型分解任務(wù),找到每個步驟的最佳解法。

這不僅提升了模型的準(zhǔn)確性,還顯著增強了它處理復(fù)雜任務(wù)的能力,使其能夠應(yīng)用于更廣泛的實際場景中。

2. 模型推理的困境:復(fù)雜任務(wù)中的可解釋性難題

想象這樣一個情景 :你正在處理一個復(fù)雜的項目,需要模型綜合多種能力,最終通過多步推理找到最優(yōu)解決方案,那么這些能力和推理能力是如何組合,共同影響并改進最終性能的呢?

為了解決該問題,該文章通過研究以下幾個問題來理解和解決這個問題。

圖片

2.1 模型在面對復(fù)雜推理時,如何對推理能力進行量化?

當(dāng)前多數(shù)研究依賴定性分析,缺乏統(tǒng)一的量化指標(biāo)來系統(tǒng)比較不同的 CoT 推理方法。這種局限性導(dǎo)致研究者難以精確評估和預(yù)測模型在復(fù)雜任務(wù)中的推理能力上限,阻礙了對 CoT 推理效果的深入理解和科學(xué)驗證。

為此,研究人員提出推理邊界框架(Reasoning Boundary Framework, RBF),定義了模型在不同準(zhǔn)確率對于的推理能力邊界。并提出了三種推理邊界以量化推理能力邊界:完全可行推理邊界(CFRB);完全不可行推理邊界(CIRB); 部分可行推理邊界(PFRB)。

2.2 推理能力與不同的其他能力如何組合?

在實際場景中,模型往往需要集成多種能力才能有效地解決某一任務(wù)。

為了定量描述如何通過思維鏈 CoT 機制實現(xiàn)多種能力的協(xié)同提升,研究者進一步提出了 “ 推理邊界的組合律 ”,并推導(dǎo)并驗證了該組合律的具體公式。

2.3 如何基于可解釋性框架優(yōu)化思維鏈?

雖然已有研究揭示了 CoT 推理的部分機制,但如何系統(tǒng)性地優(yōu)化 CoT 推理的效率和效果仍缺少明確的策略與方法指導(dǎo)。這一不足限制了 CoT 技術(shù)在實際應(yīng)用中的進一步改進與拓展。

根據(jù)推理邊界框架,本文提出了最短可接受推理路徑(MARP) 優(yōu)化推理效率。無論是在復(fù)雜的數(shù)學(xué)推理還是多跳推理中,RBF 都能幫助模型在海量信息中找到最優(yōu)路徑,大幅提升推理效果。

3. 概念定義

3.1 推理邊界

為了量化大型語言模型的復(fù)雜推理能力,如圖 1 (a) 所示,研究者引入了推理邊界(Reasoning Boundary, RB) 的概念,定義了 LLMs 在特定推理過程中能夠處理的任務(wù)難度上限。

具體而言,RB 被定義為模型 m 和任務(wù) t 作為問題難度 d 的最大值,模型的準(zhǔn)確性達到預(yù)定義閾值圖片

圖片

其中 Acc (t|d, m) 表示模型在難度為 d 的任務(wù) t 上的準(zhǔn)確率。難度可以通過推理步驟數(shù)或計算復(fù)雜度等因素來衡量。簡而言之,RB 反映了模型在保持一定準(zhǔn)確性(accuracy)的前提下,其推理能力的邊界。

* 為了簡潔起見,在后續(xù)文章中將 RB 表示為圖片。

總結(jié):模型的推理邊界是由其針對給定任務(wù)難度實現(xiàn)特定準(zhǔn)確度的能力來定義的。

3.2 推理邊界間的組合律

在實際場景中,模型往往需要集成多種能力才能有效地解決某一任務(wù)。

為了定量描述如何通過思維鏈 CoT 機制實現(xiàn)多種能力的協(xié)同提升,研究者提出了“推理邊界的組合律”,并推導(dǎo)出 CoT 能力上限的具體公式。

該定律估計模型 m 內(nèi) n 個任務(wù)的統(tǒng)一推理邊界圖片,即表述為:


圖片

其中圖片表示任務(wù)圖片的推理邊界。圖片圖片是縮放因子,僅受相關(guān)任務(wù)影響。如圖 1 (b) 所示,該方程提供了一個數(shù)學(xué)公式來估計獨立 RB 的組合,從而可以更深入地了解復(fù)雜任務(wù)的模型行為。

總結(jié):推理邊界的組合律描述了多個推理能力的協(xié)同效應(yīng),滿足加權(quán)調(diào)和平均公式,用以估計模型在多個任務(wù)上的整體推理能力。

3.3 推理邊界劃分

此外,為了指導(dǎo) CoT 的優(yōu)化和更方便的表達,如圖 1 (c) 所示,研究者根據(jù)經(jīng)驗準(zhǔn)確性定義了以下三類 RB:


  1. 完全可行的推理邊界:研究者定義準(zhǔn)確率大于 90% 的部分是完全可行的推理邊界 (CFRB=圖片),這意味著 LLM 可以有效地掌握這部分的表現(xiàn)。
  2. 完全不可行的推理邊界:研究者認(rèn)為準(zhǔn)確率小于 10% 的部分是完全不可行的推理邊界 (CIRB=圖片),這意味著模型永遠無法有效掌握這部分的性能。
  3. 部分可行推理邊界:研究者將除 CFRB 和 CIRB 之外的其余部分中的 RB 定義為部分可行推理邊界 (PFRB=圖片),這需要模型重復(fù)思考或者更清晰的信息來解決問題。

研究者通過詳細(xì)分析了這三類 RB 的性質(zhì),進一步結(jié)合組合律來優(yōu)化這三個推理邊界,從而為支持未來 CoT 優(yōu)化提供有效的建議和指導(dǎo)。

4. 實驗設(shè)置

  1. 模型設(shè)置:研究者們采用了 GPT-3.5-Turbo 作為主要模型,實驗還涵蓋了多任務(wù)場景,包括數(shù)學(xué)推理、多跳問答和多語言推理等領(lǐng)域,以確保推理邊界的全面評估。
  2. 基準(zhǔn)設(shè)置:為了更好地評估 LLMs 的推理能力,作者引入了一個新的數(shù)據(jù)集 ——BigGSM。這個數(shù)據(jù)集不僅具有較高的計算復(fù)雜性,還包含更長的推理鏈,能夠更好地挑戰(zhàn)模型的推理上限。

5. 驗證性實驗

5.1 推理邊界存在性驗證

研究者們通過實證分析,驗證了推理邊界在三類任務(wù)中的普遍性:

在基礎(chǔ)算術(shù)運算中,呈現(xiàn)出三種不同的推理邊界 (圖 2 (a));

在自然語言規(guī)劃任務(wù)中,同樣展現(xiàn)出三種不同的推理邊界 (圖 2 (b));

在代碼規(guī)劃任務(wù)中,仍然表現(xiàn)出一致的三種推理邊界 (圖 2 (c))。

圖片

5.2 推理邊界組合律驗證

在實際應(yīng)用中,模型通常需要集成多種能力才能高效解決復(fù)雜任務(wù)。為此,研究者們進一步地驗證了實際場景中,推理邊界組合律的廣泛適用性:

  • 復(fù)雜多項式計算的推理邊界:可視為 ①計算步驟規(guī)劃 與 ②數(shù)學(xué)運算 兩個推理邊界的結(jié)合。如圖 3 (a) 所示,實驗結(jié)果顯示了三個具有明顯邊界的推理邊界劃分區(qū)域。
  • 復(fù)雜小學(xué)數(shù)學(xué)推理的推理邊界:可理解為 ①自然語言步驟規(guī)劃 與 ②數(shù)學(xué)運算 的結(jié)合,圖 3 (b) 中同樣展示了三個清晰的推理邊界劃分區(qū)域。
  • 多跳問答的推理邊界:可被視作 ①多跳規(guī)劃 與 ②實體推理 的結(jié)合。正如圖 3 (c) 所示,三個推理邊界劃分的有效區(qū)域同樣可見。

圖片

5.3 不同推理邊界的不同性質(zhì)

研究者驗證了不同推理邊界在模型中的性質(zhì):

  • 完全可行推理邊界-->完全掌握:如圖 4 (a, b) 所示,在這一邊界下,模型即使在沒有示例、無需 self-consistency 的情況下也能夠高效完成任務(wù)。
  • 部分可行推理邊界-->不完全掌握:在這一推理邊界下,如圖 4 (b) 所示,模型對任務(wù)的掌握程度有限,需要通過多次 Self-consistency 來增強信心,從而提高準(zhǔn)確率。
  • 完全不可行推理邊界-->完全不掌握:在這種邊界下,如圖 4 (b) 所示,模型的推理表現(xiàn)極其有限,即便采用 Self-consistency,模型的準(zhǔn)確率仍難以得到提升。
  • 大模型能夠自己意識到自己的推理邊界:研究還發(fā)現(xiàn),如圖 4 (c) 所示,當(dāng)讓模型自行生成 CoT 示例時,模型更傾向于生成符合其推理邊界的樣本,特別是在完全可行推理邊界范圍內(nèi),而很少生成其完全無法掌握的樣本。這表明模型對推理邊界具有一定的自我感知能力,能夠根據(jù)自身能力選擇合適的任務(wù)進行推理。

圖片

6. 基于推理邊界的 CoT 優(yōu)化

為了進一步優(yōu)化思維鏈的表現(xiàn),研究者們提出了基于推理邊界優(yōu)化的多種策略,并對這些策略進行了全面的實驗驗證,揭示了如何通過調(diào)整 RB 提升復(fù)雜任務(wù)中的推理能力。

圖片

6.1 推理邊界優(yōu)化策略

工具使用可以提升大語言模型的推理邊界

當(dāng)模型使用工具時,可以簡單地認(rèn)為模型可以以無限精度執(zhí)行計算,因此數(shù)學(xué)計算的推理邊界趨向于無窮大,即圖片。顯然,模型的組合推理邊界可以計算為:

圖片


其中,c 表示計算任務(wù),p 表示規(guī)劃任務(wù)。很容易得出,圖片,這表明工具使用可以提高推理的邊界。這解釋了為什么工具使用比普通的推理鏈性能更好(見表 1)。此外,如圖 5 所示,理論推理邊界與實際推理邊界的分布幾乎完美重合,這也證明了該假設(shè)的可靠性和適用性。

程序化思維可以進一步提升大語言模型的推理邊界。

由工具使用的組合推理邊界計算公式可得,LLM 的推理邊界完全取決于其規(guī)劃能力。由于自然語言可能過于冗長,它會妨礙 LLM 的規(guī)劃能力。因此,程序化思維(Program-of-Thought,PoT)通過代碼提供了更清晰的邏輯表示,使得規(guī)劃更為清晰(如圖 2 (b, c) 所示)。所以,這導(dǎo)致更好的步驟規(guī)劃推理邊界,即圖片圖片。那么,PoT 的推理邊界圖片。

6.2 推理路徑優(yōu)化策略

對于固定推理方式的模型而言,其推理邊界(即能力邊界)是相對固定的。因此,關(guān)鍵問題在于如何通過優(yōu)化策略,提升模型的推理能力,使得優(yōu)化后的推理邊界超越原問題所需的邊界。

  • Complex CoT 在推理步驟與性能之間的平衡
  • 單次計算負(fù)荷緩解:研究表明,通過增加推理步驟,可以緩解單次計算的負(fù)荷,從而提升模型的計算邊界圖片,這有助于提高整體的推理能力。
  • 規(guī)劃難度增加:然而,推理步驟的過度增加可能帶來負(fù)面影響:原問題在準(zhǔn)確率較高的邊界圖片上,經(jīng)過 Complex CoT,可能落到準(zhǔn)確率較低的邊界圖片上,其中圖片。這意味著過多的推理步驟可能導(dǎo)致組合推理準(zhǔn)確度的下降。

圖片


  • 在規(guī)劃與計算負(fù)荷之間存在一個平衡:如圖 6 所示,隨著推理步驟的增加,模型性能在初期顯著提高,但當(dāng)步驟數(shù)超過模型的最優(yōu)推理能力時,性能開始下降。這表明,Complex CoT 在推理步驟數(shù)量與計算負(fù)荷之間存在一個最佳平衡點。超出這一點,計算負(fù)荷的增加會對模型的整體表現(xiàn)產(chǎn)生負(fù)面影響。
  • Least-to-Most 的分步優(yōu)化策略

局部規(guī)劃壓力緩解:通過將問題拆解為多個子問題,如圖 7 所示,可以有效減少每個步驟內(nèi)的規(guī)劃壓力,對各種不同計算量的問題都能有一定的性能提升。

圖片

全局規(guī)劃難度增加:雖然這種策略能夠降低局部規(guī)劃負(fù)擔(dān),它同時引入了全局分解規(guī)劃中的額外推理邊界圖片。如圖 15 所示,接近 70% 的全局規(guī)劃數(shù)超過了 5 步,嚴(yán)重加大了模型規(guī)劃難度,從而使實際的組合推理邊界對應(yīng)的準(zhǔn)確率下降。

圖片

  • 最短可接受推理路徑提示(MARP)

為了克服上述策略的局限性,研究者提出了最短可接受推理路徑提示(MARP)策略。該策略通過提示大模型在每個步驟中盡可能高效地執(zhí)行計算,同時減少不必要的全局規(guī)劃,從而降低了模型的計算負(fù)擔(dān)和規(guī)劃復(fù)雜度:

  • 最小化推理路徑提示:為了減輕與規(guī)劃相關(guān)的認(rèn)知負(fù)擔(dān),通過該提示讓模型盡可能簡潔地回答問題,確保提供簡短、清晰和直接的推理路徑。

圖片

  • 可接受推理路徑提示:為了更有效地利用推理邊界的上限,通過該提示要求模型每一個推理步驟的復(fù)雜性在可接受的范圍內(nèi)。

圖片

實驗結(jié)果(見表 1)顯示,MARP 顯著提高了模型性能,并有效減少了 token 的使用量。

7. 拓展性探索

7.1 模型擴展驗證

  • 推理邊界與模型準(zhǔn)確率的正相關(guān)性:研究者通過對 25 個不同模型的推理邊界表現(xiàn)進行分析,發(fā)現(xiàn)推理邊界與數(shù)學(xué)任務(wù)中的準(zhǔn)確率呈現(xiàn)出正相關(guān)關(guān)系。
  • 數(shù)學(xué)模型與通用模型在推理邊界 - 準(zhǔn)確率分布上的差異:通過數(shù)學(xué)數(shù)據(jù)微調(diào)的模型,推理邊界 - 準(zhǔn)確率分布雖然呈現(xiàn)出正相關(guān),但與通用 LLM 存在顯著差異。這可以為未來區(qū)分模型是否進行了數(shù)學(xué)專項訓(xùn)練提供了一個潛在的指標(biāo)。
  • 開源模型在完全可行推理邊界上的局限性:開源模型在完全可行推理邊界(CFRB)上的表現(xiàn)與閉源模型存在顯著差異。幾乎所有開源模型的 CFRB 值均為 0,這表明開源模型在高級推理任務(wù)上的不足,表明其在未來優(yōu)化中的潛力。

圖片

7.2 任務(wù)擴展驗證

更進一步地,該研究不僅驗證了在數(shù)學(xué)運算、數(shù)學(xué)推理和多跳問答任務(wù)中的推理邊界擴展規(guī)律,還進一步探索了在多語言推理和醫(yī)療推理任務(wù)中的表現(xiàn)。

  • 多語言推理:通過將多語言能力、數(shù)學(xué)計算與推理規(guī)劃相結(jié)合,實驗結(jié)果表明,這些能力的正交組合后,推理邊界依然保持了三類不同的推理邊界模式,進一步證實了此方法的普適性和穩(wěn)定性。

圖片

  • 醫(yī)療推理:類似地,在醫(yī)療領(lǐng)域,研究通過將醫(yī)療實體推理與多跳推理規(guī)劃相結(jié)合,驗證了推理邊界在正交組合后仍然保持一致,說明該推理策略同樣適用于醫(yī)療推理任務(wù)。

圖片

8. 如何理解 o1 的優(yōu)異性能?

為了深入理解當(dāng)前最先進的大型語言模型 o1,研究人員利用推理邊界框架對 GPT 系列模型進行了全面評估。

如圖 11 所示,與早期版本相比,各項推理邊界指標(biāo)均有顯著提升,模型性能也隨之增強。特別是,盡管 GPT-3.5 與 GPT-4o 之間在 完全不可行推理邊界(CIRB) 上的改進幅度較大,但 完全可行推理邊界(CFRB) 的提升相對較小。然而,在 GPT-o1 版本中,完全可行推理邊界的表現(xiàn)則有了顯著改善。

圖片

進一步來看,圖 14 揭示了 GPT-o1 版本在完全可行推理邊界上的卓越表現(xiàn),提升幅度幾乎是其他模型的三倍。

圖片

研究人員認(rèn)為,這一成果主要歸功于邏輯強化學(xué)習(xí)技術(shù)的進步和 Inference Scaling Law 策略的優(yōu)化。這些新策略在提升完全可行推理邊界方面起到了關(guān)鍵作用,遠遠超越了常規(guī)的改進路徑。這一現(xiàn)象可能為未來研究提供了新的方向和啟示。

總結(jié)

本研究提出了一個推理邊界(RB)框架,系統(tǒng)量化并優(yōu)化大語言模型(LLMs)在思維鏈(CoT)任務(wù)中的推理能力邊界。通過定義推理邊界和應(yīng)用優(yōu)化策略,合理解釋了多個 CoT 策略其在推理性能上的優(yōu)勢。同時,最短可接受推理路徑(MARP)策略通過減少不必要的推理步驟,顯著提高了不同任務(wù)中的推理性能與效率。研究者希望 RB 框架能夠為相關(guān)研究提供理論基礎(chǔ),推動 LLMs 在復(fù)雜推理任務(wù)中的發(fā)展。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-08-12 09:40:00

模型數(shù)據(jù)

2025-02-17 14:43:51

2025-02-10 13:00:00

模型訓(xùn)練AI

2025-03-12 09:48:19

2024-12-12 17:30:00

模型測評AI

2024-08-27 09:35:47

2023-06-05 10:01:18

模型測評

2024-12-23 07:20:00

LLM逆向思維語言模型

2024-11-08 10:00:00

AI模型

2024-11-25 08:50:00

2024-11-21 15:00:00

大語言模型數(shù)據(jù)

2024-11-18 14:00:00

模型AI

2025-09-15 09:43:33

分層推理模型循環(huán)網(wǎng)絡(luò)推理

2025-05-26 08:40:00

2025-09-23 09:06:00

AILLM系統(tǒng)

2025-02-13 08:51:23

DeepSeek大模型

2023-11-15 14:17:23

微軟語言模型AI 模型

2025-07-07 13:42:57

大模型AI開源

2025-05-29 03:00:00

混合推理模型LHRMAI

2022-10-28 15:16:52

檢測數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號