偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式

發(fā)布于 2025-2-12 15:58
瀏覽
0收藏

一、引言

推理大語言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,通過模擬人類推理過程,在多個專業(yè)領(lǐng)域已超越人類專家,并通過延長推理時間提高準確性。推理模型的核心技術(shù)包括強化學習(Reinforcement Learning)和推理規(guī)模(Inference scaling)。

主流的大模型強化學習算法,如 DPO、PPO、GRPO 等,通常需要在完整的思維鏈上進行微調(diào),需要高質(zhì)量數(shù)據(jù)、精確的獎勵函數(shù)、快速反饋和在線迭代、以及大量的算力。當處理復(fù)雜任務(wù),如高級數(shù)學和編程問題時,模型需要更細粒度的搜索、更精確的推理步驟和更長的思維鏈,導(dǎo)致狀態(tài)空間和策略空間的規(guī)模急劇擴大,難度大幅上升。

Inference scaling 策略,不依賴訓(xùn)練,通過延長推理時間進一步提高模型的 Reasoning 能力。常見方法,如 Best-of-N 或者蒙特卡洛樹搜索(MCTS),允許 LLM 同時探索多條推理路徑,擴大搜索空間,朝著更有希望的方向前進。這些方法計算成本高,特別是步驟多或搜索空間大的時候。采樣隨機性使得確定最佳路徑困難,且依賴手動設(shè)計的搜索策略和獎勵函數(shù),限制了泛化能力。

在此背景下,普林斯頓大學團隊聯(lián)合北京大學團隊合作開發(fā)了名為 ReasonFlux 的多層次(Hierarchical)LLM 推理框架。

8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)

  • 文章鏈接:https://arxiv.org/abs/2502.06772
  • 開源地址:https://github.com/Gen-Verse/ReasonFlux

(該論文作者特別聲明:本工作沒有蒸餾或用任何方式使用 DeepSeek R1。)

基于層次化強化學習(Hierachical Reinforcement Learning)思想,ReasonFlux 提出了一種更高效且通用的大模型推理范式,它具有以下特點:

  • 思維模版:ReasonFlux 的核心在于結(jié)構(gòu)化的思維模板,每個模版抽象了一個數(shù)學知識點和解題技巧。僅用 500 個通用的思維模板庫,就可解決各類數(shù)學難題。
  • 層次化推理和強可解釋性:ReasonFlux 利用層次化推理(Hierarchical Reasoning)將思維模板組合成思維軌跡(Thought Template Trajectory)、再實例化得到完整回答。模型的推理過程不再是 “黑盒”,而是清晰的展現(xiàn)了推理步驟和依據(jù),這為 LLM 的可解釋性研究提供了新的工具和視角,也為模型的調(diào)試和優(yōu)化提供了便利。與 DeepSeek-R1 和 OpenAI-o1 等模型的推理方式不同,ReasonFlux 大大壓縮并凝練了推理的搜索空間,提高了強化學習的泛化能力,提高了 inference scaling 的效率。
  • 輕量級系統(tǒng):ReasonFlux 僅 32B 參數(shù),強化訓(xùn)練只用了 8 塊 NVIDIA A100-PCIE-80GB GPU。它能通過自動擴展思維模板來提升推理能力,更高效靈活。

8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)

ReasonFlux-32B 在多個數(shù)學推理基準測試中表現(xiàn)出色,僅僅用了 500 個基于不同數(shù)學知識點的思維模版,就展現(xiàn)了其強大的推理能力和躋身第一梯隊的實力。

二、ReasonFlux

三大關(guān)鍵技術(shù)構(gòu)建大模型推理新框架

ReasonFlux 的性能提升得益于其三大核心技術(shù):

  1. 結(jié)構(gòu)化的思維模板抽取:ReasonFlux 利用大語言模型從以往的數(shù)學問題中提取了一個包含大約 500 個結(jié)構(gòu)化思維模板的知識庫。每個模板都包含標簽、描述、適用范圍、應(yīng)用步驟等信息,這些信息經(jīng)過組織和結(jié)構(gòu)化處理,為 LLM 的推理提供了元知識參考。這些模板覆蓋了多種數(shù)學問題類型和解題方法,如不等式求解、三角函數(shù)變換、極值定理等,是 ReasonFlux 進行推理的基礎(chǔ)。
  2. 多層次強化學習(Hierarchical RL)選擇最優(yōu)的 Thought Template Trajectory:該算法通過 Hierarchical Reinforcement Learning 訓(xùn)練一個 High-level 的 navigator,使其能夠?qū)斎雴栴}進行拆解,轉(zhuǎn)而求解多個更簡單的子問題,根據(jù)子問題類型從模板庫中檢索相關(guān)的思維模板,并規(guī)劃出最優(yōu)的 Thought Template Trajectory。它可以看作是解決問題的 “路線圖”,它由一系列的模板組合而成。這種基于 Hierarchical RL 的優(yōu)化算法通過獎勵在相似問題上的泛化能力,提升了推理軌跡的魯棒性和有效性,使得 ReasonFlux 能夠舉一反三,為各種數(shù)學問題生成有效的思維模板軌跡。
  3. 新型 Inference Scaling 系統(tǒng):該系統(tǒng)實現(xiàn)了結(jié)構(gòu)化模板庫和 inference LLM 之間的多輪交互?!癗avigator” 負責規(guī)劃模板軌跡和檢索模板,inference LLM 負責將模板實例化為具體的推理步驟,并通過分析中間結(jié)果來動態(tài)調(diào)整軌跡,實現(xiàn)高效的推理過程。這種交互機制使得 ReasonFlux 能夠根據(jù)問題的具體情況靈活調(diào)整推理策略,從而提高推理的準確性和效率。

(a)推理示例對比

接下來我們來分析 ReasonFlux 在解決實際問題上相較于 o1-mini 的對比。

我們來看和 o1-mini 的對比:

8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)

如上圖可知,o1-mini 在面對這道難題時,嘗試了多種策略,但均未能找到有效的突破口。它首先試圖通過引入新變量和利用對稱性來簡化方程組,但收效甚微;接著又嘗試假設(shè)變量相等來尋找特解,結(jié)果卻得出了矛盾;隨后,它試圖用一個變量表示其他變量,并嘗試平方去根號,但復(fù)雜的表達式使其望而卻步;最后,它甚至想到了三角換元,但由于未能正確應(yīng)用,最終只能無奈地放棄求解。

相比之下,ReasonFlux 的解題過程如下:

  1. 分析與規(guī)劃:ReasonFlux 首先對題目進行分析,確定了解題的主要步驟:初步確定 k 值的范圍、利用三角換元、化簡方程組、求解 θ、計算目標值。這一步反映了 ReasonFlux 的問題分析和規(guī)劃能力,為后續(xù)解題過程提供了基礎(chǔ)。
  2. 模板化推理:ReasonFlux 隨后依次應(yīng)用了 “三角換元”、“化簡方程組”、“求解 θ” 等模板,將復(fù)雜的方程組逐步簡化,并最終求解出 θ 的值。每一步都依據(jù)模板的指導(dǎo),旨在保證解題過程的準確性。
  • 逐步推導(dǎo):ReasonFlux 根據(jù)求得的角度值,計算出 (x, y, z) 的值,并最終計算出目標值8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū),從而得到 (m=1, n=32, m+n=33)。整個過程邏輯清晰,步驟明確,展示了 ReasonFlux 的規(guī)劃和推理能力。

8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)圖片

(b) 新的 inference scaling law

如上圖所示,隨著問題復(fù)雜度的增加,ReasonFlux 正確解答問題時所需的模板數(shù)量和交互輪數(shù)也相應(yīng)增加。這表明 ReasonFlux 能夠根據(jù)問題的難度動態(tài)調(diào)整推理策略,體現(xiàn)了其優(yōu)秀的自適應(yīng)能力。并且可以觀察到,交互輪數(shù)的增長趨勢略高于模板數(shù)量,這意味著規(guī)劃能力的提升對解決復(fù)雜問題至關(guān)重要。

三、主流推理范式對比

ReasonFlux vs Best-of-N & MCTS

目前,提升 LLM 推理性能的主流方法通常依賴于增加模型規(guī)模和計算資源。例如,增加模型參數(shù)量、采用 Best-of-N 或蒙特卡洛樹搜索 (MCTS) 等方法來擴大搜索空間以尋找更優(yōu)解。然而,這些方法往往計算成本較高,且模型的推理過程難以解釋。

ReasonFlux 采用了一種不同的方法,通過構(gòu)建結(jié)構(gòu)化的思維模板庫和設(shè)計新的層次化強化學習算法,實現(xiàn)了一種更高效和可解釋的推理方式。

傳統(tǒng)的 Inference Scaling 方法,如 Best-of-N 和 MCTS,主要通過擴大搜索空間來提高準確率。但隨著問題復(fù)雜度的增加,搜索空間呈指數(shù)級增長,導(dǎo)致計算成本顯著上升。

在 ReasonFlux 的推理過程中,Navigator 與 Inference LLM 之間存在多輪交互。Inference LLM 根據(jù) Navigator 給出的模板軌跡執(zhí)行推理步驟后,Navigator 會對執(zhí)行結(jié)果進行評估

8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)。如公式8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)所示,根據(jù)評估結(jié)果,Navigator 會動態(tài)調(diào)整模板軌跡8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū),例如修改當前步驟的模板、添加或刪除步驟等。這種迭代優(yōu)化的機制使得 ReasonFlux 能夠根據(jù)問題的具體情況靈活調(diào)整推理策略,從而提高推理的準確性和效率。

ReasonFlux 通過引入結(jié)構(gòu)化的思維模板,將搜索空間從 “原始解空間” 縮小到 “模板空間”,從而降低了搜索的難度和成本。

如果說傳統(tǒng)的推理范式是 “大海撈針”,那么 ReasonFlux 則是 “按圖索驥”。這些模板并非簡單的規(guī)則堆砌,而是經(jīng)過提煉和結(jié)構(gòu)化處理的知識模板,它們將復(fù)雜的推理過程分解為一系列可復(fù)用的步驟,從而提升了推理的效率和準確率。

8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)圖片

如上圖所示,隨著問題難度的提升,Best-of-N 和 MCTS 的探索成本(例如采樣軌跡數(shù)量和迭代次數(shù))顯著增加,而 ReasonFlux 的探索成本(交互輪數(shù))則保持在較低水平且相對穩(wěn)定。這說明 ReasonFlux 能夠更高效地利用已有的知識模板來解決問題,而不需要像 Best-of-N 和 MCTS 那樣進行大量的試錯和探索。這得益于 ReasonFlux 的結(jié)構(gòu)化模板庫和模板軌跡規(guī)劃機制,使其能夠在更小的搜索空間內(nèi)找到正確的推理路徑。

四、訓(xùn)練及推理框架介紹

下圖展示了 ReasonFlux 的訓(xùn)練框架,其核心在于利用結(jié)構(gòu)化的思維模板庫和基于思維模板軌跡獎勵的層次化強化學習算法,訓(xùn)練出一個能夠進行高效推理的大模型。整個訓(xùn)練過程可以分為兩個主要階段:結(jié)構(gòu)化知識學習和思維模板軌跡優(yōu)化。

8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)

1. 結(jié)構(gòu)化知識學習階段:這個階段的目標是讓模型學習思維模板庫中蘊含的結(jié)構(gòu)化知識。這些結(jié)構(gòu)化的 Thought template 格式如下圖所示:

8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)

然后,我們利用這些結(jié)構(gòu)化模板數(shù)據(jù) 

8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)

對一個基礎(chǔ) LLM 進行微調(diào),得到模型8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)。訓(xùn)練的目標是讓模型能夠根據(jù)模板的名稱和標簽,生成對應(yīng)的描述和適用范圍 。通過這個階段的訓(xùn)練,模型學習到了模板庫中蘊含的豐富知識,并具備了初步的模板理解和應(yīng)用能力。

2. 模板軌跡優(yōu)化階段:這個階段的目標是訓(xùn)練模型生成有效的模板軌跡,即針對特定問題,選擇合適的模板并進行排序,形成解決問題的 “路線圖”。我們利用新穎的基于 Thought Template Trajectory 的 Hierarchical RL 算法來實現(xiàn)這一目標。在這個階段,我們使用 8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)模型針對輸入問題 8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)生成多個候選的 high-level 思維模板軌跡8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)。每個軌跡由一系列步驟 8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)組成,每個步驟都關(guān)聯(lián)到一個特定的模板。為了評估軌跡的質(zhì)量,我們構(gòu)建了一組與輸入問題 8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)相似的問題集8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)。然后,我們利用 inference LLM 8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)根據(jù)模板軌跡對這些相似問題進行具體的解答,并計算平均準確率作為軌跡的獎勵8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)。基于這個獎勵信號,我們構(gòu)建了優(yōu)化樣本對

8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū),其中8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)。然后,我們利用這些樣本對,通過 DPO 對 8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)進行進一步優(yōu)化,得到最終的 navigator 模型8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū),也就是我們的 ReasonFlux 模型。 

通過這兩個階段的訓(xùn)練,ReasonFlux 模型不僅學習到了結(jié)構(gòu)化的模板知識,還學會了如何針對特定問題選擇和組合模板,形成有效的推理路徑。這種能力使得 ReasonFlux 能夠高效地解決各種復(fù)雜的數(shù)學推理問題。

下圖是 ReasonFlux 的推理框架。其核心在于 navigator、inference LLM 和結(jié)構(gòu)化模板庫之間的多輪交互。這種交互機制使得 ReasonFlux 能夠根據(jù)問題的具體情況靈活調(diào)整推理策略,從而提高推理的準確性和效率。

8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)

以下是 ReasonFlux 的推理流程:

8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)

通過這種 navigator 引導(dǎo)、inference LLM 執(zhí)行、模板庫支持、動態(tài)調(diào)整軌跡的多輪交互機制,ReasonFlux 能夠高效地解決各種復(fù)雜的數(shù)學推理問題。這種推理框架不僅提高了推理的準確性和效率,還增強了模型的可解釋性,因為我們可以清晰地追蹤模型的推理過程和依據(jù)。

五、數(shù)學推理數(shù)據(jù)集上的表現(xiàn)

小模型媲美大模型,展現(xiàn)未來應(yīng)用潛力

ReasonFlux 在 MATH、AIME 2024、AMC 2023、OlympiadBench 和 Gaokao En 2023 等多個具有挑戰(zhàn)性的數(shù)學推理數(shù)據(jù)集上進行了測試,并取得了良好的結(jié)果。

ReasonFlux-32B 在這些數(shù)據(jù)集上的表現(xiàn)處于前列,與其他先進模型相比具有競爭力。如下表所示,在 MATH 數(shù)據(jù)集上,ReasonFlux-32B 的準確率為 91.2%;在 AIME 2024 數(shù)據(jù)集上,ReasonFlux-32B 的準確率為 56.7%。這些結(jié)果表明 ReasonFlux 框架具有有效性。更重要的是,它表明較小規(guī)模的模型通過優(yōu)化推理框架,可以達到甚至在某些情況下超越較大模型的性能。

ReasonFlux 還可用于不同大?。?.5B, 7B 和 32B)的基礎(chǔ)模型,并且都能獲得巨幅的推理效果提升,足見其通用性和泛化性。

8卡32B模型超越o1預(yù)覽版、DeepSeek V3,普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)

ReasonFlux 的成功不僅限于數(shù)學推理領(lǐng)域,其背后的核心思想 —— 結(jié)構(gòu)化思維模板和模板軌跡 —— 具有廣泛的應(yīng)用潛力。未來,ReasonFlux 有潛力被應(yīng)用于更多領(lǐng)域,如代碼生成,醫(yī)療診斷,具身智能等多個領(lǐng)域。

六、作者介紹

楊靈:北大在讀博士,普林斯頓高級研究助理,研究領(lǐng)域為大語言模型和擴散模型。

余昭辰:新加坡國立大學在讀碩士,北京大學 PKU-DAIR 實驗室科研助理,研究領(lǐng)域為大語言模型和擴散模型。

崔斌教授:崔斌現(xiàn)為北京大學計算機學院博雅特聘教授、博士生導(dǎo)師,擔任計算機學院副院長、數(shù)據(jù)科學與工程研究所所長。他的研究方向包括數(shù)據(jù)庫系統(tǒng)、大數(shù)據(jù)管理與分析、機器學習 / 深度學習系統(tǒng)等。

王夢迪教授:王夢迪現(xiàn)任普林斯頓大學電子與計算機工程系終身教授,并創(chuàng)立并擔任普林斯頓大學 “AI for Accelerated Invention” 中心的首任主任。她的研究領(lǐng)域涵蓋強化學習、可控大模型、優(yōu)化學習理論以及 AI for Science 等多個方向。

本文轉(zhuǎn)載自??機器之心??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦