華為多路徑推理破解大模型數(shù)學(xué)瓶頸,準(zhǔn)確率超97%|ICML 2025
大模型越來越大,通用能力越來越強(qiáng),但一遇到數(shù)學(xué)、科學(xué)、邏輯這類復(fù)雜問題,還是常“翻車”。
為破解這一痛點(diǎn),華為諾亞方舟實(shí)驗(yàn)室提出全新高階推理框架 ——思維森林(Forest-of-Thought,F(xiàn)oT)。
該方法借鑒人類“多角度思考、反復(fù)驗(yàn)證”的認(rèn)知方式,打破傳統(tǒng)LLM的線性推理范式,通過構(gòu)建多棵并行推理樹,引入動態(tài)自我修正機(jī)制與多視角共識決策策略。
論文將在7月份召開的ICML 2025大會上發(fā)表和開源。
在此基礎(chǔ)上,F(xiàn)oT在多個(gè)數(shù)學(xué)推理任務(wù)中表現(xiàn)突出,進(jìn)一步展現(xiàn)了FoT相較于ToT(Tree-of-Thought)更優(yōu)的推理能力。
具體而言,在GSM8K數(shù)據(jù)集上,結(jié)合FoT的QwQ-32B模型準(zhǔn)確率高達(dá)97.33%,超過了GPT-4o和rStar-Math等先進(jìn)模型;在更具挑戰(zhàn)性的AIME 2024測試中,更是將準(zhǔn)確率提升至53.33%,較對比方法rStar-Math高出6.66%。
思維森林:讓大模型像人一樣“思維分叉+自我反省”
盡管LLM在語言理解、問答等任務(wù)中表現(xiàn)出色,但在數(shù)學(xué)和邏輯等需要多步嚴(yán)謹(jǐn)推理的場景中,仍然存在明顯短板:
- 常陷入“單路徑”慣性,缺乏反思與嘗試其他思路的能力;
- 中間步驟易出錯(cuò),且錯(cuò)誤難以自我糾正;
- 無法有效整合多種解法來做集體判斷,缺乏“共識感知”。
思維森林FoT框架的核心靈感來自人類解決復(fù)雜問題的過程:頭腦風(fēng)暴 → 多路徑探索 → 錯(cuò)誤回溯 → 決策投票。
FoT模型在推理時(shí)并行構(gòu)建多棵推理樹,每棵樹探索一種潛在思路,并引入三個(gè)關(guān)鍵機(jī)制:
稀疏激活(Sparse Activation)
在傳統(tǒng)的多路徑推理中,雖然激活所有可能路徑可以提升覆蓋率,但也帶來了指數(shù)級的計(jì)算開銷。
FoT引入了稀疏激活策略,其核心思想是在每一層推理過程中,依據(jù)節(jié)點(diǎn)輸出的置信度進(jìn)行評分,僅保留得分最高的少量節(jié)點(diǎn)用于后續(xù)擴(kuò)展。
該機(jī)制顯著減少了每層的推理分支數(shù)量,提升了每棵推理樹的邏輯集中度和計(jì)算效率。
動態(tài)自校正(Dynamic Self-Correction)
FoT中每棵推理樹在成長過程中,具備對自身推理狀態(tài)的“反省”與“重構(gòu)”能力。
該模塊檢測推理路徑中可能出現(xiàn)的偏差(回答不斷重復(fù)等)時(shí)自動觸發(fā)自我反思,提高模型在復(fù)雜任務(wù)(如數(shù)學(xué)推導(dǎo)、科學(xué)多跳問答)中的魯棒性。
共識引導(dǎo)決策(Consensus-Guided Evaluation and Decision)
FoT的最終輸出不僅依賴于某一條推理路徑,而是融合多棵推理樹的候選答案,通過集體投票與專家評分機(jī)制共同完成決策。具體流程如下:
每棵推理樹在獨(dú)立推理后都會生成一個(gè)候選答案。
CGED首先嘗試從中識別出多數(shù)一致性結(jié)果(如超過半數(shù)樹提出相同答案)。若存在明確的多數(shù)共識,則直接采用該答案作為最終輸出。
若不存在明顯的一致性(如每棵樹的結(jié)論差異較大),則系統(tǒng)將調(diào)用一個(gè)預(yù)先訓(xùn)練好的LLM專家模型對所有候選答案進(jìn)行質(zhì)量評估,從中選擇最優(yōu)解。
該評分模型可基于答案的邏輯連貫性、對問題的契合度、生成路徑的可靠性等多維指標(biāo)綜合判斷,確保最終輸出具備較高的可信度與可解釋性。
這一機(jī)制有效結(jié)合了“集體智慧”與“專家審閱”,提升了模型在不確定場景下的決策穩(wěn)定性,特別適用于開放式問答、科學(xué)推理與法律場景等對輸出可靠性要求較高的任務(wù)。
實(shí)驗(yàn)亮點(diǎn):比思維樹更強(qiáng)、更穩(wěn)、更聰明
在GSM8K、MATH等經(jīng)典推理任務(wù)中,F(xiàn)oT顯示出超越ToT的表現(xiàn):
在24點(diǎn)游戲任務(wù)中,F(xiàn)oT增加樹數(shù)即可提升14%準(zhǔn)確率,明顯優(yōu)于ToT通過葉子節(jié)點(diǎn)數(shù)量擴(kuò)展的方式。
在GSM8K數(shù)學(xué)問答上,F(xiàn)oT與LLaMA3、Mistral、GLM等多個(gè)主流開源模型兼容,樹數(shù)越多,性能提升越明顯,呈現(xiàn)全新的推理scaling law曲線。
在MATH數(shù)據(jù)集全等級上,F(xiàn)oT推理準(zhǔn)確率穩(wěn)定提升,即使面對最復(fù)雜的問題也能保持優(yōu)勢。
總結(jié):從更聰明,到更可信
FOT是一種面向大語言模型的推理增強(qiáng)框架,通過引入多路徑探索、動態(tài)自我校正和共識決策機(jī)制,提升模型在復(fù)雜任務(wù)中的推理準(zhǔn)確性、容錯(cuò)性和泛化能力。
不僅如此,該方法旨在緩解傳統(tǒng)大模型在高階推理場景中的局限,為結(jié)構(gòu)化、可解釋的推理提供支持,具有在金融風(fēng)控、法律分析、科研輔助、醫(yī)療診斷等領(lǐng)域的應(yīng)用潛力。
論文鏈接:https://arxiv.org/abs/2412.09078
項(xiàng)目地址:https://github.com/iamhankai/Forest-of-Thought