混合推理模型(LHRM):平衡效率與推理能力的新范式
大家好,我是肆〇柒。今天,我們來探討一下大型混合推理模型(LHRM)。在人工智能領(lǐng)域,大型推理模型(LRM)能夠自如的完成比如編程、數(shù)學(xué)和常識推理等任務(wù)。然而,這些模型在實(shí)際應(yīng)用中卻暴露出過度思考的問題,簡單查詢面前,它們依然花費(fèi)大量計(jì)算資源進(jìn)行冗長的思考,這無疑是對計(jì)算資源的巨大浪費(fèi)。比如,在處理日常問候語 “Hello” 時,模型依然啟動復(fù)雜的推理過程,這就好像大炮打蚊子,青龍偃月刀削土豆,能力過剩卻效率低下。
為解決這一難題,大型混合推理模型(LHRM)出現(xiàn)了。它可以根據(jù)用戶查詢的上下文信息,精準(zhǔn)地決定是否啟動思考模式。這不僅為人工智能領(lǐng)域提供了新的解決方案,還讓我們看到了在推理能力和效率之間取得平衡的可能性。
Qwen2.5-7B-Instruct、DeepSeek-R1-Distill-Qwen-7B以及本文中的LHRM-7B在推理相關(guān)任務(wù)(頂部)和日常問答任務(wù)(底部)中的示例回答上圖展示了 Qwen2.5-7B-Instruct、DeepSeek-R1-Distill-Qwen-7B 和本文中的 LHRM-7B 在推理相關(guān)任務(wù)(頂部)和日常問答任務(wù)(底部)中的示例響應(yīng)。雖然 LLMs 對簡單查詢響應(yīng)簡潔,但在復(fù)雜推理方面表現(xiàn)掙扎。LRM 通過明確的思考步驟處理推理任務(wù),但往往在簡單任務(wù)中過度使用思考模式,導(dǎo)致響應(yīng)速度變慢,用戶體驗(yàn)下降。相比之下,LHRM 能夠自適應(yīng)地決定何時啟動思考模式,在保持強(qiáng)大推理能力的同時,實(shí)現(xiàn)更快速、更自然的日常交互。
研究背景與動機(jī)
LRM 的發(fā)展現(xiàn)狀
LRM 模型在今年大量涌現(xiàn),DeepSeekR1、OpenAI o1/o3 系列等模型各顯神通。它們?nèi)缤诫U家,不斷開辟新的領(lǐng)域,在各自的任務(wù)中表現(xiàn)出色。這些模型通過生成長推理鏈,展現(xiàn)出強(qiáng)大的推理能力,為解決復(fù)雜問題提供了新的思路。
然而,LRM 在追求強(qiáng)大推理能力的同時,卻忽視了效率問題。這就像一輛追求速度的賽車,卻在城市道路上頻繁急剎,造成了資源的浪費(fèi)。現(xiàn)有研究多集中于提升 LRM 的性能,卻鮮少關(guān)注其在實(shí)際應(yīng)用場景中的效率表現(xiàn),這使得 LRM 在面對簡單任務(wù)時,依然會啟動復(fù)雜的推理過程,導(dǎo)致計(jì)算資源的浪費(fèi)。
過度思考的困境
以一個簡單的數(shù)學(xué)計(jì)算為例,對于 “2 + 2” 這樣的問題,LRM 會啟動完整的推理過程,生成詳細(xì)的思考步驟,這無疑是對計(jì)算資源的浪費(fèi)。過度思考現(xiàn)象在實(shí)際應(yīng)用中屢見不鮮,它如同一個無形的黑洞,吞噬著寶貴的計(jì)算資源,導(dǎo)致延遲增加,用戶體驗(yàn)下降。
研究顯示,過度思考在簡單查詢中會導(dǎo)致性能提升有限,卻消耗了大量計(jì)算資源。這就像在平靜的湖面上航行,卻依然全速運(yùn)轉(zhuǎn)船槳,既浪費(fèi)了能量,又未能顯著提升速度。對于 LRM 來說,如何在推理能力和效率之間找到平衡點(diǎn),成為需要解決的問題。
人類認(rèn)知的智慧啟示
人類在面對復(fù)雜問題時,會分析各種線索;而在面對簡單問題時,則憑借直覺快速作答。這種認(rèn)知模式如同一個智能的切換開關(guān),能夠在不同情境下靈活調(diào)整思考方式。
借鑒人類認(rèn)知模式,LHRM 的設(shè)計(jì)理念被提出。它如同一個可以自適應(yīng)思考模式的智能助手,能夠根據(jù)查詢的難度和類型,動態(tài)選擇思考模式。這不僅提高了模型的效率,還保留了其強(qiáng)大的推理能力,使其在實(shí)際應(yīng)用中更加實(shí)用。
LHRM 技術(shù)創(chuàng)新
混合推理模型架構(gòu)分析
LHRM 擁有兩種思考模式,思考模式(Thinking)如同一個深思熟慮的學(xué)者,會生成詳細(xì)的推理過程;無思考模式(No-Thinking)則像一個敏銳的直覺者,直接給出答案。這種雙模式架構(gòu)使模型能夠在不同任務(wù)中自由推理。
模型的目標(biāo)是為每個查詢選擇最優(yōu)的推理模式,以最大化任務(wù)特定效用函數(shù)的期望值。這如同一個智能的導(dǎo)航系統(tǒng),能夠根據(jù)路況選擇最佳路線,確保模型在處理各種任務(wù)時都能達(dá)到最佳性能。
兩階段訓(xùn)練管道的深度剖析
第一階段:混合微調(diào)(HFT)
HFT 階段整合了推理密集型和直接答案型數(shù)據(jù),為模型提供了豐富的學(xué)習(xí)素材。推理密集型數(shù)據(jù)來源于高質(zhì)量的數(shù)學(xué)、代碼和科學(xué)問題數(shù)據(jù)集,如 DeepSeekR1 的數(shù)學(xué)數(shù)據(jù)集和 OpenR1-Codeforces 數(shù)據(jù)集等;直接答案型數(shù)據(jù)則從 WildChat-1M 等對話數(shù)據(jù)中篩選出簡單查詢,通過 FastText 分類器排除復(fù)雜推理任務(wù)。
下表展示了第一階段的數(shù)據(jù)分布和來源,涵蓋了推理密集型和直接答案型數(shù)據(jù)的詳細(xì)信息,包括數(shù)據(jù)集的類別、來源和大小等。這些數(shù)據(jù)為 HFT 階段提供了多樣化和高質(zhì)量的學(xué)習(xí)素材,確保模型能夠充分學(xué)習(xí)到不同任務(wù)的特點(diǎn)。
第一階段的數(shù)據(jù)分布及來源
訓(xùn)練過程中,通過動態(tài)調(diào)整兩種數(shù)據(jù)的占比,確保模型能夠充分學(xué)習(xí)到兩種思考模式的特點(diǎn)。例如,在訓(xùn)練初期,推理密集型數(shù)據(jù)占比約為 70%,隨著訓(xùn)練的進(jìn)行,逐漸調(diào)整到 50%,以平衡兩種數(shù)據(jù)的影響。
基于構(gòu)造的數(shù)據(jù)集,訓(xùn)練模型next token predict,為第二階段強(qiáng)化學(xué)習(xí)奠定堅(jiān)實(shí)基礎(chǔ)。這一步驟如同為模型安裝了一個精準(zhǔn)的導(dǎo)航系統(tǒng),使其在后續(xù)的學(xué)習(xí)中能夠朝著正確的方向前進(jìn)。
第一階段思考數(shù)據(jù)和非思考數(shù)據(jù)的標(biāo)記長度分布
上圖描述了第一階段中思考模式(Thinking)和無思考模式(No-Thinking)數(shù)據(jù)的token長度分布情況。思考模式數(shù)據(jù)的平均長度為 575 個token,而無思考模式數(shù)據(jù)的平均長度為 4,897 個token。這表明推理密集型任務(wù)通常需要更長的推理過程,而直接答案型任務(wù)則更加簡潔直接。
第二階段:混合組策略優(yōu)化(HGPO)的深度探索
為每個查詢在兩種推理模式下分別采樣多個候選響應(yīng)。這如同在茫茫大海中撒網(wǎng),盡可能多地捕獲潛在的優(yōu)質(zhì)答案。具體而言,對于每個查詢,使用舊策略 πθHFT 在思考模式和無思考模式下分別采樣 N/2 個候選響應(yīng)。例如,當(dāng) N=4 時,為每個查詢采樣 2 個思考模式響應(yīng)和 2 個無思考模式響應(yīng)。
下圖展示了 HGPO 的工作流程,包括(1)使用兩種推理模式對每個查詢 q 采樣多個響應(yīng);(2)通過獎勵模型對響應(yīng)進(jìn)行評分,并根據(jù)公式 9 分配獎勵;(3)計(jì)算優(yōu)勢值和策略損失,并更新策略模型。AE 表示優(yōu)勢估計(jì)器,獎勵分配表示公式 9。
混合組策略優(yōu)化的演示
應(yīng)用獎勵函數(shù)對候選輸出進(jìn)行評分,并基于規(guī)則分配組內(nèi)和組間獎勵。這一步驟如同對捕獲的魚進(jìn)行篩選,選出最優(yōu)質(zhì)、最符合要求的答案。我們可以首先計(jì)算每種模式的平均獎勵,然后基于平均獎勵分配組間獎勵,同時在每種模式內(nèi)分配組內(nèi)獎勵。例如,在一個查詢的采樣響應(yīng)中,思考模式的平均獎勵為 8.5,無思考模式的平均獎勵為 7.5,那么思考模式的響應(yīng)將獲得組間獎勵 1,而無思考模式的響應(yīng)將獲得組間獎勵 0。同時,在每種模式內(nèi),獎勵最高的響應(yīng)將獲得組內(nèi)獎勵 1,其他響應(yīng)獲得組內(nèi)獎勵 0。
通過最大化目標(biāo)函數(shù)來更新策略模型,同時控制 KL 散度以保持模型穩(wěn)定性。這如同在風(fēng)浪中駕駛船只,既要追求速度,又要保持穩(wěn)定,確保模型在優(yōu)化過程中不會偏離正確的方向。具體的目標(biāo)函數(shù)為:
以下偽代碼演示的算法詳細(xì)描述了 HGPO 的算法步驟,包括初始化策略模型、采樣響應(yīng)、計(jì)算獎勵、分配獎勵、計(jì)算優(yōu)勢值和更新策略模型等過程。
混合組策略優(yōu)化算法
混合思考能力評估指標(biāo)——混合準(zhǔn)確率(HAcc)
HAcc 指標(biāo)如同一把精準(zhǔn)的尺子,用于衡量模型正確選擇推理模式的能力。它不僅關(guān)注模型的答案是否正確,更關(guān)注模型是否選擇了最適合的推理方式?;讵剟钅P蛯煞N模式下生成的響應(yīng)進(jìn)行評分,確定每個查詢的最優(yōu)推理模式,計(jì)算模型選擇模式與最優(yōu)模式一致的比例。具體計(jì)算公式為:
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
實(shí)驗(yàn)設(shè)置的深度剖析
與多種 LLM 和 LRM 進(jìn)行比較,包括 Qwen2.5 系列模型和 DeepSeek-R1-Distill 系列模型。這如同在競技場上邀請多位選手同臺競技,確保實(shí)驗(yàn)結(jié)果的全面性和客觀性。
涵蓋推理能力(數(shù)學(xué)和編程相關(guān)基準(zhǔn)測試)、通用能力(開放式生成任務(wù))以及混合思考能力(HAcc)。這如同從多個角度審視選手的表現(xiàn),確保評估結(jié)果的全面性和準(zhǔn)確性。
詳細(xì)說明兩階段訓(xùn)練的數(shù)據(jù)集、優(yōu)化器、學(xué)習(xí)率等參數(shù)設(shè)置。例如,在第一階段,使用 1.7M 條混合格式的訓(xùn)練樣例,訓(xùn)練 3 個 epoch,采用 AdamW 優(yōu)化器,最大學(xué)習(xí)率為 1e?4,批大小為 128,最大序列長度為 32k tokens。在第二階段,從 Deepscaler 和 Tülu3 數(shù)據(jù)集中隨機(jī)采樣 76K 個查詢,使用 Llama-3.1-Tulu-3-8B-RM 作為參數(shù)化獎勵模型,采用 AdamW 優(yōu)化器,常數(shù)學(xué)習(xí)率為 1 × 10?6,批大小為 256,微批大小為 8,設(shè)置 α = 1.0 和 margin = 0.2。
第二階段的數(shù)據(jù)分布和來源上表展示了 Stage II 的數(shù)據(jù)分布和來源,涵蓋了從 Deepscaler 和 Tülu3 數(shù)據(jù)集中采樣的詳細(xì)信息,確保訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量。
主要結(jié)果的深度解讀
LHRM 在 1.5B 和 7B 參數(shù)規(guī)模下均超越所有基線模型,在數(shù)學(xué)、編程和通用任務(wù)上表現(xiàn)出色。例如,在 MATH500 數(shù)據(jù)集上,LHRM-1.5B 的準(zhǔn)確率為 87.8%,相較于 HFT-DPO-1.5B 的 86.8% 有顯著提升;在 Alpaca 和 Arena-Hard 任務(wù)上,LHRM-7B 分別比 HFT-DPO-7B 高出 50.2% 和 93.4%。
LHRM 在 HAcc 指標(biāo)上顯著領(lǐng)先,證明其能有效適應(yīng)不同難度和類型的查詢。例如,在 MATH500 數(shù)據(jù)集上,LHRM-1.5B 的 HAcc 為 93.8%,遠(yuǎn)高于 HFT-DPO-1.5B 的 48.1% 和 HFT-RFT-1.5B 的 38.3%。
分別探討 HFT 和 HGPO 階段對模型性能的影響,驗(yàn)證兩階段訓(xùn)練的有效性。例如,HFT 階段使模型在推理能力和通用能力上均得到顯著提升,而 HGPO 階段進(jìn)一步優(yōu)化了模型的推理模式選擇能力,使模型在 HAcc 指標(biāo)上取得了巨大進(jìn)步。
不同任務(wù)間的性能比較上表展示了不同模型在各項(xiàng)任務(wù)上的性能對比,包括 MATH500、AIME24、AMC23、Olympiad Bench、LiveCodeBench、MBPP、MBPP+、AlpacaEval 2.0 和 ArenaHard 等。LHRM 在所有任務(wù)中均表現(xiàn)出色,尤其在 HAcc 指標(biāo)上顯著領(lǐng)先。
深入分析的全方位探索
不同優(yōu)勢估計(jì)器的影響
比較 REINFORCE++、GRPO 和 RLOO 等估計(jì)器在 HGPO 訓(xùn)練中的效果,證明 HGPO 對估計(jì)器選擇的魯棒性。例如,使用 REINFORCE++ 時,模型的 HAcc 為 92.5%,使用 GRPO 時為 93.8%,使用 RLOO 時為 91.2%。進(jìn)一步分析表明,REINFORCE++ 在處理復(fù)雜推理任務(wù)時收斂速度較快,但 GRPO 在簡單任務(wù)中能更穩(wěn)定地選擇最優(yōu)模式。這使得在實(shí)際應(yīng)用中,可以根據(jù)任務(wù)的復(fù)雜程度選擇合適的估計(jì)器,以達(dá)到最佳的訓(xùn)練效果。
關(guān)于優(yōu)勢估計(jì)器和邊界值δ影響的消融研究上圖展示了不同優(yōu)勢估計(jì)器和超參數(shù) δ 對 HGPO 訓(xùn)練效果的影響。結(jié)果顯示,GRPO 在大多數(shù)情況下表現(xiàn)最佳,而 δ 的取值對模型在兩種推理模式間的權(quán)衡有顯著影響。
超參數(shù) δ 的關(guān)鍵作用
分析 δ 不同取值對模型在兩種推理模式間權(quán)衡的影響,為實(shí)際應(yīng)用中的參數(shù)調(diào)整提供參考。例如,當(dāng) δ=0.2 時,模型傾向于更多地使用思考模式;當(dāng) δ=0.5 時,模型更傾向于使用無思考模式。實(shí)驗(yàn)表明,在實(shí)時性要求較高的場景(如智能客服)中,將 δ 設(shè)置為 0.5 可以顯著降低響應(yīng)延遲;而在對推理質(zhì)量要求極高的場景(如數(shù)學(xué)證明),δ 設(shè)置為 0.2 則能更好地保證推理的準(zhǔn)確性。
單一領(lǐng)域內(nèi)LHRM的思維比率分析上圖展示了 LHRM 在單一領(lǐng)域內(nèi)不同難度任務(wù)的思考比率分布情況。隨著任務(wù)難度的降低,模型的思考比率逐漸減少,表明模型能夠自適應(yīng)地選擇推理模式,減少不必要的推理步驟。
不同領(lǐng)域中LHRM思維比率的分析上圖展示了 LHRM 在不同領(lǐng)域(數(shù)學(xué)、編程和通用任務(wù))中的思考比率分布情況。結(jié)果顯示,模型在不同領(lǐng)域中均能根據(jù)任務(wù)特點(diǎn)動態(tài)調(diào)整思考模式,確保推理效率和質(zhì)量的平衡。
模型規(guī)模與推理行為的關(guān)系
研究 1.5B 和 7B 模型在 RL 訓(xùn)練過程中的思考比率變化,揭示模型規(guī)模與推理策略的關(guān)系。例如,1.5B 模型在訓(xùn)練初期的思考比率為 70%,隨著訓(xùn)練的進(jìn)行逐漸增加到 85%;而 7B 模型在訓(xùn)練初期的思考比率為 60%,隨著訓(xùn)練的進(jìn)行逐漸減少到 45%。這表明,較小規(guī)模的模型在訓(xùn)練過程中需要更多的思考來補(bǔ)償其有限的參數(shù)容量,而較大規(guī)模的模型則能更快地掌握任務(wù)規(guī)律,減少不必要的推理步驟。
模型規(guī)模的消融研究上圖展示了模型規(guī)模對推理行為的影響。隨著模型規(guī)模的增大,模型在簡單任務(wù)中更傾向于使用無思考模式,而在復(fù)雜任務(wù)中則能更高效地進(jìn)行推理。
跨領(lǐng)域泛化能力的深度驗(yàn)證
評估在數(shù)學(xué)和通用領(lǐng)域訓(xùn)練的模型在編程領(lǐng)域的表現(xiàn),驗(yàn)證 LHRM 的跨領(lǐng)域適應(yīng)性。例如,LHRM-1.5B 在 MBPP 數(shù)據(jù)集上的準(zhǔn)確率為 61.1%,相較于 HFT-DPO-1.5B 的 53.3% 有顯著提升;在 MBPP+ 數(shù)據(jù)集上的準(zhǔn)確率為 63.9%,相較于 HFT-DPO-1.5B 的 55.0% 也有明顯提高。進(jìn)一步分析發(fā)現(xiàn),LHRM 在處理編程任務(wù)時,能夠通過遷移數(shù)學(xué)和通用領(lǐng)域的推理策略,快速適應(yīng)代碼生成任務(wù)的要求,體現(xiàn)了其強(qiáng)大的泛化能力。
來自DeepSeek-R1-Distill-Qwen-7B和本文的LHRM-7B模型的示例輸出上圖展示了 DeepSeek-R1-Distill-Qwen-7B 和本文中的 LHRM-7B 模型在簡單問題上的示例輸出。對于簡單問題,LHRM 能夠自適應(yīng)地選擇無思考模式,快速給出準(zhǔn)確答案,顯著提升響應(yīng)速度。
LHRM-7B采用無思考模式解決簡單的數(shù)學(xué)問題上圖展示了 LHRM-7B 在解決簡單數(shù)學(xué)問題時使用無思考模式的示例。模型直接輸出答案,無需冗長的推理過程,顯著提高了處理簡單任務(wù)的效率。
LHRM-7B 學(xué)會了選擇思考模式來解決復(fù)雜的代碼問題上圖展示了 LHRM-7B 在解決復(fù)雜代碼問題時選擇思考模式的示例。模型生成詳細(xì)的推理步驟,逐步解決問題,確保推理的準(zhǔn)確性和完整性。
總結(jié)與展望
提出混合推理模型架構(gòu)、兩階段訓(xùn)練管道和 HAcc 評估指標(biāo),在提升推理能力和通用性能的同時顯著提高效率。這為后續(xù)研究提供了新的方向和思路。
在實(shí)際應(yīng)用中,LHRM 的潛力是巨大的。以智能客服為例,LHRM 能夠根據(jù)用戶問題的復(fù)雜程度動態(tài)調(diào)整思考模式。對于簡單的查詢,如 “如何重置密碼”,模型快速切換到無思考模式,直接給出簡潔明了的答案,顯著降低響應(yīng)延遲,提升用戶體驗(yàn)。而對于復(fù)雜的技術(shù)支持問題,如 “服務(wù)器頻繁崩潰的原因分析”,LHRM 則啟動思考模式,生成詳細(xì)的推理步驟,逐步排查問題,最終提供精準(zhǔn)的解決方案。這種智能切換不僅提高了客服效率,還確保了問題解決的準(zhǔn)確性。
在自動編程領(lǐng)域,LHRM 根據(jù)代碼邏輯的難易程度選擇推理模式。對于簡單的代碼生成任務(wù),如 “生成一個計(jì)算數(shù)組平均值的函數(shù)”,模型快速輸出代碼,滿足開發(fā)者的即時需求。而對于復(fù)雜的算法設(shè)計(jì)問題,如 “優(yōu)化大規(guī)模數(shù)據(jù)處理的分布式算法”,LHRM 則通過深度推理,逐步構(gòu)建算法框架,驗(yàn)證其正確性和性能,幫助開發(fā)者攻克技術(shù)難題。這種高效的代碼生成和算法設(shè)計(jì)能力,將極大地推動軟件開發(fā)的智能化進(jìn)程。
在數(shù)學(xué)教育領(lǐng)域,LHRM 為學(xué)生提供個性化的數(shù)學(xué)問題解答和推理過程指導(dǎo)。對于基礎(chǔ)的數(shù)學(xué)運(yùn)算問題,如 “解一元二次方程”,模型直接給出答案和簡潔的步驟,幫助學(xué)生快速掌握解題方法。而對于復(fù)雜的數(shù)學(xué)證明題,如 “證明費(fèi)馬大定理在某些特殊情況下的成立”,LHRM 則生成詳細(xì)的推理過程,引導(dǎo)學(xué)生逐步理解證明邏輯,培養(yǎng)其數(shù)學(xué)思維能力。這種因材施教的智能輔導(dǎo)方式,將為數(shù)學(xué)教育帶來革命性的變化。
參考資料
- Think Only When You Need with Large Hybrid-Reasoning Models
https://arxiv.org/pdf/2505.14631
https://github.com/hiyouga/LLaMA-Factory
- github repo - volcengine/verl