偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ACL 2025 | 基于Token預算感知的大模型高效推理技術(shù)

人工智能 新聞
近日來自南京大學、羅格斯大學和馬薩諸塞大學阿默斯特分校的研究團隊提出了一種基于?Token 預算感知?的 LLM 推理新框架?TALE,旨在保證推理準確率的同時,顯著壓縮輸出長度、降低計算開銷。

本位作者分別來自南京大學,羅格斯大學和馬薩諸塞大學阿默斯特分校。第一作者韓廷旭與共同第一作者王震霆是分別來自南京大學和羅格斯大學的博士生,研究方向聚焦于大模型推理以及安全負責任的生成式人工智能。通訊作者為南京大學房春榮教授。

隨著大型語言模型(LLM)技術(shù)的不斷發(fā)展,Chain-of-Thought(CoT) 等推理增強方法被提出,以期提升模型在數(shù)學題解、邏輯問答等復雜任務(wù)中的表現(xiàn),并通過引導模型逐步思考,有效提高了模型準確率。

然而,這類方法也帶來了新的挑戰(zhàn):模型生成的中間推理過程往往冗長,產(chǎn)生了大量冗余 Token,這顯著增加了推理階段的計算成本和資源消耗。在 LLM 日益走向?qū)嶋H部署的背景下,如何在保證推理能力的同時控制成本,已成為制約其大規(guī)模應用的核心問題。

為解決這一矛盾,近日來自南京大學、羅格斯大學和馬薩諸塞大學阿默斯特分校的研究團隊提出了一種基于 Token 預算感知 的 LLM 推理新框架 TALE,旨在保證推理準確率的同時,顯著壓縮輸出長度、降低計算開銷。

TALE 的核心理念是在推理過程中引入「Token 預算」這一約束機制,引導模型在限定的 Token 預算范圍內(nèi)完成有效推理。這種機制不僅可以提升模型對資源約束的適應性,也能促使其生成更加簡潔、高效的推理路徑。

該成果近日被自然語言處理頂級會議 ACL 2025 正式接收為 Findings。

圖片

  • 論文標題:Token-Budget-Aware LLM Reasoning
  • 論文地址:https://arxiv.org/pdf/2412.18547
  • GitHub:https://github.com/GeniusHTX/TALE

背景與動機:CoT Token 冗余與 Token 彈性現(xiàn)象

圖片

圖 1:關(guān)于 Token 預算的直觀示例。

以 CoT 為代表的推理增強技術(shù),已被廣泛集成至 GPT-4o、Yi 系列等主流模型中。但研究者發(fā)現(xiàn),模型生成的中間推理過程往往冗長重復,輸出 Token 數(shù)量成倍增長,帶來了顯著的計算與經(jīng)濟成本。

特別是在資源受限的邊緣端推理任務(wù)部署場景(如教育答題、金融問詢、代碼理解)中,如何在「準確率」與「資源效率」之間取得平衡,成為當前急需解決的關(guān)鍵問題。該工作的研究者通過引入顯式的 Token 預算信息,引導或訓練模型在滿足任務(wù)正確性的同時壓縮推理過程,實現(xiàn)推理效率與性能之間的最優(yōu)折中。

研究者首先通過不斷降低問題的 Token 預算來探究模型思維鏈壓縮的極限,并在系統(tǒng)性實驗中觀察到一個普遍存在的現(xiàn)象——Token Elasticity(Token 彈性)。即:當提示中施加過小的 Token 預算約束時,模型不僅難以遵守預算,反而可能耗費更多的 Token,導致總成本進一步上升。

這種「壓縮失敗反彈」的現(xiàn)象表明,當前 LLM 的推理行為在預算限制下存在一定的不穩(wěn)定性和非線性響應,提示我們不能簡單地通過減小預算來壓縮推理,而是需要設(shè)計一套機制,引導模型在合理預算范圍內(nèi)產(chǎn)生最優(yōu)推理路徑。

為了實現(xiàn)這一目標,研究者提出了 TALE(Token-Budget-Aware LLM Reasoning) 框架,以實現(xiàn)推理質(zhì)量與生成效率的協(xié)同優(yōu)化。研究者給出了兩種不同的具體實現(xiàn)方式:基于預算估計與提示工程的 TALE-EP(Estimation and Prompting) 以及基于后訓練內(nèi)化 Token 預算感知的 TALE-PT(Post-Training)。

圖片

圖 2:關(guān)于 Token 彈性現(xiàn)象的直觀示例。

基于預算估計與提示工程的 TALE-EP(Estimation and Prompting)

圖片

圖 3:TALE-EP 的框架圖。

TALE-EP 是一種輕量級、即插即用的基于零樣本提示的推理增強方法。TALE-EP 首先讓模型自我估計對每個具體問題所需的合理 Token 預算,并在推理過程中將該預算信息融入輸入提示中,引導模型在不超過預算的前提下生成推理過程。這種方法無需修改模型參數(shù),僅通過提示工程即可實現(xiàn)對 Token 生成的動態(tài)控制,兼具靈活性與實用性。實驗結(jié)果顯示,TALE-EP 在多個數(shù)學推理數(shù)據(jù)集上顯著降低了 Token 使用量,平均節(jié)省超過 60% 的推理開銷,且保持了與傳統(tǒng) CoT 方法相當甚至更優(yōu)的準確率。

圖片

圖 4:TALE-EP 的實驗性能展示。

基于后訓練內(nèi)化 Token 預算感知的 TALE-PT(Post-Training)

圖片

圖 5:TALE-PT 的框架圖

TALE-PT 則通過監(jiān)督微調(diào)(SFT)偏好優(yōu)化(DPO)的訓練方式將 Token 預算感知內(nèi)化為模型本身的推理能力。TALE-PT 首先通過搜索算法為每個問題尋找最優(yōu) Token 預算,并使用該預算生成精煉的推理路徑作為「目標輸出」,引導其在未來推理中主動生成更符合預算約束的輸出。

實驗結(jié)果顯示,無論是采用 SFT 還是 DPO 方法進行后訓練,TALE-PT 均可在維持推理準確率的同時,將平均推理所需的 Token 數(shù)量降低 40% 以上,顯著優(yōu)于原始的思維鏈推理方式。

圖片

圖 6:TALE-PT 的實驗性能展示。

結(jié)語

本研究圍繞大型語言模型推理過程中的 Token 冗余問題,提出了具有前瞻性的解決方案——TALE 框架,通過引入「Token 預算感知」機制,實現(xiàn)了推理準確性與生成效率之間的有效平衡。值得一提的是,本文所提出的 Token 預算思想已開始在行業(yè)中獲得響應,包括 Qwen3 和 Claude 3.7 等最新發(fā)布的大模型也引入了類似的預算控制機制(圖 7 和 圖 8 所示),用于優(yōu)化推理效率與輸出質(zhì)量。

圖片

圖 7:截取自 Qwen3 技術(shù)報告。

圖片

圖 8:截取自 Claude Developer Guide。

實驗結(jié)果表明,TALE 在多個主流數(shù)據(jù)集和模型上均表現(xiàn)出顯著的壓縮效果和良好的兼容性,進一步拓展了大型語言模型在資源受限場景下的應用邊界。未來,該框架有望推廣至更多任務(wù)類型和多模態(tài)場景中,推動大型模型推理走向更加可控、高效與可落地。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-07-10 09:06:13

2025-05-22 09:07:00

2025-06-10 03:30:00

2025-03-31 00:33:00

2023-10-06 20:30:33

大模型LLMtoken

2023-11-27 15:06:24

2025-04-08 09:16:00

推理模型AI

2024-01-15 08:17:00

模型技術(shù)

2025-07-08 03:11:00

2025-10-15 00:00:00

2023-05-30 14:17:00

模型推理

2025-06-18 08:53:00

AI模型語音

2025-06-06 06:00:00

2024-10-21 16:41:17

2024-07-08 13:04:01

2023-12-28 17:31:44

PixelLM性能模型

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2024-07-02 12:27:47

2025-04-30 16:48:07

2025-02-06 10:16:00

點贊
收藏

51CTO技術(shù)棧公眾號