偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

推理時擾動高熵詞,增強(qiáng)LLM性能

人工智能 新聞
這項(xiàng)工作揭示了 LLM 在推理階段的一少部分高熵詞會顯著影響輸出正確性,并提出了 Minimal Test-Time Intervention (MTI),其中包含 Selective CFG intervention 和 Lightweight negative-prompt guidance。該方法無需訓(xùn)練并即插即用,易于與現(xiàn)代加速框架和各種解碼策略或測試時擴(kuò)展方法進(jìn)行結(jié)合。

本文第一作者楊震,香港科技大學(xué)(廣州)博士生,研究方向是多模態(tài)理解與生成等。本文通訊作者陳穎聰,香港科技大學(xué)(廣州)助理教授,主要研究課題包括生成模型、具身智能等。

隨著對大語言模型的研究越來越深入,關(guān)于測試時間擴(kuò)展 (test-time scaling) 的相關(guān)研究正迅速嶄露頭角。研究團(tuán)隊重新審視測試時行為,發(fā)現(xiàn)了一個簡單但尚未得到充分探索的現(xiàn)象:LLM 推理時的不確定性高度局部化 —— 一小部分高熵詞會顯著影響輸出的正確性。

正是基于這一關(guān)鍵觀察,來自香港科技大學(xué)(廣州)的研究團(tuán)隊提出了 Minimal Test-Time Intervention (MTI),其主要包含了 Selective CFG intervention 與 Lightweight negative-prompt guidance 兩種方法。MTI 能夠在推理階段無需額外訓(xùn)練,就提升大型語言模型的推理能力。

  • 論文標(biāo)題:Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
  • 論文地址:https://arxiv.org/abs/2510.13940
  • Github(代碼已開源):https://github.com/EnVision-Research/MTI
  • Huggingface Paper:https://huggingface.co/papers/2510.13940

Selective CFG intervention:減弱高熵詞的不確定性

LLM 在多步推理中經(jīng)常表現(xiàn)出鏈?zhǔn)讲环€(wěn)定性:幾個步驟中的不確定性會放大并導(dǎo)致整個答案偏離軌道。為了找到這種不穩(wěn)定性的原因,研究團(tuán)隊分析了 LLM 回答錯誤的問題,并發(fā)現(xiàn)錯誤回答的熵更高,而這主要是由回答中的高熵詞導(dǎo)致的。為此,研究團(tuán)隊提出在高熵詞上使用 Classifier-free Guidance (CFG) 以在降低不確定性的同時穩(wěn)定推理過程,并能在保持高效率的同時提高性能。

Lightweight negative-prompt guidance:復(fù)用 KV cache 并注入負(fù)向詞,節(jié)省顯存分配的同時維護(hù)更優(yōu)的無條件空間

研究團(tuán)隊觀察到,盡管 Selective CFG intervention 僅對高熵詞進(jìn)行操作,但是仍需為無條件預(yù)測支路分配一個新的 KV 緩存,這大大降低了現(xiàn)代 LLM 推理加速器的效率。比如,維護(hù)雙 KV 緩存會削弱諸如 vllm 等框架的長上下文處理能力。此外,CFG 源自計算機(jī)視覺,其會在訓(xùn)練過程中引入無條件標(biāo)簽來學(xué)習(xí)全局?jǐn)?shù)據(jù)分布。相比之下,LLM 中的 CFG 并未訓(xùn)練建模全局文本分布的能力。因此,研究團(tuán)隊認(rèn)為無條件分支應(yīng)該被視為一個負(fù)向提示通道:條件分支專注于生成正確的詞,而無條件分支則被鼓勵生成錯誤的詞。為此,研究團(tuán)隊重用了條件分支的 KV 緩存,并附加了一條用于引出錯誤詞的短指令,最終實(shí)現(xiàn)了在維護(hù)更優(yōu)無條件空間的同時節(jié)省了 KV 緩存分配。此外,注入的短語非常靈活,比如研究團(tuán)隊發(fā)現(xiàn) “OUTPUT ERROR” 就已經(jīng)產(chǎn)生了優(yōu)良的效果。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊在多個任務(wù)上進(jìn)行了測試,其中包括通用任務(wù)(Winogrande,MMLU-Pro),代碼任務(wù)(Humaneval,Humaneval_plus,LiveCodeBench),數(shù)學(xué)與科學(xué)任務(wù)(GPQA-Diamond,MATH500)上進(jìn)行了系統(tǒng)測試。結(jié)果顯示僅在很少的高熵詞上使用 MTI,就能在多個數(shù)據(jù)集上穩(wěn)定帶來性能提升,驗(yàn)證了方法的有效性。比如在 Qwen3-14B-Reasoning 上,僅對 3.5% 的詞執(zhí)行 MTI,可以為所有任務(wù)平均提點(diǎn) 1.58。

從 AIME2024 的實(shí)驗(yàn)中也發(fā)現(xiàn),MTI 方法具備顯著的優(yōu)勢。比如在 Qwen3-8B-Reasoning 模型中,僅需對 1.9% 的詞執(zhí)行 CFG,就可以為準(zhǔn)確性帶來 4.9% 的增長,證明了 MTI 在維護(hù)高效率的同時,也改進(jìn)了性能。

分析實(shí)驗(yàn)

研究團(tuán)隊發(fā)現(xiàn),一些低熵詞很難被 CFG 所改變,這是由于 LLM 在低熵詞上對自己的輸出非常確信,所以很難被 CFG 改變,而這些失敗的 CFG 操作便降低了效率。CFG 所能改變的預(yù)測主要集中在高熵詞部分,這是由于模型對自己的預(yù)測并不自信,因此 CFG 可以修正它。這些發(fā)現(xiàn)也從側(cè)面反映并非所有的詞都需要使用 CFG。

研究團(tuán)隊發(fā)現(xiàn)對于基礎(chǔ)模型,詞云中的一些低信息量占位符(例如 **)被語義上更有意義的詞語所取代,從而創(chuàng)造了更豐富的推理分支,并最終提高了準(zhǔn)確率。對于推理模型,研究團(tuán)隊觀察到從單一連接詞(例如 so)向更多樣化的連接詞(例如 however、if、perhaps、alternatively、wait)的轉(zhuǎn)變。這有助于模型摒棄錯誤的先驗(yàn)推理鏈,并開啟新的思路,最終得出正確的推理。總體而言,應(yīng)用該方法可以產(chǎn)生更加多樣化和平衡的詞匯,擴(kuò)展更多的假設(shè)和推理軌跡,最終獲得更好的結(jié)果。

總結(jié)

總的來看,這項(xiàng)工作揭示了 LLM 在推理階段的一少部分高熵詞會顯著影響輸出正確性,并提出了 Minimal Test-Time Intervention (MTI),其中包含 Selective CFG intervention 和 Lightweight negative-prompt guidance。該方法無需訓(xùn)練并即插即用,易于與現(xiàn)代加速框架和各種解碼策略或測試時擴(kuò)展方法進(jìn)行結(jié)合。該方法利用對推理階段高熵詞的擾動,不僅顯著提升了模型在大量任務(wù)上的表現(xiàn),也為未來挖掘 LLM 推理階段的潛力提供了全新的思路。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-02-26 07:43:10

大語言模型LLM推理框架

2024-04-17 10:08:20

LLM人工智能大型語言模型

2025-04-24 10:26:40

2025-03-05 04:00:00

2024-08-16 14:15:00

AI訓(xùn)練

2023-09-01 15:22:49

人工智能數(shù)據(jù)

2024-12-09 13:40:26

2024-05-20 08:31:33

檢索增強(qiáng)生成LLM大型語言模型

2024-07-03 09:38:35

LLM人工智能

2024-12-11 08:12:24

2025-06-05 11:51:14

NVIDIAProRLLLM

2025-10-10 02:00:00

2023-08-25 09:34:24

模型訓(xùn)練

2025-10-27 09:03:00

2023-11-27 13:19:54

模型訓(xùn)練

2024-09-09 08:31:15

2025-04-27 09:15:40

2025-06-06 09:13:00

2025-10-14 08:58:00

2025-07-08 08:38:09

推理錨點(diǎn)LLM大模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號