偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

無(wú)需SFT也不用RL,樣本級(jí)推理優(yōu)化神器SLOT來(lái)了,準(zhǔn)確率輕松+10%

人工智能 新聞
近期,當(dāng)很多人還在糾結(jié)用什么 label 和 reward 訓(xùn)練大模型的時(shí)候,以及糾結(jié)用什么樣的基準(zhǔn)模型進(jìn)行公平比較的時(shí)候,西湖大學(xué) MAPLE 實(shí)驗(yàn)室另辟蹊徑:既然 LLM 在復(fù)雜指令上表現(xiàn)不佳,需要引入單獨(dú)的 SFT 或者 RL 過(guò)程,那為什么不讓模型在推理時(shí)「臨時(shí)學(xué)習(xí)」一下這個(gè)具體的問(wèn)題呢?這個(gè)看似「離譜」的想法,竟然帶來(lái)了驚人的效果提升。

試想一下,如果你參加考試時(shí),可以在答題前花幾秒鐘「適應(yīng)」一下這道具體的題目,你的表現(xiàn)會(huì)不會(huì)更好?

這正是西湖大學(xué)研究團(tuán)隊(duì)在最新論文中提出的核心思想。他們開(kāi)發(fā)的 SLOT(Sample-specific Language Model Optimization at Test-time)方法,把每個(gè)輸入 prompt 本身當(dāng)作一份「迷你訓(xùn)練數(shù)據(jù)」,讓模型在生成答案前先「學(xué)習(xí)」理解這個(gè)具體問(wèn)題。

更令人驚訝的是,這個(gè)方法簡(jiǎn)單到離譜:

  • 只需要優(yōu)化一個(gè)輕量級(jí)參數(shù)向量 delta(僅修改最后一層特征)
  • 只需要幾步 (比如 3 步) 梯度下降
  • 計(jì)算開(kāi)銷(xiāo)幾乎可以忽略不計(jì)(僅增加 7.9% 推理時(shí)間)
  • 完全即插即用,無(wú)需修改原模型

圖片


效果炸裂

多項(xiàng)基準(zhǔn)測(cè)試刷新紀(jì)錄

即便拿最有挑戰(zhàn)性的高性能基線做比較對(duì)象,實(shí)驗(yàn)結(jié)果令人矚目 (所有 log 都在開(kāi)源 github 里):

  • Qwen2.5-7B 在 GSM8K 數(shù)學(xué)推理任務(wù)上準(zhǔn)確率從 57.54% 飆升至 66.19%,提升 8.65 個(gè)百分點(diǎn)。
  • DeepSeek-R1-Distill-Llama-70B 在 GPQA Diamond 上達(dá)到 68.69%,創(chuàng)下 70B 級(jí)別開(kāi)源模型新紀(jì)錄
  • 在高難度的 AIME 2024 數(shù)學(xué)競(jìng)賽題上,多個(gè)模型實(shí)現(xiàn) 10% 以上的提升

圖片

核心創(chuàng)新

把 Prompt 當(dāng)作「測(cè)試時(shí)訓(xùn)練樣本」

傳統(tǒng)的 LLM 在面對(duì)復(fù)雜或特殊格式的指令時(shí)經(jīng)常「翻車(chē)」,它可能會(huì)忽略格式要求或給出錯(cuò)誤答案。

SLOT 的解決方案優(yōu)雅而簡(jiǎn)單:針對(duì)單獨(dú)一個(gè)問(wèn)題,直接在最后一層特征上加一個(gè) delta 向量,并在問(wèn)題 prompt 本身上最小化交叉熵?fù)p失即可。

由于僅僅需要在最后一層上優(yōu)化一個(gè)加性的 delta 參數(shù)向量,每個(gè)問(wèn)題只需要經(jīng)過(guò)一次網(wǎng)絡(luò)推理。通過(guò)把輸入給最后一層的中間結(jié)果進(jìn)行緩存,優(yōu)化 delta 的過(guò)程幾乎不需要增加計(jì)算開(kāi)銷(xiāo)。

圖片

由于方法十分簡(jiǎn)單,任何偽代碼公式都多余,這里給出如何把 SLOT 應(yīng)用于你的工作的 transformers 版本代碼(vLLM 版本也已開(kāi)源)。

以 modeling_qwen.py 里 Qwen2ForCausalLM 模型為例,研究團(tuán)隊(duì)在 forward 函數(shù)里獲得 hidden_states 之后插入這段代碼:首先初始化一個(gè)全 0 的 delta 向量,加在 last hidden states 上;然后用當(dāng)前的 prompt 作為訓(xùn)練數(shù)據(jù),delta 作為可學(xué)習(xí)參數(shù),以交叉熵?fù)p失優(yōu)化,得到 sample-specific 的 delta 參數(shù);之后即可用優(yōu)化好的 delta 生成后續(xù) token。

圖片

為什么如此有效?

深入分析揭示秘密

研究團(tuán)隊(duì)通過(guò)分析發(fā)現(xiàn),SLOT 優(yōu)化后的 delta 會(huì)顯著調(diào)整輸出詞匯的概率分布:

圖片


  • 增強(qiáng)的詞匯:reasoning、think、thinking 等推理相關(guān)詞匯
  • 抑制的詞匯:數(shù)字符號(hào)(0-9)、模態(tài)動(dòng)詞(should、will)、結(jié)束符 </s>

這意味著 SLOT 在鼓勵(lì)模型「深思熟慮」,避免過(guò)早結(jié)束推理或陷入表面的模式匹配。

亮點(diǎn)在于:不同于 SFT 或者 RL 的微調(diào)算法,該方法無(wú)需:

  • 修改模型架構(gòu)
  • 額外的訓(xùn)練數(shù)據(jù)
  • 復(fù)雜的采樣策略
  • 昂貴的計(jì)算資源

廣泛適用

從 1.5B 到 70B,從基礎(chǔ)模型到推理專家

SLOT 在各種規(guī)模和類型的模型上都展現(xiàn)出穩(wěn)定的提升:

  • Qwen 系列:1.5B 到 32B 均有提升。
  • Llama 系列:包括 Llama-3.1。
  • DeepSeek-R1 系列:即使是已經(jīng)專門(mén)優(yōu)化過(guò)推理能力的模型,仍能獲得顯著提升。

特別值得注意的是,在最具挑戰(zhàn)性的任務(wù)上,SLOT 的提升最為明顯:

  • C-Eval Hard 子集:+8.55%
  • AIME 2024:部分模型提升超過(guò) 13%
  • GPQA Diamond: 由 65.66 提升到 68.69 (開(kāi)源 sota 級(jí)別)

結(jié)語(yǔ)

在大模型時(shí)代,當(dāng)所有人都在追求「更大、更強(qiáng)」時(shí),SLOT 用一個(gè)簡(jiǎn)單得「離譜」的想法證明:有時(shí)候,讓模型在回答前先「理解」一下問(wèn)題,就能帶來(lái)驚人的效果。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-10-26 08:40:15

模型隱私推理

2025-05-29 09:18:20

2023-12-12 13:51:00

AI訓(xùn)練

2022-09-25 17:07:27

訓(xùn)練圖像

2023-10-28 13:36:48

模型ChatGPT

2025-03-11 08:50:00

2023-11-20 21:56:04

AI推理

2025-06-06 04:10:00

LLM人工標(biāo)注RL

2025-04-18 08:42:52

模型推理AI

2023-11-01 13:47:12

模型研究

2022-04-09 10:16:52

神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)AI

2025-02-17 10:37:27

2023-02-03 16:31:02

模型

2024-06-06 10:08:32

2022-04-22 10:29:46

機(jī)器學(xué)習(xí)數(shù)據(jù)集計(jì)算

2025-05-21 13:56:37

模型圖像AI

2024-09-12 13:50:00

模型訓(xùn)練

2022-06-07 07:38:43

威士忌氣味測(cè)試

2024-07-08 08:39:00

2024-04-19 13:53:20

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)