偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Meta AI 推理新論文:模型記住套路,推理 token 砍半

人工智能
?論文提出一個新機制,讓大語言模型(LLM)能在每次推理后,總結(jié)自己重復(fù)用到的步驟,并把它們存為簡短指令,稱為“行為(Behavior)”。下一次遇到類似問題,模型不再重復(fù)推,而是直接調(diào)用這些“行為”。

Meta 又一次在 AI 推理上“開了掛”。

一份新論文顯示,Meta 的研究團隊找到一種讓大模型“用更少思維,想得更清楚”的辦法。

這篇論文名為《Metacognitive Reuse: Turning Recurring LLM Reasoning Into Concise Behaviors》,發(fā)表于 2025 年 9 月 17 日,來自 Meta 團隊與普林斯頓大學(xué)、蒙特利爾大學(xué)聯(lián)合研究。

圖片

作者包括 Aniket Didolkar、Nicolas Ballas、Anirudh Goyal 與 Sanjeev Arora。

論文地址:https://arxiv.org/abs/2509.13237

論文提出一個新機制,讓大語言模型(LLM)能在每次推理后,總結(jié)自己重復(fù)用到的步驟,并把它們存為簡短指令,稱為“行為(Behavior)”。

下一次遇到類似問題,模型不再重復(fù)推,而是直接調(diào)用這些“行為”。

效果驚人。

在數(shù)學(xué)推理任務(wù)上,Meta 團隊實測:模型在準(zhǔn)確率不下降的前提下,推理所需的 token 數(shù)量最多減少 46%。

也就是說,同樣一道題,模型少想一半,卻答得一樣準(zhǔn)。

研究團隊稱,這讓模型“學(xué)會記得自己怎么思考”,相當(dāng)于給 LLM 裝上了“思維緩存”。

思維有手冊:AI的“行為記憶術(shù)”

圖片

“行為復(fù)用”(Metacognitive Reuse)框架

Meta 把這個機制叫做“行為手冊(Behavior Handbook)”。

當(dāng)模型解決問題時,它會記錄下自己的整個推理過程。

然后再回頭反思,分析哪些步驟是常見套路,比如“容斥原理”“有理化分母”“代入后先化簡”。

模型會為這些套路起名、寫說明,變成一條條“行為指令”。

這些指令被收進(jìn)一本不斷擴充的手冊里。

論文把這種機制稱為“元認(rèn)知路徑(Metacognitive Pathway)”,意思是模型在“思考自己的思考”。

舉個例子:當(dāng)模型遇到一道擲骰子概率題,它可能調(diào)用behavior_total_outcomes(計算所有可能結(jié)果)和 behavior_inclusion_exclusion(用容斥原理避免重復(fù)計數(shù))。

調(diào)用完就不再多說廢話,答案照出。

所以,每個行為是一段壓縮的思維過程。它把原本要幾十步才能重建的推導(dǎo),濃縮成一句話。

論文展示了多個實驗結(jié)果。在 MATH 數(shù)據(jù)集上,行為調(diào)節(jié)推理(Behavior-conditioned Inference)讓模型的推理token平均減少近一半;在 AIME–24/25 高難數(shù)學(xué)題上,模型在低預(yù)算(2048–8192 tokens)下仍保持穩(wěn)定精度。

自我復(fù)盤,像人一樣“省思考”

長期以來,大模型被詬病“啰嗦”:每解一道題,都要展開冗長的 chain-of-thought,把所有中間步驟重新鋪一遍。

這不僅浪費 token,也拉低了模型吞吐量。Meta 讓模型自己反思,自己提煉,自己精簡。

圖片

行為提取提示設(shè)計

論文設(shè)計了三種模式:

第一種,是“行為調(diào)節(jié)推理”(Behavior-conditioned Inference)。模型從手冊里調(diào)出相關(guān)行為提示,帶著它們?nèi)ソ忸}。
結(jié)果:少寫46%的token,準(zhǔn)確率不降反升。

第二種,是“行為引導(dǎo)自我改進(jìn)”(Behavior-guided Self-improvement)。模型用自己總結(jié)的行為來指導(dǎo)下次推理。
結(jié)果:正確率比普通“自我批改”提升10%。

第三種,是“行為調(diào)節(jié)監(jiān)督微調(diào)”(Behavior-conditioned SFT)。Meta 研究者用帶有行為提示的推理數(shù)據(jù)去訓(xùn)練學(xué)生模型。
結(jié)果:學(xué)生模型學(xué)會推理,比傳統(tǒng)微調(diào)版本更聰明、更高效。

實驗中,Meta 使用了 R1-Llama-70B 作為“元認(rèn)知策略師”,并測試了 Qwen3-32B、Llama-3.1-8B 等多個學(xué)生模型。

幾乎所有模型都出現(xiàn)了相同現(xiàn)象:推理token直線下滑,性能保持平穩(wěn)。

研究者把這一現(xiàn)象形容為:“模型從慢推導(dǎo)變成快反應(yīng)?!彼辉倜看味贾貙懰季S,而是像人一樣,學(xué)會了用經(jīng)驗來省思考。

責(zé)任編輯:姜華 來源: 大數(shù)據(jù)文摘
相關(guān)推薦

2025-06-17 17:19:31

AIOpenAIGoogle

2025-05-16 08:58:09

2025-04-07 07:30:00

模型AI訓(xùn)練

2025-01-13 01:00:00

數(shù)據(jù)訓(xùn)練AI

2025-09-25 12:42:33

2023-10-18 13:26:00

訓(xùn)練模型

2025-04-14 00:10:00

人工智能AIAI 模型

2025-08-21 15:51:49

2025-10-23 12:46:39

2025-04-08 09:16:00

推理模型AI

2025-06-05 11:49:21

AI模型數(shù)據(jù)

2024-07-08 13:04:01

2022-03-28 14:23:26

HarmonyAI算法統(tǒng)一推理接口

2024-02-19 07:10:00

視覺模型

2025-04-07 08:42:00

2022-06-01 16:47:53

AI模型開源

2025-09-15 09:43:33

分層推理模型循環(huán)網(wǎng)絡(luò)推理

2025-06-10 03:30:00

2024-01-24 13:11:00

AI模型

2025-05-26 08:40:00

點贊
收藏

51CTO技術(shù)棧公眾號