0人工參與實現(xiàn)梯度更新!MIT新框架讓AI自動生成微調(diào)數(shù)據(jù),權(quán)重自主升級
大模型終于學(xué)會更新自己了!
MIT提出一種新的強化學(xué)習(xí)框架,讓模型生成微調(diào)數(shù)據(jù)和自我更新指令,實現(xiàn)模型權(quán)重的更新。
無需人工參與,模型就可以自動進行梯度更新,自主學(xué)習(xí)獲取新知識或適應(yīng)新任務(wù)。
該框架名為SEAL(Self-Adapting LLMs),是一種內(nèi)外兩層嵌套的學(xué)習(xí)機制。
這種機制下,會根據(jù)更新后的模型在任務(wù)上的表現(xiàn)計算獎勵,進一步優(yōu)化自我更新指令的生成策略。
SEAL首次在權(quán)重層面賦予了大模型自我驅(qū)動的更新能力,擺脫了完全依賴外部監(jiān)督數(shù)據(jù)的局限。
模型自動學(xué)習(xí)知識更新策略
SEAL在論文中通過兩個主要實驗任務(wù)驗證其效果,分別是知識注入(knowledge incorporation)和小樣本學(xué)習(xí)(few-shot learning)。
這兩類任務(wù)分別對應(yīng)模型進化中的兩種基本情境——記住新知識,以及快速適應(yīng)新任務(wù)。
知識注入
在知識注入實驗中,研究者使用了Qwen2.5-7B模型和SQuAD數(shù)據(jù)集中的段落及對應(yīng)問題。
每輪訓(xùn)練開始時,模型接收到一個新的段落作為輸入上下文,但不會看到與之配套的問題答案。
模型首先根據(jù)這段輸入生成訓(xùn)練數(shù)據(jù),然后使用LoRA進行一次小規(guī)模微調(diào),該過程僅基于生成后的數(shù)據(jù),不包括原始段落或問題。
微調(diào)完成后,模型會在下游任務(wù)上接受評估,需要在沒有原始段落作為輸入的情況下,回答多個與該段落相關(guān)的問題。

實驗對比了以下幾種方案:
- 僅用原始段落微調(diào);
- 使用GPT-4.1生成的implication句子輔助訓(xùn)練;
- 用SEAL自身生成的數(shù)據(jù)微調(diào)。
在單段落場景下,Qwen原始模型的準(zhǔn)確率為32.7%,使用原文微調(diào)提升至33.5%;加入GPT-4.1合成數(shù)據(jù)后達到46.3%;而使用SEAL方法進行微調(diào)后,準(zhǔn)確率進一步提升至47.0%。
這說明SEAL不僅優(yōu)于使用原文或非優(yōu)化的生成數(shù)據(jù),甚至能超越由GPT-4.1生成的高質(zhì)量提示數(shù)據(jù),表現(xiàn)出較強的知識整合能力。

此外,研究者還使用了篇幅更長的段落進行了測試,包括200段落和完整SQuAD驗證集(2067段落),SEAL在200段落設(shè)置下達到了58.2%的準(zhǔn)確率,顯著高于未優(yōu)化版本,說明SEAL可以泛化到更大規(guī)模的數(shù)據(jù)整理任務(wù)。

小樣本學(xué)習(xí)
在小樣本學(xué)習(xí)實驗中,研究者使用LLaMA-3.2-1B-Instruct模型和ARC-AGI數(shù)據(jù)集中經(jīng)過篩選的任務(wù)子集。
ARC任務(wù)通常包括若干個示例的圖形變換(以文本形式表達)輸入輸出對,目的是從中學(xué)習(xí)規(guī)律并對一個新輸入做出預(yù)測。

SEAL接收到這些示例后,不會直接推理,而是生成一個訓(xùn)練配置,并執(zhí)行LoRA微調(diào),隨后模型在該任務(wù)的測試輸入上進行預(yù)測。

結(jié)果顯示,SEAL訓(xùn)練出的策略使得任務(wù)成功率達到72.5%,遠(yuǎn)高于僅使用固定few-shot提示的0%,也明顯優(yōu)于隨機采樣策略下的20%。
雖然不及人工設(shè)定的最優(yōu)策略(Oracle TTT)的100%,但作為由模型自主摸索出的學(xué)習(xí)路徑,這一成功率已充分說明SEAL具備較強的任務(wù)適應(yīng)能力。

那么,SEAL框架是如何工作的呢?
雙循環(huán)系統(tǒng)自動生成訓(xùn)練指令
SEAL的工作過程簡單說就是讀取新信息,用自己的語言重寫,并進行梯度更新,實際上是進行自主學(xué)習(xí)。
結(jié)構(gòu)上,SEAL的整個系統(tǒng)由兩部分構(gòu)成——一個強化學(xué)習(xí)驅(qū)動的外部循環(huán)和一個用于執(zhí)行參數(shù)更新的內(nèi)部循環(huán)。

在外層,模型面對一個新的輸入上下文(比如一段文本或任務(wù)示例),首先生成一條self-edit指令。
這是一段自然語言組成的“微調(diào)指令”,描述模型應(yīng)如何基于當(dāng)前輸入來更新自己,包括提取什么樣的信息、生成哪些訓(xùn)練樣本、使用什么訓(xùn)練參數(shù)(例如學(xué)習(xí)率、訓(xùn)練輪數(shù)、損失函數(shù)策略)等。
這一行為本質(zhì)上是模型在設(shè)計自己的訓(xùn)練流程。
隨后進入內(nèi)層,模型按照self-edit的指令,執(zhí)行一次微調(diào)。
這一步會構(gòu)造合成訓(xùn)練數(shù)據(jù),可能包括推理句、問答對、重述信息,或者針對任務(wù)的具體樣本變換,并以指定的優(yōu)化策略進行權(quán)重更新。
更新后得到的新模型將被立即用于解決相應(yīng)任務(wù)(比如回答相關(guān)問題或完成預(yù)測),評估其效果,得出一個表現(xiàn)評分。
這個評分(reward)反映了該self-edit對性能提升的效果,進而用于生成下一步的self-edit策略。
為了完成這個策略優(yōu)化,SEAL使用的是一種非傳統(tǒng)的強化學(xué)習(xí)方法,稱為ReSTEM(Reinforcement Learning with Sampled Trajectories and Expert Mimicry)。

其關(guān)鍵思路不是直接對reward進行梯度回傳,而是采取一種行為克隆+過濾采樣的方式。
具體來說,在每個上下文中,模型會生成多個self-edit候選,每個候選會被分別應(yīng)用,執(zhí)行一次微調(diào),得到一個新模型。
然后會對新模型在任務(wù)上的表現(xiàn)進行評估,只有帶來性能提升的self-edit才會被保留。
接著用這批“有效”的self-edit作為訓(xùn)練數(shù)據(jù),對生成策略進行一次有監(jiān)督微調(diào)(行為克隆),然后反復(fù)迭代,使得模型越來越傾向于生成有效的self-edit。
ReSTEM本質(zhì)上是一個期望最大化過程,相比PPO等策略梯度方法,ReSTEM結(jié)構(gòu)更簡單,訓(xùn)練更穩(wěn)定,同時也更適用于大模型的生成行為學(xué)習(xí)任務(wù)。
通過這一套機制,SEAL實現(xiàn)了“學(xué)會如何讓自己學(xué)得更好”。
模型不僅能通過已有數(shù)據(jù)完成任務(wù),更能主動設(shè)計訓(xùn)練方式、構(gòu)造訓(xùn)練數(shù)據(jù),并不斷通過反饋優(yōu)化這種“自學(xué)習(xí)”的策略。最終表現(xiàn)為一種具備自我編輯與持續(xù)進化能力的語言模型結(jié)構(gòu)。
論文地址:
https://arxiv.org/abs/2506.10943
項目主頁:
https://jyopari.github.io/posts/seal





























