MIT發(fā)布自適應語言模型!新任務,自生成遠超「GPT-4.1合成訓練數(shù)據(jù)」
經(jīng)過海量文本預訓練后的大模型,已經(jīng)能夠很好地理解語言,并根據(jù)要求來生成文本。
不過,在部署大模型應用于特定任務、整合新信息或學習新的推理技能時,仍然需要人工標注數(shù)據(jù)對模型權重進行微調。
大模型是否可以通過「自己生成訓練數(shù)據(jù)和學習方法」來實現(xiàn)對新任務的自適應?
麻省理工學院的研究人員提出了一個全新的自適應語言模型(Self-Adapting LLMs,簡稱SEAL)的框架,可以讓大模型通過生成自己的微調數(shù)據(jù)和更新指令來實現(xiàn)自適應。
圖片
論文鏈接:https://arxiv.org/pdf/2506.10943
項目主頁:https://jyopari.github.io/posts/seal
與以往依賴獨立適應模塊或輔助網(wǎng)絡的方法不同,SEAL直接利用模型自身的生成能力來參數(shù)化和控制其自我適應過程。
當模型接收到新的輸入時,會生成一個「自編輯」(self-edit)——即自然語言指令,用于指定數(shù)據(jù)和優(yōu)化超參數(shù),以更新模型的權重。
通過有監(jiān)督微調(SFT),自編輯能夠實現(xiàn)持久的權重更新,從而實現(xiàn)長期的適應性。
圖片
為了訓練模型生成有效的自編輯,研究人員采用強化學習循環(huán),以「更新后模型在下游任務中的表現(xiàn)」作為獎勵信號。
在嘗試「將新的事實性知識整合到LLM」的實驗上,研究人員使用SEAL模型生成的合成數(shù)據(jù)進行微調。
相比與直接在原始文本上微調不同,經(jīng)過強化學習訓練后,使用SEAL生成的合成數(shù)據(jù)進行微調,將SQuAD無上下文版本的問題回答準確率從33.5%提高到47.0%,甚至超過了GPT-4.1生成的合成數(shù)據(jù)。
研究人員還在ARC-AGI基準測試的簡化子集上對SEAL進行了少樣本學習評估,模型需要利用一組工具自主選擇合成數(shù)據(jù)增強和優(yōu)化超參數(shù)(例如學習率、訓練周期、對特定token類型的損失計算)。
實驗表明,使用SEAL自動選擇和配置這些工具,比標準的上下文學習(ICL)和沒有強化學習訓練的自編輯表現(xiàn)更好。
自適應大模型
自適應大模型(SEAL)可以幫助語言模型更好地適應特定任務。
假設語言模型的參數(shù)為θ,C是與任務相關的上下文信息,τ是用于評估模型適應性的下游任務,SEAL會針對每個任務實例(C, τ)進行操作。
在知識整合任務中,C是需要整合到模型內部知識中的段落,τ是關于該段落的問題和答案;
在少樣本學習任務中,C是新任務的少量示例,τ是查詢輸入和真實輸出。
給定上下文C后,模型會生成一個自編輯(SE),通過有監(jiān)督微調的方式來更新自己的參數(shù)。
研究人員使用強化學習來優(yōu)化自編輯生成的過程:模型生成SE作為動作,根據(jù)生成SE后模型在τ上的表現(xiàn)獲得獎勵,并根據(jù)獎勵更新策略,以最大化預期獎勵。
獎勵與模型參數(shù)θ有關,所以強化學習的狀態(tài)為上下文C和參數(shù)θ。
圖片
由于模型參數(shù)會不斷更新,之前版本模型收集的(狀態(tài),動作,獎勵)三元組可能不再適用于當前模型。
因此,研究人員采用「在線策略」方法,即從當前模型中采樣自編輯,并基于當前模型計算獎勵。
相比其他策略方法,ReSTEM采用的「拒絕采樣+有監(jiān)督微調」,可以讓訓練過程更穩(wěn)定。
ReSTEM的過程為:首先從當前模型策略中采樣一些候選輸出(即自編輯),然后只對那些獲得正獎勵的樣本進行監(jiān)督微調,以此來強化模型的策略。
實驗結果
少樣本學習
研究人員使用了一個沒有經(jīng)過針對ARC(抽象和推理語料,Abstract and Reasoning Corpus)預訓練的小型開源模型Llama-3.2-1B-Instruct進行實驗。
由于大多數(shù)ARC任務對于未經(jīng)過ARC預訓練的模型來說難度較大,研究人員從ARC訓練集中篩選出11個任務,從評估集中篩選出8個任務,確保這些任務在最優(yōu)TTT(測試時訓練,test-time training)配置下可以被基礎的Llama-3.2-1B-Instruct模型解決。
在訓練過程中,研究人員使用ReSTEM方法,通過為每個訓練任務采樣15個自編輯來訓練模型。
每個自編輯分別應用于生成15個更新后的模型,然后在對應的測試樣本上進行評估,只保留那些「經(jīng)過適應后能夠為測試輸入生成正確輸出」的模型。
評估指標為成功率:為每個保留的評估任務生成5個自編輯并評估模型,然后統(tǒng)計能夠產(chǎn)生正確輸出的自編輯的百分比,可以反映出所學自編輯生成策略的質量。
圖片
對比基線方法包括上下文學習(ICL)、TTT+自編輯(無強化學習)和Oracle TTT(性能上限)。
與基線方法相比,SEAL顯著提高了適應成功率(72.5%),而未經(jīng)強化學習訓練的基礎模型的自編輯成功率僅為20%,不進行任何適應的成功率為0%
知識整合(Knowledge Incorporation)
研究人員使用Qwen2.5-7B模型,從SQuAD(斯坦福問答數(shù)據(jù)集)的段落中整合新的事實內容。
對比基線包括基礎模型(直接在問答任務上評估,Base Model)、僅在段落上微調模型(Train on Passage)、在段落和自動生成的推論上訓練模型(Train on Passage + Synthetic)、在段落和通過OpenAI API從GPT-4.1收集的模型生成推論上訓練。
圖片
在單段落設置下,僅在段落上微調的模型相比基礎模型幾乎沒有提升(33.5% vs. 32.7%),表明僅使用原始數(shù)據(jù)是不夠的。
使用GPT-4.1生成的推論可以將準確率提升到46.3%,比僅使用段落的基線提高了12.8個百分點。
使用Qwen2.5-7B模型生成的合成數(shù)據(jù)可以達到39.7%,提高了6.2個百分點。
經(jīng)過強化學習后,SEAL進一步將準確率提升到47.0%,盡管模型規(guī)模較小,但表現(xiàn)優(yōu)于使用GPT-4.1生成的合成數(shù)據(jù)。
在持續(xù)預訓練(CPT)設置下,模型從200個段落中整合信息,并在所有974個相關問題上進行評估。研究人員為每個段落采樣5個自編輯生成內容,并將這些合成數(shù)據(jù)用于持續(xù)預訓練。
結果顯示,SEAL在多段落設置下也優(yōu)于所有基線方法,準確率達到43.8%。
雖然絕對性能低于單段落設置,但相對提升效果保持一致,這表明SEAL發(fā)現(xiàn)的編輯策略不僅適用于單個段落的合成數(shù)據(jù)生成,還能推廣到更廣泛的場景。
圖片
僅需兩次迭代,SEAL就超過了使用GPT-4.1數(shù)據(jù)的效果,后續(xù)迭代的提升效果逐漸減弱,表明策略迅速收斂到一種能夠「將段落提煉為易于學習的基本事實」的編輯風格。
圖片
從例子中,可以看到強化學習可以促使生成更詳細的自編輯內容,而這些更詳細的編輯又反過來提升了整體性能。
參考資料: