作者 | Ben Dickson
編譯 | 沈建苗
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
近日,麻省理工學院(MIT)的研究人員已開發(fā)出一種名為自適應語言模型(SEAL)的框架,使大語言模型(LLM)能夠通過更新自身的內(nèi)部參數(shù)來持續(xù)學習和適應。SEAL可以教LLM生成自己的訓練數(shù)據(jù)并更新指令,讓LLM能夠永久吸收新知識并學習新任務。
這種框架特別適用于企業(yè)應用環(huán)境,尤其適用于在動態(tài)環(huán)境中運行的AI智能體,它們必須不斷處理新信息并調(diào)整其行為。
1.LLM的適應性挑戰(zhàn)
雖然LLM已具備了卓越能力,但讓它們適應特定任務、整合新信息或掌握新穎的推理技能仍然面臨一大障礙。
目前面對新任務時,LLM通常通過微調(diào)或上下文學習等方法從原始數(shù)據(jù)中學習。然而,所提供的數(shù)據(jù)其格式并不總是最適合模型高效學習?,F(xiàn)有方法無法讓模型自主開發(fā)策略,以實現(xiàn)最佳的新信息轉(zhuǎn)換和學習。
MIT博士生、論文共同作者Jyo Pari向IT媒體VentureBeat表示:“許多企業(yè)應用場景需要的不僅僅是事實回憶,而是更深層、持久的適應能力。比如說,編程助手可能需要內(nèi)化(消化并吸收)一家公司的特定軟件框架,或者面向客戶的模型需要逐漸學習用戶的獨特行為或偏好?!?/p>
在這類情況下,臨時檢索遠遠不夠,知識需要“融入”到模型的權(quán)重中,以便影響未來的所有響應。
2.創(chuàng)建自適應語言模型
MIT研究人員在論文中表示:“為了實現(xiàn)語言模型的可擴展高效適應,我們提議為LLM賦予生成自己的訓練數(shù)據(jù)和微調(diào)指令以使用這類數(shù)據(jù)的能力?!?/p>
圖1. SEAL框架示意圖圖片來源:arXiv
研究人員提出的解決方案是SEAL,即自適應語言模型。它使用強化學習(RL)算法來訓練LLM生成“自編輯”(self-edits),這是指定模型應如何更新自身權(quán)重的自然語言指令。這些自編輯可以重構(gòu)新信息、創(chuàng)建合成訓練樣例,甚至定義學習過程本身的技術(shù)參數(shù)。
簡單地說,SEAL可以教模型如何自行創(chuàng)建個性化的學習指南。模型不是僅僅閱讀新文檔(原始數(shù)據(jù)),而是學會將該信息重寫和重新格式化為更容易吸收和內(nèi)化的形式。這個過程結(jié)合了AI研究的幾個關(guān)鍵領域,包括合成數(shù)據(jù)生成、強化學習和測試時訓練(TTT)。
該框架采用雙循環(huán)系統(tǒng)。在“內(nèi)循環(huán)”(inner loop)中,模型使用自編輯對權(quán)重進行小幅臨時更新。在“外循環(huán)”(out loop)中,系統(tǒng)評估該更新是否改善了模型處理目標任務的性能。如果確實有改善,模型獲得正向獎勵,強化在將來生成這種有效自編輯的能力。LLM逐漸成為自我教學方面的專家。
研究人員在研究中為整個SEAL框架使用了單一模型,然而他們也特別指出,這個過程可以分解為“教師-學生”模型。專門的教師模型經(jīng)過訓練后,可以為單獨的學生模型生成有效的自編輯,然后更新該學生模型。這種方法可以在企業(yè)環(huán)境中實現(xiàn)更專業(yè)而高效的適應流程。
3.SEAL的實際應用
研究人員在兩個關(guān)鍵領域測試了SEAL:知識整合(永久整合新事實的能力)和小樣本學習(從少量樣例中泛化的能力)。
圖2. 用于知識整合的SEAL 圖片來源:arXiv
在知識整合方面,目的是測試模型是否能在問答期間無法訪問文本段落的情況下回答段落的相關(guān)問題。針對原始文本微調(diào)Llama-3.2-1B僅比基礎模型略有改善。
然而,當SEAL模型通過從段落中生成多個“推論”來創(chuàng)建“自編輯”,并使用該合成數(shù)據(jù)進行訓練后,準確率躍升至47%。值得注意的是,其效果勝過使用龐大得多的GPT-4.1所生成的合成數(shù)據(jù),表明模型學會了為自己創(chuàng)建優(yōu)質(zhì)的訓練材料。
圖3. 用于小樣本學習的SEAL 圖片來源:arXiv
在小樣本學習方面,研究人員針對來自抽象推理語料庫(ARC)的樣例測試了SEAL,模型必須解決視覺謎題。在自編輯階段,模型不得不生成整套的適應策略,包括使用哪些數(shù)據(jù)增強和工具、運用什么樣的學習率。
結(jié)果,SEAL達到了72.5%的成功率,比未經(jīng)RL訓練所取得的20%成功率和標準上下文學習的0%成功率有了顯著的改進。
圖4. SEAL(紅線)在RL訓練迭代期間繼續(xù)改進。 圖片來源:arXiv
4.企業(yè)應用價值
一些專家預測,人工生成的高質(zhì)量訓練數(shù)據(jù)可能在未來幾年會斷供。正如研究人員所言,進步可能很快取決于“模型自行生成高效用訓練信號的能力”。研究人員補充道,自然的下一步是元訓練專門的SEAL合成數(shù)據(jù)生成器模型,從而生成新穎的預訓練語料庫,使未來模型能夠擴展,并在不依賴額外人類文本的情況下實現(xiàn)更高的數(shù)據(jù)效率。
比如說,研究人員提議,LLM可以攝取學術(shù)論文或財務報告等復雜文檔,并自主生成數(shù)千個解釋和推論以加深理解。
研究人員解釋,這種自我表達和自我完善的迭代循環(huán)可以讓模型在甚至缺乏額外外部監(jiān)督的情況下,不斷地改進罕見或代表性不足的主題。
這一能力對構(gòu)建AI智能體特別大有前景。智能體系統(tǒng)在與環(huán)境交互時必須增量獲取和保留知識。SEAL為此提供了機制。交互后,智能體可以合成自編輯以觸發(fā)權(quán)重更新,使其能夠內(nèi)化學到的經(jīng)驗。這使智能體得以日臻完善,基于經(jīng)驗改善性能,并減少對靜態(tài)編程或重復人工指導的依賴。
研究人員寫道,SEAL表明了LLM在預訓練后無需保持靜態(tài)。通過學習生成自己的合成自編輯數(shù)據(jù),并通過輕量級權(quán)重更新加以運用,LLM可以自主整合新知識并適應新任務。
5.SEAL的局限性
話雖如此,SEAL并非萬能解決方案。比如它可能存在“災難性遺忘”,即持續(xù)的重訓練周期可能導致模型學習早期知識。
Pari表示:“我們目前的做法是鼓勵采用混合方法。企業(yè)應該有選擇性地確定哪些知識重要到需要永久整合?!?/p>
事實性、不斷變化的數(shù)據(jù)可以通過RAG保留在外部存儲區(qū)中,而持久性、改變行為的知識更適合通過SEAL進行權(quán)重級更新。這種混合記憶策略確保正確的信息持久保存,又避免模型不堪重負或?qū)е虏槐匾倪z忘。
另外值得一提的是,SEAL需要相當長的時間來調(diào)優(yōu)自編輯樣例并訓練模型,因此在大多數(shù)生產(chǎn)環(huán)境下持續(xù)的實時編輯行不通。
Pari說:“我們設想一種更實用的部署模式,即系統(tǒng)在一段時間內(nèi)(比如幾小時或一天)收集數(shù)據(jù),然后在預定的更新間隔內(nèi)執(zhí)行針對性的自編輯。這種方法讓企業(yè)可以控制適應成本,同時仍得益于SEAL內(nèi)化新知識的能力?!?/p>
論文鏈接:https://arxiv.org/pdf/2506.10943
參考鏈接:https://venturebeat.com/ai/beyond-static-ai-mits-new-framework-lets-models-teach-themselves/