GPT-6或要有生命了!MIT神作:一套神框架讓大模型“自己微調(diào)自己”,實(shí)驗(yàn)已通過(guò)!超過(guò)GPT4.1,網(wǎng)友:凍結(jié)權(quán)重時(shí)代結(jié)束了
原創(chuàng) 精選編輯 | 云昭
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
在過(guò)去兩年,大語(yǔ)言模型幾乎定義了整個(gè) AI 發(fā)展的節(jié)奏。但有個(gè)問(wèn)題一直沒(méi)變:模型再?gòu)?qiáng),也不會(huì)自己學(xué)習(xí)。每次要讓它掌握新知識(shí),都必須人工投喂數(shù)據(jù)、重新訓(xùn)練。
MIT 的研究團(tuán)隊(duì)最近在 arXiv 上發(fā)布了一篇論文,提出并實(shí)測(cè)了一個(gè)框架 —— SEAL(Self-Adapting Language Models,自適應(yīng)語(yǔ)言模型)。
圖片
炸裂之處在于,它能讓語(yǔ)言模型自己生成微調(diào)數(shù)據(jù)與更新指令,自行優(yōu)化自己的權(quán)重。
這還沒(méi)完,一位X用戶還爆料這篇文章的部分作者,已經(jīng)加入了OpenAI團(tuán)隊(duì),暗示了未來(lái)的GPT-6的走向:凍結(jié)權(quán)重時(shí)代結(jié)束了,如果GPT-6真的融合了這套機(jī)制,一個(gè)隨著世界變化而持續(xù)自我進(jìn)化的模型,真的要來(lái)了!
部分 SEAL 論文的研究者目前已加入 OpenAI。這絕非巧合。
SEAL 的架構(gòu)讓模型具備以下能力:
? 從新數(shù)據(jù)中實(shí)時(shí)學(xué)習(xí)
? 自我修復(fù)退化的知識(shí)
? 在多次會(huì)話之間形成持久的“記憶”
如果 GPT-6 真的整合了這些機(jī)制,它將不只是“使用信息”,而是會(huì)吸收信息。
一個(gè)能隨著世界變化而自我進(jìn)化的模型,一個(gè)每天都在變得更好的系統(tǒng)。
這可能意味著——持續(xù)自學(xué)習(xí) AI 的誕生,也是“凍結(jié)權(quán)重時(shí)代”的終結(jié)。
歡迎來(lái)到下一個(gè)時(shí)代。
圖片
不過(guò)小編在此聲明:此為推測(cè),只代表一種可能。最終還是要看OpenAI如何出招。
論文地址:https://arxiv.org/abs/2506.10943
代碼也在計(jì)劃開(kāi)源中:https://github.com/Continual-Intelligence
先來(lái)看看這套框架究竟厲害在哪里?
強(qiáng)如GPT-5,依舊是凍結(jié)模型
可能大家有一種錯(cuò)覺(jué),就是很多許多人誤以為GPT-5已實(shí)現(xiàn)連續(xù)學(xué)習(xí),但事實(shí)并非如此。一位博主透露,自己每個(gè)月都需要為此解釋2-3次,來(lái)澄清:當(dāng)前模型權(quán)重都是靜態(tài)的,無(wú)法實(shí)時(shí)更新。
圖片
它們能理解世界,但無(wú)法真正“更新自己”。如果要讓大模型每次適配新任務(wù),都需要人工再微調(diào)一次。
而 SEAL 的目標(biāo),就是是讓模型擁有持續(xù)吸收與整合知識(shí)的能力。
SEAL 框架厲害之處:讓模型自我編輯指令
SEAL 的核心是「自我編輯(self-edit)」。
圖片
給定新的輸入,模型會(huì)產(chǎn)生自編輯——這一生成過(guò)程可能以不同的方式重構(gòu)信息、指定優(yōu)化超參數(shù),或調(diào)用數(shù)據(jù)增強(qiáng)和基于梯度的更新工具。通過(guò)監(jiān)督微調(diào) (SFT),這些自編輯會(huì)產(chǎn)生持續(xù)的權(quán)重更新,從而實(shí)現(xiàn)持久的自適應(yīng)。
簡(jiǎn)單講,當(dāng)模型遇到新信息時(shí),它會(huì)自己生成一段“訓(xùn)練指令”,告訴自己:
- 如何重組信息;
- 用哪些超參數(shù)優(yōu)化;
- 是否生成新的合成樣本。
這些自我編輯會(huì)觸發(fā)一次監(jiān)督微調(diào)(SFT),模型再根據(jù)任務(wù)表現(xiàn),強(qiáng)化成功的編輯策略。(沒(méi)錯(cuò),還是通過(guò)強(qiáng)化學(xué)習(xí)的方法生成這些指令,并且以更新后的模型表現(xiàn)作為獎(jiǎng)勵(lì)信號(hào)。)
圖片
SEAL 框架概覽:在每一次強(qiáng)化學(xué)習(xí)(RL)的外層循環(huán)中,模型會(huì)生成候選的“自我編輯”——也就是關(guān)于如何更新權(quán)重的指令。隨后,模型根據(jù)這些指令執(zhí)行相應(yīng)的權(quán)重更新,在下游任務(wù)上評(píng)估性能,并利用得到的獎(jiǎng)勵(lì)信號(hào)來(lái)優(yōu)化自我編輯的生成策略。
整個(gè)過(guò)程由一種輕量級(jí)強(qiáng)化學(xué)習(xí)算法 ReST-EM 控制,形成「生成 → 更新 → 評(píng)估 → 強(qiáng)化」的自學(xué)習(xí)閉環(huán)。
實(shí)驗(yàn)結(jié)果:超過(guò)GPT4.1合成數(shù)據(jù)訓(xùn)練、小樣本學(xué)習(xí)任務(wù)成功率高達(dá)72%
而且,這套框架已經(jīng)成功在實(shí)驗(yàn)任務(wù)中得到有效驗(yàn)證。團(tuán)隊(duì)進(jìn)行了兩類任務(wù)的實(shí)驗(yàn)。
1. 知識(shí)整合:讓模型從一段新文本中吸收事實(shí)性信息,使其在后續(xù)問(wèn)答中無(wú)需原始文本也能正確回答相關(guān)問(wèn)題。
圖片
2. 小樣本學(xué)習(xí)(Few-Shot Learning):在 ARC 基準(zhǔn)測(cè)試的子集上,模型需從極少量示例中泛化,通過(guò)自主生成數(shù)據(jù)增強(qiáng)與訓(xùn)練配置來(lái)解決抽象推理問(wèn)題。
圖片
這兩項(xiàng)實(shí)驗(yàn)任務(wù)表明,SEAL框架確實(shí)取得了最佳性能表現(xiàn)。
- 知識(shí)整合:兩輪自學(xué)后,準(zhǔn)確率從 32.7% → 47.0%,甚至超過(guò)了 GPT-4.1 合成數(shù)據(jù)微調(diào)的模型。
圖片
- 小樣本學(xué)習(xí):從 0% → 72.5%,模型學(xué)會(huì)自己選增強(qiáng)方式和超參。
圖片
這個(gè)任務(wù)的對(duì)比最為明顯。無(wú)自我編輯:0% 成功率,而未訓(xùn)練自編輯:20%,而SEAL 完整訓(xùn)練后:成功率竟然高達(dá) 72.5%。
很顯然,這套“自我編輯指令”的框架,奇跡般地讓模型真的學(xué)會(huì)了如何自我改進(jìn)。
局限:災(zāi)難性遺忘
新成果往往伴生著新問(wèn)題。
論文中,團(tuán)隊(duì)發(fā)現(xiàn)一個(gè)了一個(gè)棘手的問(wèn)題,即反復(fù)自我編輯會(huì)導(dǎo)致災(zāi)難性遺忘:學(xué)新任務(wù)的同時(shí),舊知識(shí)可能被覆蓋。對(duì)此,研究者提出幾種潛在方案,如經(jīng)驗(yàn)回放、受限更新、表征疊加等。
圖片
下一步:自我演化智能體
MIT 團(tuán)隊(duì)希望未來(lái)的模型能學(xué)會(huì)判斷:
“什么時(shí)候該更新,什么時(shí)候不該動(dòng)?!?/p>
也就是說(shuō),模型會(huì)在推理中決定是否執(zhí)行自我編輯,把臨時(shí)推理轉(zhuǎn)化為持久能力,為“會(huì)自己演化的智能體”鋪路。
寫在最后:GPT-6大概率會(huì)是什么樣?
大家希望AI可以自我進(jìn)化,可以說(shuō)是一個(gè)很古老的愿望了。而本文中,MIT的SEAL框架可以說(shuō)讓這個(gè)愿望又向前推進(jìn)了一步:模型可以自行根據(jù)外界變化自我編輯SFT指令,想想都有點(diǎn)恐怖。
模型直接從“被訓(xùn)練的工具”化身“能自我訓(xùn)練的系統(tǒng)”。怎么說(shuō)呢?這是要搶“AI工程師”的飯碗嗎?
那么,OpenAI下一款的GPT-6什么進(jìn)度呢?
按照OpenAI的發(fā)布節(jié)奏來(lái)看,大概率GPT-6至少也得明年一季度了。(今年夏天剛發(fā)的GPT-5。大版本的發(fā)布至少半年起。)
雖然,我們還不能確定,OpenAI最終會(huì)如何定義GPT-6的走向,但按照去年奧特曼的5級(jí)規(guī)劃來(lái)看,小編認(rèn)為有兩種可能。
保守的結(jié)果,則是L3級(jí)別。即自主智能體。
AI 不只是回答問(wèn)題,而是能在指令下自主行動(dòng)(agent),處理一系列任務(wù),可以調(diào)整策略、尋求幫助、完成較復(fù)雜/跨步驟的工作
激進(jìn)點(diǎn)的話,GPT-6 可能的主打方向,就是奧特曼最近在采訪中時(shí)不時(shí)提到的:AI創(chuàng)造新知識(shí)。即“L4 Innovators”,創(chuàng)新者/發(fā)明者的角色。創(chuàng)新與創(chuàng)造性輸出,是這一階段的典型特征:
在沒(méi)有人類持續(xù)監(jiān)督或指導(dǎo)的情況下,能提出新想法、發(fā)明新事物、解決未知領(lǐng)域的問(wèn)題,能超出已有知識(shí)/訓(xùn)練數(shù)據(jù)的范疇。
而這種超出已有知識(shí)/訓(xùn)練數(shù)據(jù)的創(chuàng)造與創(chuàng)新已經(jīng)跟本文討論的“自我演進(jìn)”的SEAL框架了。
總之,拭目以待吧。AI全面超越人類的未來(lái)已經(jīng)不遠(yuǎn)了!



































