偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-6或要有生命了!MIT神作:一套神框架讓大模型“自己微調(diào)自己”,實(shí)驗(yàn)已通過(guò)!超過(guò)GPT4.1,網(wǎng)友:凍結(jié)權(quán)重時(shí)代結(jié)束了

原創(chuàng) 精選
人工智能
MIT 的研究團(tuán)隊(duì)最近在 arXiv 上發(fā)布了一篇論文,提出并實(shí)測(cè)了一個(gè)框架 ——?SEAL(Self-Adapting Language Models,自適應(yīng)語(yǔ)言模型)。

編輯 | 云昭

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

在過(guò)去兩年,大語(yǔ)言模型幾乎定義了整個(gè) AI 發(fā)展的節(jié)奏。但有個(gè)問(wèn)題一直沒(méi)變:模型再?gòu)?qiáng),也不會(huì)自己學(xué)習(xí)。每次要讓它掌握新知識(shí),都必須人工投喂數(shù)據(jù)、重新訓(xùn)練。

MIT 的研究團(tuán)隊(duì)最近在 arXiv 上發(fā)布了一篇論文,提出并實(shí)測(cè)了一個(gè)框架 —— SEAL(Self-Adapting Language Models,自適應(yīng)語(yǔ)言模型)。

圖片圖片

炸裂之處在于,它能讓語(yǔ)言模型自己生成微調(diào)數(shù)據(jù)與更新指令,自行優(yōu)化自己的權(quán)重。

這還沒(méi)完,一位X用戶還爆料這篇文章的部分作者,已經(jīng)加入了OpenAI團(tuán)隊(duì),暗示了未來(lái)的GPT-6的走向:凍結(jié)權(quán)重時(shí)代結(jié)束了,如果GPT-6真的融合了這套機(jī)制,一個(gè)隨著世界變化而持續(xù)自我進(jìn)化的模型,真的要來(lái)了!

部分 SEAL 論文的研究者目前已加入 OpenAI。這絕非巧合。

SEAL 的架構(gòu)讓模型具備以下能力:

? 從新數(shù)據(jù)中實(shí)時(shí)學(xué)習(xí)

? 自我修復(fù)退化的知識(shí)

? 在多次會(huì)話之間形成持久的“記憶”

如果 GPT-6 真的整合了這些機(jī)制,它將不只是“使用信息”,而是會(huì)吸收信息。

一個(gè)能隨著世界變化而自我進(jìn)化的模型,一個(gè)每天都在變得更好的系統(tǒng)。

這可能意味著——持續(xù)自學(xué)習(xí) AI 的誕生,也是“凍結(jié)權(quán)重時(shí)代”的終結(jié)。

歡迎來(lái)到下一個(gè)時(shí)代。

圖片圖片

不過(guò)小編在此聲明:此為推測(cè),只代表一種可能。最終還是要看OpenAI如何出招。

論文地址:https://arxiv.org/abs/2506.10943

代碼也在計(jì)劃開(kāi)源中:https://github.com/Continual-Intelligence

先來(lái)看看這套框架究竟厲害在哪里?

強(qiáng)如GPT-5,依舊是凍結(jié)模型

可能大家有一種錯(cuò)覺(jué),就是很多許多人誤以為GPT-5已實(shí)現(xiàn)連續(xù)學(xué)習(xí),但事實(shí)并非如此。一位博主透露,自己每個(gè)月都需要為此解釋2-3次,來(lái)澄清:當(dāng)前模型權(quán)重都是靜態(tài)的,無(wú)法實(shí)時(shí)更新。

圖片圖片

它們能理解世界,但無(wú)法真正“更新自己”。如果要讓大模型每次適配新任務(wù),都需要人工再微調(diào)一次。

而 SEAL 的目標(biāo),就是是讓模型擁有持續(xù)吸收與整合知識(shí)的能力。

SEAL 框架厲害之處:讓模型自我編輯指令

SEAL 的核心是「自我編輯(self-edit)」。

圖片圖片

給定新的輸入,模型會(huì)產(chǎn)生自編輯——這一生成過(guò)程可能以不同的方式重構(gòu)信息、指定優(yōu)化超參數(shù),或調(diào)用數(shù)據(jù)增強(qiáng)和基于梯度的更新工具。通過(guò)監(jiān)督微調(diào) (SFT),這些自編輯會(huì)產(chǎn)生持續(xù)的權(quán)重更新,從而實(shí)現(xiàn)持久的自適應(yīng)。

簡(jiǎn)單講,當(dāng)模型遇到新信息時(shí),它會(huì)自己生成一段“訓(xùn)練指令”,告訴自己:

  • 如何重組信息;
  • 用哪些超參數(shù)優(yōu)化;
  • 是否生成新的合成樣本。

這些自我編輯會(huì)觸發(fā)一次監(jiān)督微調(diào)(SFT),模型再根據(jù)任務(wù)表現(xiàn),強(qiáng)化成功的編輯策略。(沒(méi)錯(cuò),還是通過(guò)強(qiáng)化學(xué)習(xí)的方法生成這些指令,并且以更新后的模型表現(xiàn)作為獎(jiǎng)勵(lì)信號(hào)。)

圖片圖片

SEAL 框架概覽:在每一次強(qiáng)化學(xué)習(xí)(RL)的外層循環(huán)中,模型會(huì)生成候選的“自我編輯”——也就是關(guān)于如何更新權(quán)重的指令。隨后,模型根據(jù)這些指令執(zhí)行相應(yīng)的權(quán)重更新,在下游任務(wù)上評(píng)估性能,并利用得到的獎(jiǎng)勵(lì)信號(hào)來(lái)優(yōu)化自我編輯的生成策略。

整個(gè)過(guò)程由一種輕量級(jí)強(qiáng)化學(xué)習(xí)算法 ReST-EM 控制,形成「生成 → 更新 → 評(píng)估 → 強(qiáng)化」的自學(xué)習(xí)閉環(huán)。

實(shí)驗(yàn)結(jié)果:超過(guò)GPT4.1合成數(shù)據(jù)訓(xùn)練、小樣本學(xué)習(xí)任務(wù)成功率高達(dá)72%

而且,這套框架已經(jīng)成功在實(shí)驗(yàn)任務(wù)中得到有效驗(yàn)證。團(tuán)隊(duì)進(jìn)行了兩類任務(wù)的實(shí)驗(yàn)。

1. 知識(shí)整合:讓模型從一段新文本中吸收事實(shí)性信息,使其在后續(xù)問(wèn)答中無(wú)需原始文本也能正確回答相關(guān)問(wèn)題。

圖片圖片

2. 小樣本學(xué)習(xí)(Few-Shot Learning):在 ARC 基準(zhǔn)測(cè)試的子集上,模型需從極少量示例中泛化,通過(guò)自主生成數(shù)據(jù)增強(qiáng)與訓(xùn)練配置來(lái)解決抽象推理問(wèn)題。

圖片圖片

這兩項(xiàng)實(shí)驗(yàn)任務(wù)表明,SEAL框架確實(shí)取得了最佳性能表現(xiàn)。

  • 知識(shí)整合:兩輪自學(xué)后,準(zhǔn)確率從 32.7% → 47.0%,甚至超過(guò)了 GPT-4.1 合成數(shù)據(jù)微調(diào)的模型。

圖片圖片

  • 小樣本學(xué)習(xí):從 0% → 72.5%,模型學(xué)會(huì)自己選增強(qiáng)方式和超參。

圖片圖片

這個(gè)任務(wù)的對(duì)比最為明顯。無(wú)自我編輯:0% 成功率,而未訓(xùn)練自編輯:20%,而SEAL 完整訓(xùn)練后:成功率竟然高達(dá) 72.5%。

很顯然,這套“自我編輯指令”的框架,奇跡般地讓模型真的學(xué)會(huì)了如何自我改進(jìn)。

局限:災(zāi)難性遺忘

新成果往往伴生著新問(wèn)題。

論文中,團(tuán)隊(duì)發(fā)現(xiàn)一個(gè)了一個(gè)棘手的問(wèn)題,即反復(fù)自我編輯會(huì)導(dǎo)致災(zāi)難性遺忘:學(xué)新任務(wù)的同時(shí),舊知識(shí)可能被覆蓋。對(duì)此,研究者提出幾種潛在方案,如經(jīng)驗(yàn)回放、受限更新、表征疊加等。

圖片圖片

下一步:自我演化智能體

MIT 團(tuán)隊(duì)希望未來(lái)的模型能學(xué)會(huì)判斷:

“什么時(shí)候該更新,什么時(shí)候不該動(dòng)?!?/p>

也就是說(shuō),模型會(huì)在推理中決定是否執(zhí)行自我編輯,把臨時(shí)推理轉(zhuǎn)化為持久能力,為“會(huì)自己演化的智能體”鋪路。

寫在最后:GPT-6大概率會(huì)是什么樣?

大家希望AI可以自我進(jìn)化,可以說(shuō)是一個(gè)很古老的愿望了。而本文中,MIT的SEAL框架可以說(shuō)讓這個(gè)愿望又向前推進(jìn)了一步:模型可以自行根據(jù)外界變化自我編輯SFT指令,想想都有點(diǎn)恐怖。

模型直接從“被訓(xùn)練的工具”化身“能自我訓(xùn)練的系統(tǒng)”。怎么說(shuō)呢?這是要搶“AI工程師”的飯碗嗎?

那么,OpenAI下一款的GPT-6什么進(jìn)度呢?

按照OpenAI的發(fā)布節(jié)奏來(lái)看,大概率GPT-6至少也得明年一季度了。(今年夏天剛發(fā)的GPT-5。大版本的發(fā)布至少半年起。)

雖然,我們還不能確定,OpenAI最終會(huì)如何定義GPT-6的走向,但按照去年奧特曼的5級(jí)規(guī)劃來(lái)看,小編認(rèn)為有兩種可能。

保守的結(jié)果,則是L3級(jí)別。即自主智能體。

AI 不只是回答問(wèn)題,而是能在指令下自主行動(dòng)(agent),處理一系列任務(wù),可以調(diào)整策略、尋求幫助、完成較復(fù)雜/跨步驟的工作

激進(jìn)點(diǎn)的話,GPT-6 可能的主打方向,就是奧特曼最近在采訪中時(shí)不時(shí)提到的:AI創(chuàng)造新知識(shí)。即“L4 Innovators”,創(chuàng)新者/發(fā)明者的角色。創(chuàng)新與創(chuàng)造性輸出,是這一階段的典型特征:

在沒(méi)有人類持續(xù)監(jiān)督或指導(dǎo)的情況下,能提出新想法、發(fā)明新事物、解決未知領(lǐng)域的問(wèn)題,能超出已有知識(shí)/訓(xùn)練數(shù)據(jù)的范疇。

而這種超出已有知識(shí)/訓(xùn)練數(shù)據(jù)的創(chuàng)造與創(chuàng)新已經(jīng)跟本文討論的“自我演進(jìn)”的SEAL框架了。

總之,拭目以待吧。AI全面超越人類的未來(lái)已經(jīng)不遠(yuǎn)了!

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2025-07-30 09:07:00

2025-10-20 08:56:00

2024-05-16 12:38:05

GPT-4o圖像方式

2023-11-07 08:28:08

GPT模型環(huán)境

2025-04-16 09:35:03

2025-07-22 10:32:53

2025-03-31 07:30:00

圖像生成AI模型

2025-06-11 08:54:52

2021-06-28 09:56:54

微軟AI編程

2025-05-15 10:50:46

2025-04-15 09:50:06

2023-09-01 21:12:13

GPT3.5模型微調(diào)

2024-09-02 09:22:00

AI模型

2024-02-01 08:09:31

GPT容器模塊

2025-04-15 07:41:18

2024-01-22 07:10:00

AI視頻

2025-06-23 09:12:00

2021-05-31 15:16:28

編程技能開(kāi)發(fā)

2023-06-05 12:32:48

模型論文

2023-06-08 11:27:10

模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)