偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

GPT-6或要有生命了！MIT神作：一套神框架讓大模型“自己微調(diào)自己”，實(shí)驗(yàn)已通過(guò)！超過(guò)GPT4.1，網(wǎng)友：凍結(jié)權(quán)重時(shí)代結(jié)束了

原創(chuàng) 精選

作者：云昭 2025-10-13 14:00:24

MIT 的研究團(tuán)隊(duì)最近在 arXiv 上發(fā)布了一篇論文，提出并實(shí)測(cè)了一個(gè)框架 ——?SEAL（Self-Adapting Language Models，自適應(yīng)語(yǔ)言模型）。

編輯 | 云昭

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

在過(guò)去兩年，大語(yǔ)言模型幾乎定義了整個(gè) AI 發(fā)展的節(jié)奏。但有個(gè)問(wèn)題一直沒(méi)變：模型再?gòu)?qiáng)，也不會(huì)自己學(xué)習(xí)。每次要讓它掌握新知識(shí)，都必須人工投喂數(shù)據(jù)、重新訓(xùn)練。

MIT 的研究團(tuán)隊(duì)最近在 arXiv 上發(fā)布了一篇論文，提出并實(shí)測(cè)了一個(gè)框架 —— SEAL（Self-Adapting Language Models，自適應(yīng)語(yǔ)言模型）。

圖片

炸裂之處在于，它能讓語(yǔ)言模型自己生成微調(diào)數(shù)據(jù)與更新指令，自行優(yōu)化自己的權(quán)重。

這還沒(méi)完，一位X用戶還爆料這篇文章的部分作者，已經(jīng)加入了OpenAI團(tuán)隊(duì)，暗示了未來(lái)的GPT-6的走向：凍結(jié)權(quán)重時(shí)代結(jié)束了，如果GPT-6真的融合了這套機(jī)制，一個(gè)隨著世界變化而持續(xù)自我進(jìn)化的模型，真的要來(lái)了！

部分 SEAL 論文的研究者目前已加入 OpenAI。這絕非巧合。
SEAL 的架構(gòu)讓模型具備以下能力：
? 從新數(shù)據(jù)中實(shí)時(shí)學(xué)習(xí)
? 自我修復(fù)退化的知識(shí)
? 在多次會(huì)話之間形成持久的“記憶”
如果 GPT-6 真的整合了這些機(jī)制，它將不只是“使用信息”，而是會(huì)吸收信息。
一個(gè)能隨著世界變化而自我進(jìn)化的模型，一個(gè)每天都在變得更好的系統(tǒng)。
這可能意味著——持續(xù)自學(xué)習(xí) AI 的誕生，也是“凍結(jié)權(quán)重時(shí)代”的終結(jié)。
歡迎來(lái)到下一個(gè)時(shí)代。

圖片

不過(guò)小編在此聲明：此為推測(cè)，只代表一種可能。最終還是要看OpenAI如何出招。

論文地址：https://arxiv.org/abs/2506.10943

代碼也在計(jì)劃開(kāi)源中：https://github.com/Continual-Intelligence

先來(lái)看看這套框架究竟厲害在哪里？

強(qiáng)如GPT-5，依舊是凍結(jié)模型

可能大家有一種錯(cuò)覺(jué)，就是很多許多人誤以為GPT-5已實(shí)現(xiàn)連續(xù)學(xué)習(xí)，但事實(shí)并非如此。一位博主透露，自己每個(gè)月都需要為此解釋2-3次，來(lái)澄清：當(dāng)前模型權(quán)重都是靜態(tài)的，無(wú)法實(shí)時(shí)更新。

圖片

它們能理解世界，但無(wú)法真正“更新自己”。如果要讓大模型每次適配新任務(wù)，都需要人工再微調(diào)一次。

而 SEAL 的目標(biāo)，就是是讓模型擁有持續(xù)吸收與整合知識(shí)的能力。

SEAL 框架厲害之處：讓模型自我編輯指令

SEAL 的核心是「自我編輯（self-edit）」。

圖片

給定新的輸入，模型會(huì)產(chǎn)生自編輯——這一生成過(guò)程可能以不同的方式重構(gòu)信息、指定優(yōu)化超參數(shù)，或調(diào)用數(shù)據(jù)增強(qiáng)和基于梯度的更新工具。通過(guò)監(jiān)督微調(diào) (SFT)，這些自編輯會(huì)產(chǎn)生持續(xù)的權(quán)重更新，從而實(shí)現(xiàn)持久的自適應(yīng)。

簡(jiǎn)單講，當(dāng)模型遇到新信息時(shí)，它會(huì)自己生成一段“訓(xùn)練指令”，告訴自己：

如何重組信息；
用哪些超參數(shù)優(yōu)化；
是否生成新的合成樣本。

這些自我編輯會(huì)觸發(fā)一次監(jiān)督微調(diào)（SFT），模型再根據(jù)任務(wù)表現(xiàn)，強(qiáng)化成功的編輯策略。（沒(méi)錯(cuò)，還是通過(guò)強(qiáng)化學(xué)習(xí)的方法生成這些指令，并且以更新后的模型表現(xiàn)作為獎(jiǎng)勵(lì)信號(hào)。）

圖片

SEAL 框架概覽：在每一次強(qiáng)化學(xué)習(xí)（RL）的外層循環(huán)中，模型會(huì)生成候選的“自我編輯”——也就是關(guān)于如何更新權(quán)重的指令。隨后，模型根據(jù)這些指令執(zhí)行相應(yīng)的權(quán)重更新，在下游任務(wù)上評(píng)估性能，并利用得到的獎(jiǎng)勵(lì)信號(hào)來(lái)優(yōu)化自我編輯的生成策略。

整個(gè)過(guò)程由一種輕量級(jí)強(qiáng)化學(xué)習(xí)算法 ReST-EM 控制，形成「生成 → 更新 → 評(píng)估 → 強(qiáng)化」的自學(xué)習(xí)閉環(huán)。

實(shí)驗(yàn)結(jié)果：超過(guò)GPT4.1合成數(shù)據(jù)訓(xùn)練、小樣本學(xué)習(xí)任務(wù)成功率高達(dá)72%

而且，這套框架已經(jīng)成功在實(shí)驗(yàn)任務(wù)中得到有效驗(yàn)證。團(tuán)隊(duì)進(jìn)行了兩類任務(wù)的實(shí)驗(yàn)。

1. 知識(shí)整合：讓模型從一段新文本中吸收事實(shí)性信息，使其在后續(xù)問(wèn)答中無(wú)需原始文本也能正確回答相關(guān)問(wèn)題。

圖片

2. 小樣本學(xué)習(xí)（Few-Shot Learning）：在 ARC 基準(zhǔn)測(cè)試的子集上，模型需從極少量示例中泛化，通過(guò)自主生成數(shù)據(jù)增強(qiáng)與訓(xùn)練配置來(lái)解決抽象推理問(wèn)題。

圖片

這兩項(xiàng)實(shí)驗(yàn)任務(wù)表明，SEAL框架確實(shí)取得了最佳性能表現(xiàn)。

知識(shí)整合：兩輪自學(xué)后，準(zhǔn)確率從 32.7% → 47.0%，甚至超過(guò)了 GPT-4.1 合成數(shù)據(jù)微調(diào)的模型。

圖片

小樣本學(xué)習(xí)：從 0% → 72.5%，模型學(xué)會(huì)自己選增強(qiáng)方式和超參。

圖片

這個(gè)任務(wù)的對(duì)比最為明顯。無(wú)自我編輯：0% 成功率，而未訓(xùn)練自編輯：20%，而SEAL 完整訓(xùn)練后：成功率竟然高達(dá) 72.5%。

很顯然，這套“自我編輯指令”的框架，奇跡般地讓模型真的學(xué)會(huì)了如何自我改進(jìn)。

局限：災(zāi)難性遺忘

新成果往往伴生著新問(wèn)題。

論文中，團(tuán)隊(duì)發(fā)現(xiàn)一個(gè)了一個(gè)棘手的問(wèn)題，即反復(fù)自我編輯會(huì)導(dǎo)致災(zāi)難性遺忘：學(xué)新任務(wù)的同時(shí)，舊知識(shí)可能被覆蓋。對(duì)此，研究者提出幾種潛在方案，如經(jīng)驗(yàn)回放、受限更新、表征疊加等。

圖片

下一步：自我演化智能體

MIT 團(tuán)隊(duì)希望未來(lái)的模型能學(xué)會(huì)判斷：

“什么時(shí)候該更新，什么時(shí)候不該動(dòng)?！?/p>

也就是說(shuō)，模型會(huì)在推理中決定是否執(zhí)行自我編輯，把臨時(shí)推理轉(zhuǎn)化為持久能力，為“會(huì)自己演化的智能體”鋪路。

寫在最后：GPT-6大概率會(huì)是什么樣？

大家希望AI可以自我進(jìn)化，可以說(shuō)是一個(gè)很古老的愿望了。而本文中，MIT的SEAL框架可以說(shuō)讓這個(gè)愿望又向前推進(jìn)了一步：模型可以自行根據(jù)外界變化自我編輯SFT指令，想想都有點(diǎn)恐怖。

模型直接從“被訓(xùn)練的工具”化身“能自我訓(xùn)練的系統(tǒng)”。怎么說(shuō)呢？這是要搶“AI工程師”的飯碗嗎？

那么，OpenAI下一款的GPT-6什么進(jìn)度呢？

按照OpenAI的發(fā)布節(jié)奏來(lái)看，大概率GPT-6至少也得明年一季度了。（今年夏天剛發(fā)的GPT-5。大版本的發(fā)布至少半年起。）

雖然，我們還不能確定，OpenAI最終會(huì)如何定義GPT-6的走向，但按照去年奧特曼的5級(jí)規(guī)劃來(lái)看，小編認(rèn)為有兩種可能。

保守的結(jié)果，則是L3級(jí)別。即自主智能體。

AI 不只是回答問(wèn)題，而是能在指令下自主行動(dòng)（agent），處理一系列任務(wù)，可以調(diào)整策略、尋求幫助、完成較復(fù)雜／跨步驟的工作

激進(jìn)點(diǎn)的話，GPT-6 可能的主打方向，就是奧特曼最近在采訪中時(shí)不時(shí)提到的：AI創(chuàng)造新知識(shí)。即“L4 Innovators”，創(chuàng)新者／發(fā)明者的角色。創(chuàng)新與創(chuàng)造性輸出，是這一階段的典型特征：

在沒(méi)有人類持續(xù)監(jiān)督或指導(dǎo)的情況下，能提出新想法、發(fā)明新事物、解決未知領(lǐng)域的問(wèn)題，能超出已有知識(shí)／訓(xùn)練數(shù)據(jù)的范疇。

而這種超出已有知識(shí)/訓(xùn)練數(shù)據(jù)的創(chuàng)造與創(chuàng)新已經(jīng)跟本文討論的“自我演進(jìn)”的SEAL框架了。

總之，拭目以待吧。AI全面超越人類的未來(lái)已經(jīng)不遠(yuǎn)了！

責(zé)任編輯：武曉燕來(lái)源： 51CTO技術(shù)棧

GPT-6 GPT4.1 大模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<pre id="dptj8"><var id="dptj8"></var></pre>

<ruby id="dptj8"></ruby>

<tt id="dptj8"><optgroup id="dptj8"><pre id="dptj8"></pre></optgroup></tt>