偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LLM已能自我更新權(quán)重,自適應(yīng)、知識(shí)整合能力大幅提升,AI醒了?

人工智能 新聞
這篇論文發(fā)布后引發(fā)了廣泛熱議。在 Hacker News 上,有用戶評(píng)論說(shuō),這種自編輯方法非常巧妙,但還不能說(shuō)就已經(jīng)實(shí)現(xiàn)了能「持續(xù)自我改進(jìn)的智能體」。

近段時(shí)間,關(guān)于 AI 自我演進(jìn)/進(jìn)化這一話題的研究和討論開(kāi)始變得愈漸密集。

本月初我們就曾梳理報(bào)道了一些,包括 Sakana AI 與不列顛哥倫比亞大學(xué)等機(jī)構(gòu)合作的「達(dá)爾文-哥德?tīng)枡C(jī)(DGM)」、CMU 的「自我獎(jiǎng)勵(lì)訓(xùn)練(SRT)」、上海交通大學(xué)等機(jī)構(gòu)提出的多模態(tài)大模型的持續(xù)自我改進(jìn)框架「MM-UPT」、香港中文大學(xué)聯(lián)合 vivo 等機(jī)構(gòu)的自改進(jìn)框架「UI-Genie」。

那之后,相關(guān)研究依然還在不斷涌現(xiàn),以下拼圖展示了一些例子:

圖片

而前些天,OpenAI CEO、著名 ?? 大 v 山姆?奧特曼在其博客《溫和的奇點(diǎn)(The Gentle Singularity)》中更是暢想了一個(gè) AI/智能機(jī)器人實(shí)現(xiàn)自我改進(jìn)后的未來(lái)。他寫(xiě)道:「我們必須以傳統(tǒng)的方式制造出第一批百萬(wàn)數(shù)量級(jí)的人形機(jī)器人,但之后它們能夠操作整個(gè)供應(yīng)鏈來(lái)制造更多機(jī)器人,而這些機(jī)器人又可以建造更多的芯片制造設(shè)施、數(shù)據(jù)中心等等。」

不久之后,就有 ?? 用戶 @VraserX 爆料稱(chēng)有 OpenAI 內(nèi)部人士表示,該公司已經(jīng)在內(nèi)部運(yùn)行能夠遞歸式自我改進(jìn)的 AI。這條推文引起了廣泛的討論 —— 有人表示這不足為奇,也有人質(zhì)疑這個(gè)所謂的「OpenAI 內(nèi)部人士」究竟是否真實(shí)。

圖片

https://x.com/VraserX/status/1932842095359737921

但不管怎樣,AI 也確實(shí)正向?qū)崿F(xiàn)自我進(jìn)化這條路前進(jìn)。

MIT 昨日發(fā)布的《Self-Adapting Language Models》就是最新的例證之一,其中提出了一種可讓 LLM 更新自己的權(quán)重的方法:SEAL??,即 Self-Adapting LLMs。在該框架中,LLM 可以生成自己的訓(xùn)練數(shù)據(jù)(自編輯 /self-editing),并根據(jù)新輸入對(duì)權(quán)重進(jìn)行更新。而這個(gè)自編輯可通過(guò)強(qiáng)化學(xué)習(xí)學(xué)習(xí)實(shí)現(xiàn),使用的獎(jiǎng)勵(lì)是更新后的模型的下游性能。

圖片

  • 論文標(biāo)題:Self-Adapting Language Models
  • 論文地址:https://arxiv.org/pdf/2506.10943
  • 項(xiàng)目頁(yè)面:https://jyopari.github.io/posts/seal
  • 代碼地址:https://github.com/Continual-Intelligence/SEAL

這篇論文發(fā)布后引發(fā)了廣泛熱議。在 Hacker News 上,有用戶評(píng)論說(shuō),這種自編輯方法非常巧妙,但還不能說(shuō)就已經(jīng)實(shí)現(xiàn)了能「持續(xù)自我改進(jìn)的智能體」。

圖片

論文一作 Adam Zweiger 也在 ?? 上給出了類(lèi)似的解釋?zhuān)?/span>

圖片

也有人表示,這表明我們正在接近所謂的事件視界(event horizon)—— 這個(gè)概念其實(shí)也出現(xiàn)在了山姆?奧特曼《溫和的奇點(diǎn)》博客的第一句話,不過(guò)奧特曼更激進(jìn)一點(diǎn),他的說(shuō)法是「我們已經(jīng)越過(guò)了事件視界」。簡(jiǎn)單來(lái)說(shuō),event horizon(事件視界)指的是一個(gè)不可逆轉(zhuǎn)的臨界點(diǎn),一旦越過(guò),人類(lèi)將不可避免地邁入某種深刻變革的階段,比如通向超級(jí)智能的道路。 

圖片

當(dāng)然,也有人對(duì)自我提升式 AI 充滿了警惕和擔(dān)憂。

圖片

下面就來(lái)看看這篇熱門(mén)研究論文究竟得到了什么成果。

自適應(yīng)語(yǔ)言模型(SEAL)

SEAL 框架可以讓語(yǔ)言模型在遇到新數(shù)據(jù)時(shí),通過(guò)生成自己的合成數(shù)據(jù)并優(yōu)化參數(shù)(自編輯),進(jìn)而實(shí)現(xiàn)自我提升。

該模型的訓(xùn)練目標(biāo)是:可以使用模型上下文中提供的數(shù)據(jù),通過(guò)生成 token 來(lái)直接生成這些自編輯(SE)。

自編輯生成需要通過(guò)強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)實(shí)現(xiàn),其中當(dāng)模型生成的自編輯在應(yīng)用后可以提升模型在目標(biāo)任務(wù)上的性能時(shí),就會(huì)給予模型獎(jiǎng)勵(lì)。

因此,可以將 SEAL 理解為一個(gè)包含兩個(gè)嵌套循環(huán)的算法:一個(gè)外部 RL 循環(huán),用于優(yōu)化自編輯生成;以及一個(gè)內(nèi)部更新循環(huán),它使用生成的自編輯通過(guò)梯度下降更新模型。

圖片

該方法可被視為元學(xué)習(xí)的一個(gè)實(shí)例,即研究的是如何以元學(xué)習(xí)方式生成有效的自編輯。

通用框架

令 θ 表示語(yǔ)言模型 LM_θ 的參數(shù)。 SEAL 是在單個(gè)任務(wù)實(shí)例 (C, τ) 上運(yùn)作,其中 C 是包含與任務(wù)相關(guān)信息的上下文,τ 定義了用于評(píng)估模型適應(yīng)度(adaptation)的下游評(píng)估。

比如,在知識(shí)整合任務(wù)中,C 是旨在整合到模型內(nèi)部知識(shí)中的段落,τ 是關(guān)于該段落的一組問(wèn)題及其相關(guān)答案。而在少樣本學(xué)習(xí)任務(wù)中,C 包含某個(gè)新任務(wù)的少樣本演示,τ 是查詢輸入和 ground-truth 輸出。

給定 C,模型會(huì)生成一個(gè)自編輯 SE(其形式因領(lǐng)域而異),并通過(guò)監(jiān)督微調(diào)更新自己的參數(shù):θ′ ← SFT (θ, SE)。

該團(tuán)隊(duì)使用了強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化自編輯的生成過(guò)程:模型執(zhí)行一個(gè)動(dòng)作(生成 SE),再根據(jù) LM_θ′ 在 τ 上的表現(xiàn)獲得獎(jiǎng)勵(lì) r,并更新其策略以最大化預(yù)期獎(jiǎng)勵(lì):

圖片

不過(guò),與標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)設(shè)置不同,在這里的設(shè)置中,分配給給定動(dòng)作的獎(jiǎng)勵(lì)取決于執(zhí)行動(dòng)作時(shí)的模型參數(shù) θ(因?yàn)?θ 會(huì)更新為 θ′,然后再被評(píng)估)。

如此一來(lái),底層的強(qiáng)化學(xué)習(xí)狀態(tài)必定會(huì)包含策略的參數(shù),并由 (C, θ) 給出,即使策略的觀測(cè)值僅限于 C(將 θ 直接置于上下文中是不可行的)。

這意味著,使用先前版本模型 θ_old 收集的 (state, action, reward) 三元組可能會(huì)過(guò)時(shí),并且與當(dāng)前模型 θ_current 不一致。因此,該團(tuán)隊(duì)采用一種基于策略的方法,其中會(huì)從當(dāng)前模型中采樣自編輯 SE,并且至關(guān)重要的是,獎(jiǎng)勵(lì)也會(huì)使用當(dāng)前模型進(jìn)行計(jì)算。

該團(tuán)隊(duì)嘗試了各種在線策略方法,例如組相對(duì)策略優(yōu)化 (GRPO) 和近端策略優(yōu)化 (PPO) ,但發(fā)現(xiàn)訓(xùn)練不穩(wěn)定。

最終,他們選擇了來(lái)自 DeepMind 論文《Beyond human data: Scaling self-training for problem-solving with language models.》的 ReST^EM,這是一種基于已過(guò)濾行為克隆的更簡(jiǎn)單的方法 —— 也就是「拒絕采樣 + SFT」。

ReST^EM 可以被視為一個(gè)期望最大化 (EM) 過(guò)程:E-step 是從當(dāng)前模型策略采樣候選輸出,M-step 是通過(guò)監(jiān)督微調(diào)僅強(qiáng)化那些獲得正獎(jiǎng)勵(lì)的樣本。這種方法可在以下二元獎(jiǎng)勵(lì)下優(yōu)化目標(biāo) (1) 的近似:

圖片

更準(zhǔn)確地說(shuō),在優(yōu)化 (1) 時(shí),必須計(jì)算梯度 圖片。然而,在這里的設(shè)置中,獎(jiǎng)勵(lì)項(xiàng) r (SE, τ, θ_t) 取決于 θ_t,但不可微分。為了解決這個(gè)問(wèn)題,該團(tuán)隊(duì)的做法是將獎(jiǎng)勵(lì)視為相對(duì)于 θ_t 固定。通過(guò)這種近似,對(duì)于包含 N 個(gè)上下文和每個(gè)上下文 M 個(gè)采樣得到自編輯的小批量,其蒙特卡洛估計(jì)器變?yōu)椋?/span>

圖片

其中 p_θ_t 表示模型的自回歸分布,y_s^(i,j) 是自編輯 SE_ij 的第 s 個(gè) token,即上下文 C_i 的第 j 個(gè)樣本。由于在 (4) 中可以忽略 r = 0 的序列,該團(tuán)隊(duì)研究表明:在二元獎(jiǎng)勵(lì) (2) 下(對(duì)獎(jiǎng)勵(lì)項(xiàng)應(yīng)用停止梯度),ReST^EM 只需使用簡(jiǎn)單的「在好的自編輯上進(jìn)行 SFT」,就能優(yōu)化 (1)。算法 1 給出了 SEAL 的訓(xùn)練循環(huán)。

圖片

最后,他們還注意到,雖然本文的實(shí)現(xiàn)是使用單個(gè)模型來(lái)生成自編輯并從這些自編輯中學(xué)習(xí),但也可以將這些角色分離。在這樣一種「教師-學(xué)生」形式中,學(xué)生模型將使用由另一個(gè)教師模型提出的編輯進(jìn)行更新。然后,教師模型將通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,以生成能夠最大程度提高學(xué)生學(xué)習(xí)效果的編輯。

針對(duì)具體領(lǐng)域?qū)嵗?SEAL

理論有了,該團(tuán)隊(duì)也打造了 SEAL 的實(shí)例。具體來(lái)說(shuō),他們選擇了兩個(gè)領(lǐng)域:知識(shí)整合和少樣本學(xué)習(xí)。

其中,知識(shí)整合的目標(biāo)是有效地將文章中提供的信息整合到模型的權(quán)重中。下圖展示了相關(guān)設(shè)置。

圖片

而下圖則給出了少樣本學(xué)習(xí)的設(shè)置。

圖片

對(duì)這兩種實(shí)例化的更詳細(xì)描述請(qǐng)?jiān)L問(wèn)原論文,下面來(lái)看看 SEAL 的實(shí)際表現(xiàn)。

實(shí)驗(yàn)結(jié)果

少樣本學(xué)習(xí)

實(shí)驗(yàn)所用的模型是 Llama-3.2-1B-Instruct,基準(zhǔn)為 ARC。參與對(duì)比的方法包括 ICL(上下文學(xué)習(xí))、TTT + 自編輯(無(wú)強(qiáng)化學(xué)習(xí))、Oracle TTT。結(jié)果見(jiàn)下表。

圖片

可以看到,與基線相比,SEAL 顯著提高了適應(yīng)成功率:72.5% vs. 20%(使用基礎(chǔ)模型的自編輯但未進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練)和 0%(無(wú)適應(yīng)),但性能仍低于 Oracle TTT,表明新方法仍有進(jìn)一步改進(jìn)的空間。

知識(shí)整合

知識(shí)整合則使用了更大一些的 Qwen2.5-7B,目標(biāo)是整合 SQuAD 文章中的新事實(shí)內(nèi)容。這里對(duì)比的方法包括基礎(chǔ)模型、僅在文章上訓(xùn)練的模型、在文章 + 合成數(shù)據(jù)訓(xùn)練的模型、在文章 + GPT-4.1 合成數(shù)據(jù)上訓(xùn)練的模型。結(jié)果見(jiàn)下表。

圖片

可以看到,在單篇文章(n = 1)和持續(xù)預(yù)訓(xùn)練(n = 200)這兩種情況下,SEAL 方法的準(zhǔn)確度表現(xiàn)都超過(guò)了基準(zhǔn)。

首先使用基礎(chǔ) Qwen-2.5-7B 模型生成的合成數(shù)據(jù)訓(xùn)練后,模型的表現(xiàn)已經(jīng)能獲得明顯提升,從 32.7% 分別提升到了 39.7% 和 41.0%,之后再進(jìn)行強(qiáng)化學(xué)習(xí),性能還能進(jìn)一步提升(47.0% 和 43.8%)。

圖 4 展現(xiàn)了每次外部強(qiáng)化學(xué)習(xí)迭代后的準(zhǔn)確度。

圖片

可以看到,兩次迭代足以使 SEAL 超越使用 GPT-4.1 數(shù)據(jù)的設(shè)置;后續(xù)迭代的收益會(huì)下降,這表明該策略快速收斂到一種將段落蒸餾為易于學(xué)習(xí)的原子事實(shí)的編輯形式(參見(jiàn)圖 5 中的定性示例)。

圖片

在這個(gè)例子中,可以看到強(qiáng)化學(xué)習(xí)如何導(dǎo)致生成更詳細(xì)的自編輯,從而帶來(lái)更佳的性能。雖然在這個(gè)例子中,進(jìn)展很明顯,但在其他例子中,迭代之間的差異有時(shí)會(huì)更為細(xì)微。

另外,該團(tuán)隊(duì)也在論文中討論了 SEAL 框架在災(zāi)難性遺忘、計(jì)算開(kāi)銷(xiāo)、上下文相關(guān)評(píng)估方面的一些局限,詳見(jiàn)原論文。

最后,來(lái)個(gè)小調(diào)查,你認(rèn)為真正的自我進(jìn)化式 AI 將在何時(shí)實(shí)現(xiàn)?

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-02-25 08:06:05

2025-02-11 09:23:09

2023-11-26 09:04:10

Vue性能

2025-01-16 08:30:00

LLMAI訓(xùn)練

2014-05-28 14:10:11

CrossApp

2025-03-05 09:50:00

2025-03-24 00:00:00

2024-08-06 08:43:17

2011-10-20 15:59:27

CitrixNetScaler云計(jì)算

2024-10-07 08:49:25

2023-04-10 09:15:25

Vite 4.3SWC 插件

2015-09-10 13:19:02

瑞星

2023-10-26 15:38:03

混元大模型騰訊

2017-06-06 10:30:12

前端Web寬度自適應(yīng)

2022-11-08 15:11:17

GPU開(kāi)源

2024-01-06 16:55:31

AI模型

2009-09-03 16:19:25

HollyKM

2022-06-28 18:42:04

戴爾

2023-11-09 08:46:24

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)