偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

0人工參與實現(xiàn)梯度更新!MIT新框架讓AI自動生成微調(diào)數(shù)據(jù),權(quán)重自主升級

人工智能 新聞
MIT提出一種新的強化學(xué)習(xí)框架,讓模型生成微調(diào)數(shù)據(jù)和自我更新指令,實現(xiàn)模型權(quán)重的更新。

大模型終于學(xué)會更新自己了!

MIT提出一種新的強化學(xué)習(xí)框架,讓模型生成微調(diào)數(shù)據(jù)和自我更新指令,實現(xiàn)模型權(quán)重的更新。

無需人工參與,模型就可以自動進行梯度更新,自主學(xué)習(xí)獲取新知識或適應(yīng)新任務(wù)。

該框架名為SEAL(Self-Adapting LLMs),是一種內(nèi)外兩層嵌套的學(xué)習(xí)機制。

這種機制下,會根據(jù)更新后的模型在任務(wù)上的表現(xiàn)計算獎勵,進一步優(yōu)化自我更新指令的生成策略。

SEAL首次在權(quán)重層面賦予了大模型自我驅(qū)動的更新能力,擺脫了完全依賴外部監(jiān)督數(shù)據(jù)的局限。

模型自動學(xué)習(xí)知識更新策略

SEAL在論文中通過兩個主要實驗任務(wù)驗證其效果,分別是知識注入(knowledge incorporation)和小樣本學(xué)習(xí)(few-shot learning)。

這兩類任務(wù)分別對應(yīng)模型進化中的兩種基本情境——記住新知識,以及快速適應(yīng)新任務(wù)。

知識注入

在知識注入實驗中,研究者使用了Qwen2.5-7B模型和SQuAD數(shù)據(jù)集中的段落及對應(yīng)問題。

每輪訓(xùn)練開始時,模型接收到一個新的段落作為輸入上下文,但不會看到與之配套的問題答案。

模型首先根據(jù)這段輸入生成訓(xùn)練數(shù)據(jù),然后使用LoRA進行一次小規(guī)模微調(diào),該過程僅基于生成后的數(shù)據(jù),不包括原始段落或問題。

微調(diào)完成后,模型會在下游任務(wù)上接受評估,需要在沒有原始段落作為輸入的情況下,回答多個與該段落相關(guān)的問題。

實驗對比了以下幾種方案:

  • 僅用原始段落微調(diào);
  • 使用GPT-4.1生成的implication句子輔助訓(xùn)練;
  • 用SEAL自身生成的數(shù)據(jù)微調(diào)。

在單段落場景下,Qwen原始模型的準(zhǔn)確率為32.7%,使用原文微調(diào)提升至33.5%;加入GPT-4.1合成數(shù)據(jù)后達到46.3%;而使用SEAL方法進行微調(diào)后,準(zhǔn)確率進一步提升至47.0%。

這說明SEAL不僅優(yōu)于使用原文或非優(yōu)化的生成數(shù)據(jù),甚至能超越由GPT-4.1生成的高質(zhì)量提示數(shù)據(jù),表現(xiàn)出較強的知識整合能力。

此外,研究者還使用了篇幅更長的段落進行了測試,包括200段落和完整SQuAD驗證集(2067段落),SEAL在200段落設(shè)置下達到了58.2%的準(zhǔn)確率,顯著高于未優(yōu)化版本,說明SEAL可以泛化到更大規(guī)模的數(shù)據(jù)整理任務(wù)。

小樣本學(xué)習(xí)

在小樣本學(xué)習(xí)實驗中,研究者使用LLaMA-3.2-1B-Instruct模型和ARC-AGI數(shù)據(jù)集中經(jīng)過篩選的任務(wù)子集。

ARC任務(wù)通常包括若干個示例的圖形變換(以文本形式表達)輸入輸出對,目的是從中學(xué)習(xí)規(guī)律并對一個新輸入做出預(yù)測。

SEAL接收到這些示例后,不會直接推理,而是生成一個訓(xùn)練配置,并執(zhí)行LoRA微調(diào),隨后模型在該任務(wù)的測試輸入上進行預(yù)測。

結(jié)果顯示,SEAL訓(xùn)練出的策略使得任務(wù)成功率達到72.5%,遠(yuǎn)高于僅使用固定few-shot提示的0%,也明顯優(yōu)于隨機采樣策略下的20%。

雖然不及人工設(shè)定的最優(yōu)策略(Oracle TTT)的100%,但作為由模型自主摸索出的學(xué)習(xí)路徑,這一成功率已充分說明SEAL具備較強的任務(wù)適應(yīng)能力。

那么,SEAL框架是如何工作的呢?

雙循環(huán)系統(tǒng)自動生成訓(xùn)練指令

SEAL的工作過程簡單說就是讀取新信息,用自己的語言重寫,并進行梯度更新,實際上是進行自主學(xué)習(xí)。

結(jié)構(gòu)上,SEAL的整個系統(tǒng)由兩部分構(gòu)成——一個強化學(xué)習(xí)驅(qū)動的外部循環(huán)和一個用于執(zhí)行參數(shù)更新的內(nèi)部循環(huán)。

在外層,模型面對一個新的輸入上下文(比如一段文本或任務(wù)示例),首先生成一條self-edit指令。

這是一段自然語言組成的“微調(diào)指令”,描述模型應(yīng)如何基于當(dāng)前輸入來更新自己,包括提取什么樣的信息、生成哪些訓(xùn)練樣本、使用什么訓(xùn)練參數(shù)(例如學(xué)習(xí)率、訓(xùn)練輪數(shù)、損失函數(shù)策略)等。

這一行為本質(zhì)上是模型在設(shè)計自己的訓(xùn)練流程。

隨后進入內(nèi)層,模型按照self-edit的指令,執(zhí)行一次微調(diào)。

這一步會構(gòu)造合成訓(xùn)練數(shù)據(jù),可能包括推理句、問答對、重述信息,或者針對任務(wù)的具體樣本變換,并以指定的優(yōu)化策略進行權(quán)重更新。

更新后得到的新模型將被立即用于解決相應(yīng)任務(wù)(比如回答相關(guān)問題或完成預(yù)測),評估其效果,得出一個表現(xiàn)評分。

這個評分(reward)反映了該self-edit對性能提升的效果,進而用于生成下一步的self-edit策略。

為了完成這個策略優(yōu)化,SEAL使用的是一種非傳統(tǒng)的強化學(xué)習(xí)方法,稱為ReSTEM(Reinforcement Learning with Sampled Trajectories and Expert Mimicry)。

其關(guān)鍵思路不是直接對reward進行梯度回傳,而是采取一種行為克隆+過濾采樣的方式。

具體來說,在每個上下文中,模型會生成多個self-edit候選,每個候選會被分別應(yīng)用,執(zhí)行一次微調(diào),得到一個新模型。

然后會對新模型在任務(wù)上的表現(xiàn)進行評估,只有帶來性能提升的self-edit才會被保留。

接著用這批“有效”的self-edit作為訓(xùn)練數(shù)據(jù),對生成策略進行一次有監(jiān)督微調(diào)(行為克隆),然后反復(fù)迭代,使得模型越來越傾向于生成有效的self-edit。

ReSTEM本質(zhì)上是一個期望最大化過程,相比PPO等策略梯度方法,ReSTEM結(jié)構(gòu)更簡單,訓(xùn)練更穩(wěn)定,同時也更適用于大模型的生成行為學(xué)習(xí)任務(wù)。

通過這一套機制,SEAL實現(xiàn)了“學(xué)會如何讓自己學(xué)得更好”。

模型不僅能通過已有數(shù)據(jù)完成任務(wù),更能主動設(shè)計訓(xùn)練方式、構(gòu)造訓(xùn)練數(shù)據(jù),并不斷通過反饋優(yōu)化這種“自學(xué)習(xí)”的策略。最終表現(xiàn)為一種具備自我編輯與持續(xù)進化能力的語言模型結(jié)構(gòu)。

論文地址:
https://arxiv.org/abs/2506.10943
項目主頁:
https://jyopari.github.io/posts/seal

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-06-30 13:10:37

AISEALMIT

2022-10-28 15:08:30

DeepMind數(shù)據(jù)

2018-02-25 12:14:20

MITAI技術(shù)卡頓

2021-12-20 16:23:40

AI 數(shù)據(jù)人工智能

2024-01-22 11:35:49

人工智能AI

2022-03-16 17:09:00

人工智能應(yīng)用

2020-06-30 10:01:36

機器人人工智能系統(tǒng)

2024-12-25 14:10:00

AI人工智能設(shè)計

2025-07-09 11:21:43

MIT語言模型GPT-4.1

2022-05-30 15:02:23

機器人亞馬遜挑戰(zhàn)

2021-02-01 17:48:37

人工智能AI機器學(xué)習(xí)

2022-12-05 11:13:44

AI人工智能

2020-06-02 08:11:48

人工智能AI

2021-01-13 11:59:03

人工智能人工智能發(fā)展

2019-01-18 12:24:22

人工智能資本融資

2019-05-21 11:14:17

Dynatrace人工智能監(jiān)控

2021-01-12 11:19:35

人工智能AI產(chǎn)業(yè)預(yù)測

2020-04-24 20:33:18

聯(lián)通大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號