偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="igshf"><rp id="igshf"><tbody id="igshf"></tbody></rp></style><p id="igshf"><samp id="igshf"></samp></p>

^{<blockquote id="igshf"><rt id="igshf"></rt></blockquote>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

0人工參與實現(xiàn)梯度更新！MIT新框架讓AI自動生成微調(diào)數(shù)據(jù)，權(quán)重自主升級

2025-10-14 13:51:33

人工智能新聞

MIT提出一種新的強化學(xué)習(xí)框架，讓模型生成微調(diào)數(shù)據(jù)和自我更新指令，實現(xiàn)模型權(quán)重的更新。

大模型終于學(xué)會更新自己了！

MIT提出一種新的強化學(xué)習(xí)框架，讓模型生成微調(diào)數(shù)據(jù)和自我更新指令，實現(xiàn)模型權(quán)重的更新。

無需人工參與，模型就可以自動進行梯度更新，自主學(xué)習(xí)獲取新知識或適應(yīng)新任務(wù)。

該框架名為SEAL（Self-Adapting LLMs），是一種內(nèi)外兩層嵌套的學(xué)習(xí)機制。

這種機制下，會根據(jù)更新后的模型在任務(wù)上的表現(xiàn)計算獎勵，進一步優(yōu)化自我更新指令的生成策略。

SEAL首次在權(quán)重層面賦予了大模型自我驅(qū)動的更新能力，擺脫了完全依賴外部監(jiān)督數(shù)據(jù)的局限。

模型自動學(xué)習(xí)知識更新策略

SEAL在論文中通過兩個主要實驗任務(wù)驗證其效果，分別是知識注入（knowledge incorporation）和小樣本學(xué)習(xí)（few-shot learning）。

這兩類任務(wù)分別對應(yīng)模型進化中的兩種基本情境——記住新知識，以及快速適應(yīng)新任務(wù)。

知識注入

在知識注入實驗中，研究者使用了Qwen2.5-7B模型和SQuAD數(shù)據(jù)集中的段落及對應(yīng)問題。

每輪訓(xùn)練開始時，模型接收到一個新的段落作為輸入上下文，但不會看到與之配套的問題答案。

模型首先根據(jù)這段輸入生成訓(xùn)練數(shù)據(jù)，然后使用LoRA進行一次小規(guī)模微調(diào)，該過程僅基于生成后的數(shù)據(jù)，不包括原始段落或問題。

微調(diào)完成后，模型會在下游任務(wù)上接受評估，需要在沒有原始段落作為輸入的情況下，回答多個與該段落相關(guān)的問題。

實驗對比了以下幾種方案：

僅用原始段落微調(diào)；
使用GPT-4.1生成的implication句子輔助訓(xùn)練；
用SEAL自身生成的數(shù)據(jù)微調(diào)。

在單段落場景下，Qwen原始模型的準(zhǔn)確率為32.7%，使用原文微調(diào)提升至33.5%；加入GPT-4.1合成數(shù)據(jù)后達到46.3%；而使用SEAL方法進行微調(diào)后，準(zhǔn)確率進一步提升至47.0%。

這說明SEAL不僅優(yōu)于使用原文或非優(yōu)化的生成數(shù)據(jù)，甚至能超越由GPT-4.1生成的高質(zhì)量提示數(shù)據(jù)，表現(xiàn)出較強的知識整合能力。

此外，研究者還使用了篇幅更長的段落進行了測試，包括200段落和完整SQuAD驗證集（2067段落），SEAL在200段落設(shè)置下達到了58.2%的準(zhǔn)確率，顯著高于未優(yōu)化版本，說明SEAL可以泛化到更大規(guī)模的數(shù)據(jù)整理任務(wù)。

小樣本學(xué)習(xí)

在小樣本學(xué)習(xí)實驗中，研究者使用LLaMA-3.2-1B-Instruct模型和ARC-AGI數(shù)據(jù)集中經(jīng)過篩選的任務(wù)子集。

ARC任務(wù)通常包括若干個示例的圖形變換（以文本形式表達）輸入輸出對，目的是從中學(xué)習(xí)規(guī)律并對一個新輸入做出預(yù)測。

SEAL接收到這些示例后，不會直接推理，而是生成一個訓(xùn)練配置，并執(zhí)行LoRA微調(diào)，隨后模型在該任務(wù)的測試輸入上進行預(yù)測。

結(jié)果顯示，SEAL訓(xùn)練出的策略使得任務(wù)成功率達到72.5%，遠(yuǎn)高于僅使用固定few-shot提示的0%，也明顯優(yōu)于隨機采樣策略下的20%。

雖然不及人工設(shè)定的最優(yōu)策略（Oracle TTT）的100%，但作為由模型自主摸索出的學(xué)習(xí)路徑，這一成功率已充分說明SEAL具備較強的任務(wù)適應(yīng)能力。

那么，SEAL框架是如何工作的呢？

雙循環(huán)系統(tǒng)自動生成訓(xùn)練指令

SEAL的工作過程簡單說就是讀取新信息，用自己的語言重寫，并進行梯度更新，實際上是進行自主學(xué)習(xí)。

結(jié)構(gòu)上，SEAL的整個系統(tǒng)由兩部分構(gòu)成——一個強化學(xué)習(xí)驅(qū)動的外部循環(huán)和一個用于執(zhí)行參數(shù)更新的內(nèi)部循環(huán)。

在外層，模型面對一個新的輸入上下文（比如一段文本或任務(wù)示例），首先生成一條self-edit指令。

這是一段自然語言組成的“微調(diào)指令”，描述模型應(yīng)如何基于當(dāng)前輸入來更新自己，包括提取什么樣的信息、生成哪些訓(xùn)練樣本、使用什么訓(xùn)練參數(shù)（例如學(xué)習(xí)率、訓(xùn)練輪數(shù)、損失函數(shù)策略）等。

這一行為本質(zhì)上是模型在設(shè)計自己的訓(xùn)練流程。

隨后進入內(nèi)層，模型按照self-edit的指令，執(zhí)行一次微調(diào)。

這一步會構(gòu)造合成訓(xùn)練數(shù)據(jù)，可能包括推理句、問答對、重述信息，或者針對任務(wù)的具體樣本變換，并以指定的優(yōu)化策略進行權(quán)重更新。

更新后得到的新模型將被立即用于解決相應(yīng)任務(wù)（比如回答相關(guān)問題或完成預(yù)測），評估其效果，得出一個表現(xiàn)評分。

這個評分（reward）反映了該self-edit對性能提升的效果，進而用于生成下一步的self-edit策略。

為了完成這個策略優(yōu)化，SEAL使用的是一種非傳統(tǒng)的強化學(xué)習(xí)方法，稱為ReSTEM（Reinforcement Learning with Sampled Trajectories and Expert Mimicry）。

其關(guān)鍵思路不是直接對reward進行梯度回傳，而是采取一種行為克隆+過濾采樣的方式。

具體來說，在每個上下文中，模型會生成多個self-edit候選，每個候選會被分別應(yīng)用，執(zhí)行一次微調(diào)，得到一個新模型。

然后會對新模型在任務(wù)上的表現(xiàn)進行評估，只有帶來性能提升的self-edit才會被保留。

接著用這批“有效”的self-edit作為訓(xùn)練數(shù)據(jù)，對生成策略進行一次有監(jiān)督微調(diào)（行為克隆），然后反復(fù)迭代，使得模型越來越傾向于生成有效的self-edit。

ReSTEM本質(zhì)上是一個期望最大化過程，相比PPO等策略梯度方法，ReSTEM結(jié)構(gòu)更簡單，訓(xùn)練更穩(wěn)定，同時也更適用于大模型的生成行為學(xué)習(xí)任務(wù)。

通過這一套機制，SEAL實現(xiàn)了“學(xué)會如何讓自己學(xué)得更好”。

模型不僅能通過已有數(shù)據(jù)完成任務(wù)，更能主動設(shè)計訓(xùn)練方式、構(gòu)造訓(xùn)練數(shù)據(jù)，并不斷通過反饋優(yōu)化這種“自學(xué)習(xí)”的策略。最終表現(xiàn)為一種具備自我編輯與持續(xù)進化能力的語言模型結(jié)構(gòu)。

論文地址：
https://arxiv.org/abs/2506.10943
項目主頁：
https://jyopari.github.io/posts/seal

責(zé)任編輯：張燕妮來源：量子位

AI 模型數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="4ho6t"><samp id="4ho6t"></samp></p>

<blockquote id="4ho6t"><i id="4ho6t"></i></blockquote>