偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

7B智能體僅憑9個(gè)任務(wù)訓(xùn)練即超越R1!上交大打造AI-for-AI新范式

人工智能 新聞
最近,上海交通大學(xué)與上海人工智能實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)最新研究表明,一個(gè)僅依賴 7B 參數(shù)大模型的 AI 智能體(ML-Agent),采用 “經(jīng)驗(yàn)學(xué)習(xí)” 新范式,只在 9 個(gè)機(jī)器學(xué)習(xí)任務(wù)上持續(xù)探索學(xué)習(xí),迭代進(jìn)化,最終就能設(shè)計(jì)出超越 671B Deepseek-R1 驅(qū)動(dòng)的智能體設(shè)計(jì)的 AI 模型,首次實(shí)現(xiàn)了在自主機(jī)器學(xué)習(xí)領(lǐng)域從 “提示工程” 到 “經(jīng)驗(yàn)學(xué)習(xí)” 的范式躍遷,開創(chuàng)了 AI4AI 的新路徑。

盡管人工智能(AI)在飛速發(fā)展,當(dāng)前 AI 開發(fā)仍嚴(yán)重依賴人類專家大量的手動(dòng)實(shí)驗(yàn)和反復(fù)的調(diào)參迭代,過程費(fèi)時(shí)費(fèi)力。這種以人為中心的方式已成為制約創(chuàng)新速度和通向通用人工智能(AGI)的關(guān)鍵瓶頸。為突破限制,AI-for-AI(AI4AI)應(yīng)運(yùn)而生。AI4AI 旨在讓 AI 作為智能體來自主設(shè)計(jì)、優(yōu)化和改進(jìn) AI 算法,大幅減少人類干預(yù),加速迭代開發(fā)周期,推動(dòng) AGI 發(fā)展進(jìn)程。

最近,上海交通大學(xué)與上海人工智能實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)最新研究表明,一個(gè)僅依賴 7B 參數(shù)大模型的 AI 智能體(ML-Agent),采用 “經(jīng)驗(yàn)學(xué)習(xí)” 新范式,只在 9 個(gè)機(jī)器學(xué)習(xí)任務(wù)上持續(xù)探索學(xué)習(xí),迭代進(jìn)化,最終就能設(shè)計(jì)出超越 671B Deepseek-R1 驅(qū)動(dòng)的智能體設(shè)計(jì)的 AI 模型,首次實(shí)現(xiàn)了在自主機(jī)器學(xué)習(xí)領(lǐng)域從 “提示工程” 到 “經(jīng)驗(yàn)學(xué)習(xí)” 的范式躍遷,開創(chuàng)了 AI4AI 的新路徑。

圖片

  • 論文標(biāo)題:
    ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering
  • 論文地址:
    https://arxiv.org/pdf/2505.23723
  • 代碼地址:
    https://github.com/MASWorks/ML-Agent

傳統(tǒng)自主機(jī)器學(xué)習(xí):費(fèi)時(shí)低效的困境

傳統(tǒng)機(jī)器學(xué)習(xí)工程繁瑣低效,研究人員常需數(shù)天至數(shù)月進(jìn)行模型設(shè)計(jì)、參數(shù)調(diào)優(yōu),與反復(fù)試錯(cuò),限制了 AI 創(chuàng)新發(fā)展的速度。最近,基于大語言模型(LLM)的智能體(Agent)的出現(xiàn)給該領(lǐng)域帶來顯著變革。它們能理解自然語言指令,生成代碼并與環(huán)境交互,實(shí)現(xiàn)自主機(jī)器學(xué)習(xí)(Autonomous Machine Learning,AI4AI),提升 AI 開發(fā)效率。

然而,這些智能體仍高度依賴人工設(shè)計(jì)的提示詞(Prompt Engineering),缺乏從經(jīng)驗(yàn)中自主學(xué)習(xí)與泛化的能力。其能力提升仍需研究人員根據(jù)數(shù)小時(shí)的執(zhí)行結(jié)果不斷調(diào)整提示詞形成 "等待 - 修改 - 重試" 的低效循環(huán),仍難以擺脫對(duì)人力的依賴與效率瓶頸。

 AI4AI 破局之路:從指令遵循到自我進(jìn)化

為解決這一關(guān)鍵限制,該研究首次探索了基于學(xué)習(xí)的智能體自主機(jī)器學(xué)習(xí)范式,其中智能體可以通過在線強(qiáng)化學(xué)習(xí)從機(jī)器學(xué)習(xí)任務(wù)的執(zhí)行軌跡中進(jìn)行學(xué)習(xí)。這種方式使得智能體能夠主動(dòng)探索不同的策略,跨任務(wù)積累知識(shí),逐步優(yōu)化決策,持續(xù)從自身經(jīng)驗(yàn)中學(xué)習(xí),并通過訓(xùn)練不斷提升其設(shè)計(jì)優(yōu)化 AI 的能力。

圖片

自主機(jī)器學(xué)習(xí)流程

 ML-Agent:首個(gè)經(jīng)驗(yàn)學(xué)習(xí)的 AI4AI 智能體

利用提出的訓(xùn)練框架,研究人員訓(xùn)練了一個(gè)由 7B 規(guī)模的 Qwen2.5 大模型驅(qū)動(dòng)的自主機(jī)器學(xué)習(xí)智能體。在訓(xùn)練過程中,智能體能夠高效地探索機(jī)器學(xué)習(xí)的環(huán)境,從經(jīng)驗(yàn)中學(xué)習(xí),并通過對(duì)各種機(jī)器學(xué)習(xí)任務(wù)的迭代探索實(shí)現(xiàn)持續(xù)的性能提升。令人驚喜的是,只在 9 個(gè)機(jī)器學(xué)習(xí)任務(wù)上反復(fù)學(xué)習(xí),7B 的智能體不僅超越了 671B 規(guī)模的 DeepSeek-R1 智能體,還表現(xiàn)出了卓越的跨任務(wù)泛化能力。這項(xiàng)研究標(biāo)志著 AI 智能體在設(shè)計(jì) AI 中從 "工具執(zhí)行者" 向 "自主學(xué)習(xí)者" 的轉(zhuǎn)變,帶來了 “AI 自主設(shè)計(jì) AI” 的新范式。

圖片

自主機(jī)器學(xué)習(xí)訓(xùn)練框架

三大核心突破,解鎖 AI 自進(jìn)化

研究團(tuán)隊(duì)提出全新訓(xùn)練框架,攻克自主機(jī)器學(xué)習(xí)三大難題:

1?? 敢想敢試:探索增強(qiáng)微調(diào)

  • 問題:傳統(tǒng)自主機(jī)器學(xué)習(xí)智能體重復(fù)相似操作,創(chuàng)新受限!
  • 解法:探索增強(qiáng)微調(diào) (Exploration-enriched fine-tuning),通過精心設(shè)計(jì)的多樣化的專家軌跡數(shù)據(jù)集,訓(xùn)練智能體嘗試不同策略,大幅提升探索能力。
  • 效果:拓寬智能體的探索范圍,增強(qiáng)后續(xù)強(qiáng)化學(xué)習(xí)階段多樣化策略生成能力,不再局限局部最優(yōu)解,而是具備更廣泛的策略選擇空間!

圖片

探索增強(qiáng)微調(diào)助力強(qiáng)化學(xué)習(xí)訓(xùn)練

2?? 快速迭代:逐步強(qiáng)化學(xué)習(xí)范式

  • 問題:完整迭代機(jī)器學(xué)習(xí)實(shí)驗(yàn)需數(shù)小時(shí),傳統(tǒng) RL 方法在機(jī)器學(xué)習(xí)實(shí)驗(yàn)中采樣效率低下!
  • 解法:逐步強(qiáng)化學(xué)習(xí)范式(Step-wise RL paradigm),重構(gòu)訓(xùn)練目標(biāo)函數(shù),每次只優(yōu)化單步動(dòng)作,數(shù)據(jù)收集效率提升數(shù)倍。
  • 效果:RL 訓(xùn)練階段可擴(kuò)展性提高,訓(xùn)練時(shí)間顯著縮短!

圖片

逐步強(qiáng)化學(xué)習(xí)(紅線,每訓(xùn)練 5 步進(jìn)行一次評(píng)測(cè))比基于整條軌跡的強(qiáng)化學(xué)習(xí)(藍(lán)線,每訓(xùn)練 1 步進(jìn)行一次評(píng)測(cè))更高效

3?? 聽懂反饋:定制化獎(jiǎng)勵(lì)模塊

  • 問題:實(shí)驗(yàn)反饋復(fù)雜(如代碼錯(cuò)誤、資源溢出、性能提升),難以統(tǒng)一!
  • 解法:機(jī)器學(xué)習(xí)定制化獎(jiǎng)勵(lì)模塊(Agentic ML-Specific Reward Module) 懲罰錯(cuò)誤、鼓勵(lì)改進(jìn),將機(jī)器學(xué)習(xí)多樣執(zhí)行結(jié)果轉(zhuǎn)換為統(tǒng)一反饋。 
  • 效果:為 RL 優(yōu)化提供一致有效的獎(jiǎng)勵(lì)信號(hào),推動(dòng)智能體在自主機(jī)器學(xué)習(xí)訓(xùn)練中進(jìn)行持續(xù)迭代改進(jìn)!

圖片

機(jī)器學(xué)習(xí)定制化獎(jiǎng)勵(lì)模塊每一組成部分的有效性

 ML-Agent 持續(xù)進(jìn)化,展現(xiàn)泛化能力!

研究團(tuán)隊(duì)利用所提訓(xùn)練框架訓(xùn)練了一個(gè)由開源大模型 Qwen2.5-7B 驅(qū)動(dòng)的自主機(jī)器學(xué)習(xí)智能體 ——ML-Agent,并開展廣泛的實(shí)驗(yàn)以評(píng)估其性能。結(jié)果表明:

? ML-Agent 具有強(qiáng)大泛化能力

研究將 ML-Agent 與 5 個(gè)強(qiáng)大的開源 / 閉源 LLM 驅(qū)動(dòng)的智能體進(jìn)行了比較。下表說明,ML-Agent 在見過 / 未見過的機(jī)器學(xué)習(xí)任務(wù)中的平均和最好性能都達(dá)到了最高。令人驚喜的是,只在 9 個(gè)機(jī)器學(xué)習(xí)任務(wù)上不斷學(xué)習(xí),7B 大模型驅(qū)動(dòng)的 ML-Agent 就在所有 10 個(gè)未見過的機(jī)器學(xué)習(xí)任務(wù)上超過了 671B 的 Deepseek-R1 驅(qū)動(dòng)的自主機(jī)器學(xué)習(xí)智能體,展現(xiàn)出了強(qiáng)大的泛化能力。

圖片

ML-Agent 具有強(qiáng)大泛化能力

? ML-Agent 優(yōu)于最先進(jìn)方法

為了進(jìn)一步證明訓(xùn)練框架的有效性,研究人員將 ML-Agent 與一個(gè)專門為自主機(jī)器學(xué)習(xí)設(shè)計(jì)的 LLM 智能體(AIDE)作比較。結(jié)果顯示,ML-Agent 總體優(yōu)于 AIDE 智能體,凸顯了所提訓(xùn)練框架的有效性。

圖片

ML-Agent 優(yōu)于最先進(jìn)的自主機(jī)器學(xué)習(xí)智能體

? ML-Agent 持續(xù)進(jìn)化

隨著訓(xùn)練的進(jìn)行,ML-Agent 不斷自我探索,從自主機(jī)器學(xué)習(xí)的經(jīng)驗(yàn)中學(xué)習(xí),在訓(xùn)練過 / 未經(jīng)訓(xùn)練過的機(jī)器學(xué)習(xí)任務(wù)上性能持續(xù)提升,最終超越所有基線方法。

圖片

ML-Agent 的自主機(jī)器學(xué)習(xí)能力在訓(xùn)練中持續(xù)提升

ML-Agent 引領(lǐng)了 AI4AI 的新范式,將自主機(jī)器學(xué)習(xí)從依賴人類優(yōu)化的、提示工程的低效模式,轉(zhuǎn)變?yōu)橹悄荏w自主探索的、基于自我經(jīng)驗(yàn)學(xué)習(xí)的設(shè)計(jì)方式。這一轉(zhuǎn)變大幅減少人類干預(yù),加速了 AI 算法的設(shè)計(jì)迭代。隨著 ML-Agent 在更多的機(jī)器學(xué)習(xí)任務(wù)上持續(xù)自我學(xué)習(xí)與探索,其能力有望不斷提升,設(shè)計(jì)出更高效智能的 AI,為構(gòu)建強(qiáng)大的 AI4AI 系統(tǒng)奠定堅(jiān)實(shí)基礎(chǔ),為實(shí)現(xiàn)通用人工智能的長(zhǎng)遠(yuǎn)目標(biāo)貢獻(xiàn)關(guān)鍵力量。

MASWorks 大模型多智能體開源社區(qū)

ML-Agent 也是最近剛發(fā)起的大模型多智能體開源社區(qū) MASWorks 的拼圖之一。MASWorks 社區(qū)致力于連接全球研究者,匯聚頂尖智慧,旨在打造一個(gè)開放、協(xié)作的平臺(tái),共同分享、貢獻(xiàn)知識(shí),推動(dòng)多智能體系統(tǒng)(MAS)領(lǐng)域的蓬勃發(fā)展。

作為社區(qū)啟動(dòng)的首個(gè)重磅活動(dòng),MASWorks 將在 ICML 2025 舉辦聚焦大語言模型多智能體的 Workshop:MAS-2025!期待全球廣大學(xué)者的積極參與,共同探討、碰撞思想,描繪 MAS 的未來藍(lán)圖!

  • MASWorks 地址:https://github.com/MASWorks
  • MAS-2025 地址:https://mas-2025.github.io/MAS-2025/
責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-04-19 14:28:21

聯(lián)想AI PC

2023-11-13 19:35:12

訓(xùn)練數(shù)據(jù)

2024-04-26 11:40:23

AI硬件Rabbit

2025-02-20 15:32:28

2025-02-12 11:53:18

2025-05-26 09:21:00

2025-07-02 08:50:00

AI智能體模型

2025-02-12 12:12:59

2018-04-03 13:20:40

UCloud AI T訓(xùn)練平臺(tái)

2025-02-07 15:52:20

2025-02-17 09:33:00

AI算法模型

2025-03-27 10:28:32

2025-02-03 14:17:27

2023-06-09 07:29:03

模型文本document

2025-05-16 07:50:58

Spring AIMCPSSE

2025-04-16 15:28:31

模型AI數(shù)據(jù)

2025-04-21 04:22:00

Spring AIMCPDeepSeek

2025-06-06 09:07:00

模型LLMAI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)