偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

性能提升84%-166%!L-Zero僅靠強化學習解鎖大模型探索世界的能力 | 已開源

人工智能 新聞
新研究僅通過RLVR(可驗證獎勵的強化學習),成功讓模型自主進化出通用的探索、驗證與記憶能力,讓模型學會“自學”!

大模型可以不再依賴人類調(diào)教,真正“自學成才”啦?

新研究僅通過RLVR(可驗證獎勵的強化學習),成功讓模型自主進化出通用的探索、驗證與記憶能力,讓模型學會“自學”!

圖片

當前主流的LLM Agent依然高度依賴于提示詞工程、復雜的系統(tǒng)編排、甚至靜態(tài)規(guī)則表,這使得它們在面對復雜任務時難以實現(xiàn)真正的智能行為演化。

而來自招商局獅子山人工智能實驗室的研究團隊認為,RLVR范式是智能體(Agent)通往更高通用性和自主性的重要突破口。

于是,他們從兩個關(guān)鍵層面出發(fā)構(gòu)建了端到端Agent訓練pipeline——L0系統(tǒng)

  • 智能體架構(gòu)層面提出了結(jié)構(gòu)化智能體框架——NB-Agent,在經(jīng)典”代碼即行動”(Code-as-Action)架構(gòu)基礎(chǔ)上進行擴展,使智能體能夠操作記憶/上下文,從而獲得類人類的記憶存儲、信息總結(jié)與自我反思能力。
  • 學習范式層面探索了一個核心問題:是否可以僅通過RLVR范式,引導智能體從零開始,學會如何規(guī)劃、搜索、驗證與記憶,最終解決復雜的多輪推理任務?

L0系統(tǒng)的框架、模型及訓練集已全部開源,詳細可見文末鏈接。

結(jié)構(gòu)化智能體框架:Notebook Agent(NB-Agent)

圖片

△NB-Agent的“Think-Code-Observe”循環(huán)

受到“代碼即行動”的啟發(fā),NB-Agent選擇使用代碼作為通用的動作空間,并且遵循“讀取-求值-輸出”循環(huán)(Read-Eval-Print-Loop,REPL)的方式來和Jupyter Kernel交互。

每一步都是“Think-Code-Observe”:

  • Think:模型生成推理邏輯;
  • Code:將推理轉(zhuǎn)化為Python代碼;
  • Observe:執(zhí)行代碼并觀察輸出結(jié)果,反饋進入下一輪思考。

在這個過程中,長文本處理是智能體驅(qū)動模型(Agentic model)面臨的核心挑戰(zhàn)。

為此,研究團隊提出一個創(chuàng)新方案:將模型的上下文窗口(context)與一個Python運行時的變量進行雙向綁定。

這賦予了智能體主動管理自身記憶的能力,不再被動受限于上下文長度。

具體來說,研究團隊提供了一個Notepad Python類作為結(jié)構(gòu)化的外部記憶模塊。智能體可以通過代碼指令,將關(guān)鍵信息、推理步驟或中間結(jié)果寫入Notepad。

這些信息會持久存在,并映射到上下文中一個穩(wěn)定區(qū)域,確保在長程任務中不被遺忘。

同時,REPL的交互模式,使智能體能像程序員一樣,將復雜信息存入變量、隨時取用,從而徹底突破上下文的枷鎖。

訓練流程:端到端強化學習

圖片
△L0的multi-turn訓練過程

L0采用端到端強化學習進行智能體訓練:

  • 重新定義動作粒度一個動作不再是一個token,而是一個完整的“思考+代碼段”;
  • 提出Agentic Policy Gradient算法適應序列級動作定義,將策略梯度從單token級擴展到完整動作序列級;
  • 構(gòu)建多維度自動獎勵函數(shù)包括最終答案正確性、代碼執(zhí)行情況、輸出結(jié)構(gòu)規(guī)范性等;
  • 分布式訓練架構(gòu)采用輕量級沙箱隔離(Bubblewrap),支持高并發(fā)、低部署門檻的大規(guī)模RL訓練。

測試:L0顯著提升了模型在多個基準測試上的性能

在多個經(jīng)典的開放領(lǐng)域問答數(shù)據(jù)集對L0系統(tǒng)進行測試,見證了智能體的驚人進化。

圖片

以Qwen2.5-7B這個基礎(chǔ)模型為例:

L0-Scaffold(僅有架構(gòu),未經(jīng)過RL訓練)下,它就像一個剛拿到Notebook的新手,在HotpotQA上得分22%。

經(jīng)過L0-RL(強化學習訓練)后,它學會了如何高效搜索、驗證信息、剔除冗余步驟,最終在同一任務上得分飆升至41%(提升84%)

在SimpleQA數(shù)據(jù)集上,L0-RL帶來的提升更加顯著:EM(精確匹配)得分從30%暴漲到80%(提升166%)。

圖片

L0在與其他工作的比較中也獲得了具有競爭力的性能,在平均表現(xiàn)上明顯優(yōu)于Search-R1和ZeroSearch。

這表明L0框架為強化學習提供了更豐富和更具表現(xiàn)力的環(huán)境:其他方法訓練智能體學習何時調(diào)用單個工具(例如搜索引擎),而L0框架訓練智能體成為一個程序化的問題解決者,學習如何在結(jié)構(gòu)化環(huán)境中組合動作、管理狀態(tài)和進行推理。

這意味著什么?

在真實搜索之外,模型自己“學會”的搜索、規(guī)劃和記憶行為,比直接調(diào)用API的規(guī)則式Agent更穩(wěn)定、更泛化、也更強大!

它不再是生硬地調(diào)用工具,而是真正理解了怎么利用代碼和這個世界交互,展現(xiàn)了通往更高級通用智能的清晰路徑。

論文:https://github.com/cmriat/l0/tree/main/papers/l0.pdf

NB-Agent框架、訓練pipeline和所有訓練recipe:https://github.com/cmriat/l0

模型checkpoint:https://huggingface.co/cmriat/models

20K訓練數(shù)據(jù)集:https://huggingface.co/cmriat/datasets

用checkpoint執(zhí)行深度搜索任務的示例:https://github.com/cmriat/l0/blob/main/examples/nb_agent/deep_searcher_case.md

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-20 09:21:51

2024-01-26 08:31:49

2022-09-04 14:38:00

世界模型建模IRIS

2025-05-30 04:00:00

IBMRLVRGRPO

2023-08-28 06:52:29

2022-06-25 21:38:36

AI模型

2024-09-23 08:30:00

AI模型

2025-02-20 15:32:28

2025-04-09 09:15:00

數(shù)據(jù)模型AI

2023-09-21 10:29:01

AI模型

2025-06-11 08:45:00

強化學習AI模型

2025-06-23 09:09:00

2022-11-02 14:02:02

強化學習訓練

2023-05-05 13:11:16

2025-02-03 06:00:00

2023-04-23 10:12:14

算法強化學習

2024-11-05 14:20:00

AI模型

2025-06-26 09:13:22

2023-01-04 10:02:53

強化學習自動駕駛

2019-10-08 10:44:42

人工智能機器學習技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號