偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！

發(fā)布于 2025-7-11 06:44

瀏覽

0收藏

今天分享一篇來自斯坦福大學和 Google DeepMind 的文章，標題為：《Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use》（利用合成數(shù)據(jù)生成和多階段強化學習進行推理和工具使用）。

本文提出了一種名為 SWiRL (Step-Wise Reinforcement Learning) 的方法，旨在優(yōu)化 LLMs 在復雜多步推理和工具使用任務中的表現(xiàn)。該方法分為兩個主要階段：
1.合成數(shù)據(jù)生成：通過迭代式生成多階段（Multi-step）的推理和工具使用數(shù)據(jù)，并從中學習。
2.多目標強化學習：提出一種針對多階段優(yōu)化的強化學習方法。提示模型的Tool調(diào)用以及推理能力能力。

與Search-R1等方法不同，其通過合成推理的Tracing數(shù)據(jù)，并基于該數(shù)據(jù)來進行RL學習，可以極大提升在復雜多步推理和工具使用任務中的表現(xiàn)?？梢越o后續(xù)DeepResearch的端到端的RL訓練提供一個參考。

一、概述

?Title:Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use

?URL:?? https://arxiv.org/abs/2504.04736??

?Authors:Anna Goldie, Azalia Mirhoseini, Hao Zhou, Irene Cai, Christopher D. Manning

1 Motivation

? 現(xiàn)有的LLMs 在處理需要多步驟推理和工具使用的復雜查詢時（如多跳問答、數(shù)學問題求解、編程等）表現(xiàn)不佳。

? 傳統(tǒng)的強化學習方法（如 RLHF、RLAIF）主要關注單一步驟優(yōu)化，而多步驟任務中，中間步驟的錯誤可能導致最終結果的錯誤，因此需要對整個行動鏈條的準確性進行優(yōu)化。

? 需要開發(fā)一種能夠處理多步驟動作序列（例如，確定何時停止搜索以及何時綜合信息）并有效從錯誤中恢復的優(yōu)化技術。

2 Methods

SWiRL 方法旨在提升 LLM 在多步推理和工具使用任務中的表現(xiàn)，避免了對人工標注和GroundTruth的依賴，其核心在于合成數(shù)據(jù)生成和基于模型判定的分步強化學習。

優(yōu)點總結：不需要Golden label，不需要人類標注，基于model-based judgment和data生成，過濾，來做RL的訓練。

詳細方法和步驟:

Stage 1: 多步合成數(shù)據(jù)生成與篩選 (Multi-Step Data Collection)

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！-AI.x社區(qū)

1.數(shù)據(jù)生成：

? 使用開源 LLM (Gemma 2) 并接入外部工具（如搜索引擎或計算器）。

? 迭代式地提示模型生成多步軌跡（trajectories）。在每一步中，模型可以生成思維鏈（chain of thought），選擇調(diào)用工具或直接給出最終答案。

? 如果模型調(diào)用工具，則查詢會被自動提取并在環(huán)境中執(zhí)行，結果會作為下一步的上下文提供給模型。

? 軌跡在模型生成最終答案（通過特殊標記表示）時結束。

?軌跡轉換：將包含k個動作的軌跡轉換為k個子軌跡，每個子軌跡包含從開始到該動作的所有上下文。

2.數(shù)據(jù)篩選策略：探索四種篩選策略對模型性能的影響：

?No filtering (無篩選)：不進行任何篩選。

?Process filtering (過程篩選)：保留每一步都被模型（Gemini 1.5 Pro Thinking）判斷為合理的軌跡。判斷標準是當前動作 a_i 在給定上下文 s_i 下的合理性，不使用GroundTruth。

?Outcome filtering (結果篩選)：僅選擇最終答案 a_K 與GroundTruth的軌跡。

?Process and outcome filtering (過程與結果聯(lián)合篩選)：同時滿足過程合理性及最終答案正確的軌跡。

3.數(shù)據(jù)集構建規(guī)模：

? 收集了 50,000 條合成軌跡（基于 10,000 個 HotPotQA 訓練集問題，每個問題 5 條軌跡）。

? 收集了 37,500 條合成軌跡（基于 7,500 個 GSM8K 訓練集問題）。

? 為防止軌跡過長，將 HotPotQA 的最大步驟數(shù)設置為 5，GSM8K 設置為 10。

Stage 2: 分步強化學習優(yōu)化 (Step-Wise Reinforcement Learning Methodology)

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！-AI.x社區(qū)

1.優(yōu)化目標：

? 目標函數(shù)是期望的逐步獎勵總和：??J(θ) = E[R(a|s)]???，其中??R(a|s)?? 是根據(jù)生成式獎勵模型（Gemini 1.5 Pro）評估當前動作a在上下文s下的質(zhì)量。不使用GroundTruth label來做Reward。

? 該方法通過細粒度的、按步驟的微調(diào)，使模型能夠?qū)W習局部決策（預測下一步）和全局軌跡優(yōu)化（生成最終響應），并獲得即時反饋。

2.推理階段評估 (Step-Wise Inference-time Evaluation)：

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！-AI.x社區(qū)

? 在推理時，模型會迭代地被提示，選擇調(diào)用工具或生成最終答案。

? 如果模型生成工具調(diào)用（如??<search_query>??? 或 ??<math_exp>?? 標簽），則解析查詢并在環(huán)境中執(zhí)行，結果會注入到模型上下文中。

? 該過程持續(xù)直到模型生成答案（通過??<answer>?? 標簽表示）或達到最大查詢次數(shù)限制（問答數(shù)據(jù)集 5 次，數(shù)學推理數(shù)據(jù)集 10 次）。

Q1: 他的reward是怎么來的，如何計算？

答：作者直接采用Gemini 1.5 Pro（直接LLM as judge，這個效果好嗎？）作為reward model。其主要做法是：

?每一步生成之后，用reward model來判定本步動作（如某條搜索查詢或推理步驟），在當前上下文里是否“reasonable（合理）”。

? reward model的判定形式是：對于每一個action，reward model只基于該action和前面的全部上下文（包括之前的步驟和環(huán)境給出的反饋），判斷這一步的推理或操作是否靠譜，然后輸出評分（相當于是“好/壞”標簽，見原文 process filtering prompt）。

? 這種reward不是基于最終答案（outcome），而是基于每一個過程動作的合理性（process-based）。

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！-AI.x社區(qū)

優(yōu)點：

?生成數(shù)據(jù)快、成本低，不用人工逐步標注，只要評判prompt設計合理即可。

? 它能更細粒度地對每個步驟給反饋，而不是等整個問題解完后才評判，避免“只會背答案”的問題，提高多步推理能力。

? 這樣能充分利用現(xiàn)有強大LLM的理解和判斷力，不需要再訓練一個reward模型。

Q2：如何理解強化學習的目標函數(shù)？

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！-AI.x社區(qū)

各個符號的含義：

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！-AI.x社區(qū)

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！-AI.x社區(qū)

3 Conclusion

?多步推理與工具使用的顯著提升：SWiRL 在復雜多跳問答和數(shù)學推理任務中，平均性能優(yōu)于基線模型達 15%。

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！-AI.x社區(qū)

?數(shù)據(jù)篩選策略的有效性：該方法即使在未篩選的數(shù)據(jù)上也能有效學習，但在“僅過程篩選”的數(shù)據(jù)上表現(xiàn)最佳，這表明模型可以從包含不正確最終答案的軌跡中學習，甚至受益于正確和不正確最終答案的混合數(shù)據(jù)。

?Process filtering (過程篩選)：指的是保留每一步都被模型（Gemini 1.5 Pro Thinking）判斷為合理的軌跡。判斷標準是當前動作a_i在給定上下文s_i下的合理性，不使用GroundTruth。

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！-AI.x社區(qū)

?強大的跨任務泛化能力：SWiRL 展現(xiàn)了強大的泛化能力，例如，在多跳問答（HotPotQA）上訓練，能將數(shù)學推理（GSM8K）性能提升 16.9%，反之亦然，說明其提升了通用的多步推理和工具使用能力。

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！-AI.x社區(qū)

4 Limitation

?模型規(guī)模限制：盡管 SWiRL 對較小的模型（如 Gemma-2-2b 和 9b）在領域內(nèi)數(shù)據(jù)集上有益，但它們未能展現(xiàn)與大型模型（Gemma-2-27b）相同的跨任務泛化能力。這表明 SWiRL 的有效性可能受模型規(guī)模限制，對于小模型，其泛化能力不如大模型。

5 Future Work

?探索更大模型規(guī)模和更多任務：對更大模型和更多復雜任務進行 SWiRL 的評估，以確認其泛化能力。

?優(yōu)化獎勵模型和數(shù)據(jù)生成：進一步研究如何改進獎勵模型的設計，以及如何更有效地生成高質(zhì)量的合成數(shù)據(jù)，以進一步提升性能。

?在線與離線 RL 的結合：探索結合在線和離線強化學習方法，以彌補離線方法在實時交互和適應性方面的不足。

二、詳細內(nèi)容

1.SFT 與 SWiRL 性能比較

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！-AI.x社區(qū)

?SWiRL 優(yōu)于 SFT：SWiRL 在“僅過程篩選”的軌跡中表現(xiàn)出顯著優(yōu)勢，并且能夠從同時包含正確和不正確結果的軌跡中學習，而 SFT 則不能。

2.SWiRL 在有無多步工具使用時的性能表現(xiàn)

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！-AI.x社區(qū)

?總結1：SWiRL 的多步工具使用推理既提升了基線模型和 SWiRL 微調(diào)模型的性能，但在后者身上提升更為顯著。

?總結2：即使沒有工具訪問，SWiRL 模型也展現(xiàn)出顯著改進，這表明 SWiRL 訓練提高了模型將復雜問題分解為多個可管理子任務的能力。

3.性能與合成數(shù)據(jù)集大小的關系

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！-AI.x社區(qū)

?總結：即使僅有 1000 個數(shù)據(jù)點，模型也能在域內(nèi)和域外數(shù)據(jù)集上實現(xiàn)顯著改進。

4.SWiRL、基線模型與 Gemini 1.5 Pro 的性能比較

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！-AI.x社區(qū)

?總結1：SWiRL 顯著優(yōu)于所有基線模型，甚至在某些域外基準（如 CofCA 和 BeerQA）上超越了 Gemini 1.5 Pro。

?總結2： SWiRL 不僅僅是簡單地蒸餾了一個更強的獎勵模型。

11Table 3: SWiRL 對過程正確性平均值的影響

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！-AI.x社區(qū)

?過程正確性提升：經(jīng)過 SWiRL 優(yōu)化后，模型在域內(nèi)（HotPotQA）和域外（GSM8K）任務上，每個步驟的平均正確性均有所提高。

?下游性能源于推理提升：這表明最終更高的準確性歸因于改進的多步推理。

三、總結

總結1: SwiRL + Tool use > Base Model + Tool use >> Base Model。 引入工具后還是效果提升非常大，說明Base Model已經(jīng)具備不錯的Tool調(diào)用的能力了。SwiRL可以改進Tool 調(diào)用的能力。

總結2: 不需要其他標注資源，利用現(xiàn)有的Model就可以合成數(shù)據(jù)進行RL訓練提升Model的Tool Use能力。 通過“過程篩選”策略，從包含合理推理軌跡（即使最終答案不正確）的數(shù)據(jù)中學習，避免了對昂貴人工標注和GroundTruth的依賴，極大地提高了數(shù)據(jù)獲取的效率和成本效益。

總結3: SwiRL訓練后泛化能力也不錯。 說明Tool Use的能力是可以遷移的。例如在 HotPotQA 訓練能將 GSM8K 性能提高 16.9%。

本文轉載自??NLP PaperWeekly??，作者：NLP PaperWeekly

標簽

合成數(shù)據(jù)

已于2025-7-11 10:06:41修改

贊

收藏

回復

舉報

回復

相關推薦

EMNLP 2023｜利用LLM合成數(shù)據(jù)訓練模型有哪些坑？

arnoldzhw ? 4926瀏覽 ? 0回復
腦電合成自然語音！LeCun轉發(fā)Nature子刊新成果，代碼開源

Crystalcxt ? 3331瀏覽 ? 0回復
合成數(shù)據(jù)才是人類未來？

duhorse ? 3660瀏覽 ? 0回復
5秒完成3D生成，真香合成數(shù)據(jù)集已開源，上交港中文新框架超越Instant3D

Crystalcxt ? 4406瀏覽 ? 0回復
英偉達開源3400億巨獸，98%合成數(shù)據(jù)訓出最強開源通用模型！性能對標GPT-4o

duhorse ? 4067瀏覽 ? 0回復
合成數(shù)據(jù)：解鎖通用人工智能的“關鍵之鑰”？

Baihai_IDP ? 3243瀏覽 ? 0回復
數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對齊數(shù)據(jù)

NLP工作站 ? 5395瀏覽 ? 0回復
數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對齊數(shù)據(jù)

NLP工作站 ? 4397瀏覽 ? 0回復
無需定制視頻數(shù)據(jù)，DeepMind讓文生定制視頻變得簡單！

angel ? 3691瀏覽 ? 0回復
從弱模型和強模型合成文本到SQL數(shù)據(jù)

sbf_2000 ? 5050瀏覽 ? 0回復
無需定制視頻數(shù)據(jù)，DeepMind讓文生定制視頻變得簡單！

angel ? 3490瀏覽 ? 0回復
LLM訓練的隱秘危機：1%的合成數(shù)據(jù)或致模型崩潰 | 大模型的"內(nèi)心戲"：LLM比你想象的更聰明，卻在"裝傻"？

sbf_2000 ? 3490瀏覽 ? 0回復
矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI

angel ? 3683瀏覽 ? 0回復
探秘大語言模型數(shù)據(jù)合成能力：AgoraBench基準測試全解析

十一月雨_55 ? 3892瀏覽 ? 0回復
別再將LLM當成數(shù)據(jù)庫了

51CTO內(nèi)容精選 ? 3671瀏覽 ? 0回復
對話數(shù)據(jù)合成：清華利用多Agent合成大量醫(yī)療對話數(shù)據(jù)顯著提升LLM在醫(yī)療場景效果

arnoldzhw ? 4616瀏覽 ? 0回復
Mem0 讓 AI 擁有超強記憶能力

丟翅膀的魚 ? 6091瀏覽 ? 0回復
人工標注太貴，合成數(shù)據(jù)不夠好？看OS-Genesis如何破解數(shù)據(jù)困局

arnoldzhw ? 2101瀏覽 ? 0回復
Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預測 Scaling Law”

amei2000go ? 554瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

Trade in Minutes! 揭秘首個將策略與執(zhí)行完全分離的量化交易Agent 2天前發(fā)布
AI Agent落地必讀：深度解讀OpenAI 姚順雨的T-bench，如何評測智能體的“真功夫” 2025-10-20 07:55:42發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術架構全解析 0回復

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉換為Markdown格式 0回復

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復

DeepSeek團隊開源新模型DeepSeek-OCR，用3B參數(shù)量實現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復

上一篇： CMU ｜LLM在數(shù)學推理能力的提升是否能遷移到其他領域？

下一篇： AgentKB｜卷不動Agent了？給你的Agent加個“經(jīng)驗包”，提升復雜任務Agent效果

社區(qū)精華內(nèi)容

目錄