偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!

發(fā)布于 2025-7-11 06:44
瀏覽
0收藏

今天分享一篇來自斯坦福大學和 Google DeepMind 的文章,標題為:《Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use》(利用合成數(shù)據(jù)生成和多階段強化學習進行推理和工具使用)。

本文提出了一種名為 SWiRL (Step-Wise Reinforcement Learning) 的方法,旨在優(yōu)化 LLMs 在復雜多步推理和工具使用任務中的表現(xiàn)。該方法分為兩個主要階段:
1.合成數(shù)據(jù)生成:通過迭代式生成多階段(Multi-step)的推理和工具使用數(shù)據(jù),并從中學習。
2.多目標強化學習:提出一種針對多階段優(yōu)化的強化學習方法。提示模型的Tool調(diào)用以及推理能力能力。

與Search-R1等方法不同,其通過合成推理的Tracing數(shù)據(jù),并基于該數(shù)據(jù)來進行RL學習,可以極大提升在復雜多步推理和工具使用任務中的表現(xiàn)??梢越o后續(xù)DeepResearch的端到端的RL訓練提供一個參考。

一、概述

?Title:Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use

?URL:?? https://arxiv.org/abs/2504.04736??

?Authors:Anna Goldie, Azalia Mirhoseini, Hao Zhou, Irene Cai, Christopher D. Manning

1 Motivation

? 現(xiàn)有的LLMs 在處理需要多步驟推理和工具使用的復雜查詢時(如多跳問答、數(shù)學問題求解、編程等)表現(xiàn)不佳。

? 傳統(tǒng)的強化學習方法(如 RLHF、RLAIF)主要關注單一步驟優(yōu)化,而多步驟任務中,中間步驟的錯誤可能導致最終結果的錯誤,因此需要對整個行動鏈條的準確性進行優(yōu)化。

? 需要開發(fā)一種能夠處理多步驟動作序列(例如,確定何時停止搜索以及何時綜合信息)并有效從錯誤中恢復的優(yōu)化技術。

2 Methods

SWiRL 方法旨在提升 LLM 在多步推理和工具使用任務中的表現(xiàn),避免了對人工標注和GroundTruth的依賴,其核心在于合成數(shù)據(jù)生成和基于模型判定的分步強化學習。

優(yōu)點總結:不需要Golden label,不需要人類標注,基于model-based judgment和data生成,過濾,來做RL的訓練。

詳細方法和步驟:

Stage 1: 多步合成數(shù)據(jù)生成與篩選 (Multi-Step Data Collection)

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!-AI.x社區(qū)

1.數(shù)據(jù)生成

? 使用開源 LLM (Gemma 2) 并接入外部工具(如搜索引擎或計算器)。

? 迭代式地提示模型生成多步軌跡(trajectories)。在每一步中,模型可以生成思維鏈(chain of thought),選擇調(diào)用工具或直接給出最終答案。

? 如果模型調(diào)用工具,則查詢會被自動提取并在環(huán)境中執(zhí)行,結果會作為下一步的上下文提供給模型。

? 軌跡在模型生成最終答案(通過特殊標記表示)時結束。

?軌跡轉換: 將包含k個動作的軌跡轉換為k個子軌跡,每個子軌跡包含從開始到該動作的所有上下文。

2.數(shù)據(jù)篩選策略:探索四種篩選策略對模型性能的影響:

?No filtering (無篩選):不進行任何篩選。

?Process filtering (過程篩選):保留每一步都被模型(Gemini 1.5 Pro Thinking)判斷為合理的軌跡。判斷標準是當前動作 a_i 在給定上下文 s_i 下的合理性,不使用GroundTruth。

?Outcome filtering (結果篩選):僅選擇最終答案 a_K 與GroundTruth的軌跡。

?Process and outcome filtering (過程與結果聯(lián)合篩選):同時滿足過程合理性及最終答案正確的軌跡。

3.數(shù)據(jù)集構建規(guī)模

? 收集了 50,000 條合成軌跡(基于 10,000 個 HotPotQA 訓練集問題,每個問題 5 條軌跡)。

? 收集了 37,500 條合成軌跡(基于 7,500 個 GSM8K 訓練集問題)。

? 為防止軌跡過長,將 HotPotQA 的最大步驟數(shù)設置為 5,GSM8K 設置為 10。

Stage 2: 分步強化學習優(yōu)化 (Step-Wise Reinforcement Learning Methodology)

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!-AI.x社區(qū)

1.優(yōu)化目標

? 目標函數(shù)是期望的逐步獎勵總和:??J(θ) = E[R(a|s)]???,其中??R(a|s)?? 是根據(jù)生成式獎勵模型(Gemini 1.5 Pro)評估當前動作a在上下文s下的質(zhì)量。不使用GroundTruth label來做Reward。

? 該方法通過細粒度的、按步驟的微調(diào),使模型能夠?qū)W習局部決策(預測下一步)和全局軌跡優(yōu)化(生成最終響應),并獲得即時反饋。

2.推理階段評估 (Step-Wise Inference-time Evaluation)

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!-AI.x社區(qū)

? 在推理時,模型會迭代地被提示,選擇調(diào)用工具或生成最終答案。

? 如果模型生成工具調(diào)用(如??<search_query>??? 或 ??<math_exp>?? 標簽),則解析查詢并在環(huán)境中執(zhí)行,結果會注入到模型上下文中。

? 該過程持續(xù)直到模型生成答案(通過??<answer>?? 標簽表示)或達到最大查詢次數(shù)限制(問答數(shù)據(jù)集 5 次,數(shù)學推理數(shù)據(jù)集 10 次)。

Q1: 他的reward是怎么來的,如何計算?

答:作者直接采用Gemini 1.5 Pro(直接LLM as judge,這個效果好嗎?)作為reward model。其主要做法是:

?每一步生成之后,用reward model來判定本步動作(如某條搜索查詢或推理步驟),在當前上下文里是否“reasonable(合理)”。

? reward model的判定形式是:對于每一個action,reward model只基于該action和前面的全部上下文(包括之前的步驟和環(huán)境給出的反饋),判斷這一步的推理或操作是否靠譜,然后輸出評分(相當于是“好/壞”標簽,見原文 process filtering prompt)。

? 這種reward不是基于最終答案(outcome),而是基于每一個過程動作的合理性(process-based)。

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!-AI.x社區(qū)

優(yōu)點:

?生成數(shù)據(jù)快、成本低,不用人工逐步標注,只要評判prompt設計合理即可。

? 它能更細粒度地對每個步驟給反饋,而不是等整個問題解完后才評判,避免“只會背答案”的問題,提高多步推理能力。

? 這樣能充分利用現(xiàn)有強大LLM的理解和判斷力,不需要再訓練一個reward模型。

Q2:如何理解強化學習的目標函數(shù)?

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!-AI.x社區(qū)

  1. 各個符號的含義:

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!-AI.x社區(qū)

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!-AI.x社區(qū)

3 Conclusion

?多步推理與工具使用的顯著提升:SWiRL 在復雜多跳問答和數(shù)學推理任務中,平均性能優(yōu)于基線模型達 15%。

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!-AI.x社區(qū)

?數(shù)據(jù)篩選策略的有效性:該方法即使在未篩選的數(shù)據(jù)上也能有效學習,但在“僅過程篩選”的數(shù)據(jù)上表現(xiàn)最佳,這表明模型可以從包含不正確最終答案的軌跡中學習,甚至受益于正確和不正確最終答案的混合數(shù)據(jù)。

?Process filtering (過程篩選):指的是保留每一步都被模型(Gemini 1.5 Pro Thinking)判斷為合理的軌跡。判斷標準是當前動作a_i在給定上下文s_i下的合理性,不使用GroundTruth。

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!-AI.x社區(qū)

?強大的跨任務泛化能力:SWiRL 展現(xiàn)了強大的泛化能力,例如,在多跳問答(HotPotQA)上訓練,能將數(shù)學推理(GSM8K)性能提升 16.9%,反之亦然,說明其提升了通用的多步推理和工具使用能力。

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!-AI.x社區(qū)

4 Limitation

?模型規(guī)模限制:盡管 SWiRL 對較小的模型(如 Gemma-2-2b 和 9b)在領域內(nèi)數(shù)據(jù)集上有益,但它們未能展現(xiàn)與大型模型(Gemma-2-27b)相同的跨任務泛化能力。這表明 SWiRL 的有效性可能受模型規(guī)模限制,對于小模型,其泛化能力不如大模型。

5 Future Work

?探索更大模型規(guī)模和更多任務:對更大模型和更多復雜任務進行 SWiRL 的評估,以確認其泛化能力。

?優(yōu)化獎勵模型和數(shù)據(jù)生成:進一步研究如何改進獎勵模型的設計,以及如何更有效地生成高質(zhì)量的合成數(shù)據(jù),以進一步提升性能。

?在線與離線 RL 的結合:探索結合在線和離線強化學習方法,以彌補離線方法在實時交互和適應性方面的不足。

二、詳細內(nèi)容

1.SFT 與 SWiRL 性能比較

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!-AI.x社區(qū)

  • ?SWiRL 優(yōu)于 SFT:SWiRL 在“僅過程篩選”的軌跡中表現(xiàn)出顯著優(yōu)勢,并且能夠從同時包含正確和不正確結果的軌跡中學習,而 SFT 則不能。

2.SWiRL 在有無多步工具使用時的性能表現(xiàn)

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!-AI.x社區(qū)

?總結1:SWiRL 的多步工具使用推理既提升了基線模型和 SWiRL 微調(diào)模型的性能,但在后者身上提升更為顯著。

?總結2:即使沒有工具訪問,SWiRL 模型也展現(xiàn)出顯著改進,這表明 SWiRL 訓練提高了模型將復雜問題分解為多個可管理子任務的能力。

3.性能與合成數(shù)據(jù)集大小的關系

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!-AI.x社區(qū)

?總結:即使僅有 1000 個數(shù)據(jù)點,模型也能在域內(nèi)和域外數(shù)據(jù)集上實現(xiàn)顯著改進。

4.SWiRL、基線模型與 Gemini 1.5 Pro 的性能比較

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!-AI.x社區(qū)

?總結1:SWiRL 顯著優(yōu)于所有基線模型,甚至在某些域外基準(如 CofCA 和 BeerQA)上超越了 Gemini 1.5 Pro。

?總結2: SWiRL 不僅僅是簡單地蒸餾了一個更強的獎勵模型。

11Table 3: SWiRL 對過程正確性平均值的影響

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強“工具腦”!-AI.x社區(qū)

?過程正確性提升:經(jīng)過 SWiRL 優(yōu)化后,模型在域內(nèi)(HotPotQA)和域外(GSM8K)任務上,每個步驟的平均正確性均有所提高。

?下游性能源于推理提升:這表明最終更高的準確性歸因于改進的多步推理。

三、總結

總結1: SwiRL + Tool use > Base Model + Tool use >> Base Model。 引入工具后還是效果提升非常大,說明Base Model已經(jīng)具備不錯的Tool調(diào)用的能力了。SwiRL可以改進Tool 調(diào)用的能力。

總結2: 不需要其他標注資源,利用現(xiàn)有的Model就可以合成數(shù)據(jù)進行RL訓練提升Model的Tool Use能力。 通過“過程篩選”策略,從包含合理推理軌跡(即使最終答案不正確)的數(shù)據(jù)中學習,避免了對昂貴人工標注和GroundTruth的依賴,極大地提高了數(shù)據(jù)獲取的效率和成本效益。

總結3: SwiRL訓練后泛化能力也不錯。 說明Tool Use的能力是可以遷移的。例如在 HotPotQA 訓練能將 GSM8K 性能提高 16.9%。

本文轉載自??NLP PaperWeekly??,作者:NLP PaperWeekly

已于2025-7-11 10:06:41修改
收藏
回復
舉報
回復
相關推薦