偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OTC?PO重磅發(fā)布 | 揭開?o3?神秘面紗,讓?Agent?少用工具、多動(dòng)腦子!

人工智能 新聞
在本研究中,我們引入了最佳工具調(diào)用控制策略優(yōu)化(OTC-PO),這是一個(gè)簡(jiǎn)單而有效的強(qiáng)化學(xué)習(xí)框架,它明確鼓勵(lì)語言模型通過最佳工具調(diào)用生成正確答案。

王鴻儒目前就讀于香港中文大學(xué)博士四年級(jí) (預(yù)計(jì)今年7月畢業(yè)),導(dǎo)師為黃錦輝教授,研究方向主要包括對(duì)話系統(tǒng),工具學(xué)習(xí)以及大語言模型智能體等,英國愛丁堡大學(xué)和美國伊利諾伊大學(xué)香檳分校(UIUC)訪問學(xué)者,在國際頂級(jí)會(huì)議如NeurIPS, ACL, EMNLP等發(fā)表30余篇相關(guān)論文,其中包括10多篇一作或共一論文,代表工作有Cue-CoT, SAFARI, AppBench, Self-DC, OTC等,谷歌學(xué)術(shù)引用超600次,NeurIPS Area Chair以及多個(gè)國際頂級(jí)會(huì)議審稿人,NICE社區(qū)初創(chuàng)成員,曾獲得國際博士生論壇最佳論文獎(jiǎng),ACL 2024@SIGHAN 最佳論文獎(jiǎng),WWW2024 Online Safety Prize Challenge冠軍等多項(xiàng)榮譽(yù)。

Agent 即一系列自動(dòng)化幫助人類完成具體任務(wù)的智能體或者智能助手,可以自主進(jìn)行推理,與環(huán)境進(jìn)行交互并獲取環(huán)境以及人類反饋,從而最終完成給定的任務(wù),比如最近爆火的 Manus 以及 OpenAI 的 o3 等一系列模型和框架。

強(qiáng)化學(xué)習(xí)(Reinforcement Learning)被認(rèn)為是當(dāng)下最具想象力、最適合用于 Agent 自主學(xué)習(xí)的算法。其通過定義好一個(gè)獎(jiǎng)勵(lì)函數(shù),讓模型在解決任務(wù)的過程中不斷獲取反饋(即不同的獎(jiǎng)勵(lì)信號(hào)),然后不斷地探索試錯(cuò),找到一個(gè)能夠最大化獲取獎(jiǎng)勵(lì)的策略或者行為模式。

圖片

圖 1 Agent 的兩種重要的行為模式

為了實(shí)現(xiàn) OpenAI 推出的 o3 這樣的表現(xiàn),我們就必須先要了解 Agent 最重要的行為模式。Agent 最重要的兩種行為主要分為推理((i.e.,Reasoning)和行動(dòng)((i.e.,Acting)兩種,前者專注模型本身的推理行為,比如反思、分解等各種深度思考技巧;后者專注模型與環(huán)境的交互,比如模型需要調(diào)用不同的工具、API 以及其他模型來獲取必要的中間結(jié)果。

Open-o1、DeepSeek-R1 以及 QwQ 等大推理模型通過設(shè)計(jì)一些基于規(guī)則的獎(jiǎng)勵(lì)函數(shù),僅僅從最終答案的正確與否就可以通過 RL 激發(fā)出來大模型強(qiáng)大的 Reasoning 模式,比如 System 2 thinking,從而在代碼、數(shù)學(xué)等任務(wù)上取得了驚人的效果。

近期一系列工作試圖在 Agent 的 Acting 模式復(fù)刻大推理模型的成功,比如 Search-R1、ToRL、ReTool 等等,但是幾乎所有的工作依舊沿用之前的大推理模型時(shí)代的獎(jiǎng)勵(lì)函數(shù),即根據(jù)最后答案的正確與否來給予 Agent 不同的獎(jiǎng)勵(lì)信號(hào)。

這樣會(huì)帶來很多過度優(yōu)化問題,就像 OpenAI 在其博客中指出的那樣,模型會(huì)出現(xiàn) Reasoning 和 Acting 行為模式的混亂。因?yàn)槟P蛢H僅只關(guān)注最后的答案正確,其可能會(huì)在中間過程中不使用或者過度使用推理或者行動(dòng)這兩種行為。

這里面存在一個(gè)認(rèn)知卸載現(xiàn)象,比如模型就會(huì)過度的依賴外部的工具,從而不進(jìn)行推理,這樣一方面模型之前預(yù)訓(xùn)練積累的能力就極大地浪費(fèi)了,另外也會(huì)出現(xiàn)非常愚蠢的使用工具的情況,舉個(gè)例子就是我們俗稱的「遇事不思考,老是問老師或者直接抄答案」。

我們這里可以針對(duì) Agent 的這兩種不同的行為:Reasoning 和 Acting,設(shè)想幾種不同的獎(jiǎng)勵(lì)函數(shù),或者說我們期望模型表現(xiàn)出來一種什么樣的模式。

  1. Maximize Reasoning and Acting:即我們期望模型能夠使用越多的 reasoning 和 acting 來解決問題,會(huì)導(dǎo)致效率以及過度優(yōu)化問題。
  2. Minimize Reasoning and Acting:即我們期望模型能夠使用越少的 reasoning 和 acting 來解決問題,訓(xùn)練難度較大,可能會(huì)導(dǎo)致效果不佳。
  3. Maximize Acting and Minimize Reasoning:這會(huì)導(dǎo)致模型極大的浪費(fèi)本身就很強(qiáng)的 reasoning 能力,反復(fù)的愚蠢的去和外部世界交互。
  4. Maximize Reasoning and Minimize Acting:即 OpenAI o3 目前表現(xiàn)出來的行為,o3 只會(huì)在超過自己能力之外的問題下才會(huì)去和外部世界交互,大部分的問題都使用自己的推理能力進(jìn)行解決了。

這其中最有潛力或者最有可能的技術(shù)路線就是第 2 和第 4 個(gè)方向,而在這兩個(gè)方向里唯一的一個(gè)共同點(diǎn)就是要不斷要求模型去 Minimize Acting,那我們最新推出的 OTC: Optimal Tool Call via Reinforcement Learning(OTC-PO)其實(shí)就是朝著這個(gè)方向走出的根本性的一步。

圖片

  • Arxiv: https://arxiv.org/pdf/2504.14870
  • Huggingface: https://huggingface.co/papers/2504.14870

本文的核心貢獻(xiàn)在于以下三點(diǎn):

  1. 我們是第一個(gè) i) 關(guān)注大模型工具使用行為優(yōu)化的 RL 算法;ii) 發(fā)現(xiàn)并量化認(rèn)知卸載現(xiàn)象,且模型越大,認(rèn)知卸載越嚴(yán)重,即模型過于依賴外部工具而不自己思考;iii) 提出工具生產(chǎn)力概念,兼顧收益與成本;
  2. 我們提出 OTC-PO,任何 RL 算法皆可使用,代碼修改僅幾行,簡(jiǎn)單、通用、可擴(kuò)展、可泛化,可以應(yīng)用到幾乎所有工具使用的場(chǎng)景,最大化保持準(zhǔn)確率的同時(shí)讓你的訓(xùn)練又快又好,模型即聰明又高效;
  3. 我們的方法在不損失準(zhǔn)確率的前提下,工具調(diào)用減少 73.1%,工具效率提升 229.4%,訓(xùn)練時(shí)間大幅縮小,且模型越大,效果越好。

具體來說,給定任意一個(gè)問題和任意一個(gè)模型,我們假設(shè)存在一個(gè)最優(yōu)的 Acting 次數(shù),即最少的工具調(diào)用次數(shù),來使得模型能夠去回答對(duì)這個(gè)問題。

需要注意的是這里面最少的工具調(diào)用次數(shù)是由模型和問題共同決定的,因?yàn)椴煌哪P陀兄煌哪芰?,不同的問題也有著不同的難度,這樣就是每一個(gè)問題和每一個(gè)模型其實(shí)都有著獨(dú)特的最小所需工具次數(shù),并且這個(gè)最少的工具調(diào)用次數(shù)可以為 0(即退化為傳統(tǒng)的 language-only reasoning)。

也正是因?yàn)檫@樣的性質(zhì),導(dǎo)致之前的 SFT 方案無法直接作用在這樣的場(chǎng)景里面,因?yàn)?SFT 基本都是使用一個(gè)數(shù)據(jù)集去擬合所有模型的行為。RL 就天然的提供了這樣的一個(gè)解決方案,使得不同的模型都可以在自己的交互過程中去學(xué)習(xí)到對(duì)應(yīng)的最佳的行為模式,而不僅僅是通過 SFT 去模仿一個(gè)次優(yōu)解。

那這個(gè)任務(wù)就可以被重新定義成如下這樣的形式,給定一個(gè)問題 q,一個(gè)模型 M 以及一堆工具 t0, t1, …, tn,我們喜歡模型 M 能夠即快又好的回答問題,其在第 k 步的推理過程可以被定義成:

圖片

其中ri, tci, oi 分別代表模型的內(nèi)部推理過程,工具調(diào)用,以及環(huán)境反饋。需要注意的時(shí)候這樣的定義可以泛化到不使用任何工具調(diào)用的情況即tci和oi為空字符串。整體的任務(wù)就變成了我們需要要求模型不僅答對(duì),還要以一種高效的方式答對(duì),即

圖片

這里圖片 代表了該問題的正確答案,我們希望模型答對(duì)的前提下,能夠去最小化達(dá)到這個(gè)目標(biāo)的成本,比如 token 的消耗、tool 的調(diào)用。這樣的任務(wù)定義不僅僅是簡(jiǎn)單的擴(kuò)充,而是對(duì)目前 Agent RL 的一次范式糾偏,使得大家不僅僅關(guān)注最終的答案是否正確,還需要關(guān)注模型在這個(gè)過程中表現(xiàn)的行為。

這里最核心的思路是根據(jù)模型在當(dāng)下這個(gè)交互行為中工具的調(diào)用次數(shù) m 以及最優(yōu)的工具調(diào)用次數(shù) n 去給予模型不同的獎(jiǎng)勵(lì)函數(shù)。具體來說,在答對(duì)的情況下,我們希望模型在取得最優(yōu)工具調(diào)用的時(shí)候能夠獲取最大的獎(jiǎng)勵(lì),在使用了更多的工具調(diào)用的時(shí)候獎(jiǎng)勵(lì)是相對(duì)小一點(diǎn)的;在答錯(cuò)的情況下,我們希望模型不會(huì)獲取獎(jiǎng)勵(lì)或者根據(jù)調(diào)用次數(shù)獲得的獎(jiǎng)勵(lì)相對(duì)較小,從而最大程度的規(guī)避獎(jiǎng)勵(lì)黑客現(xiàn)象(i.e., Reward Hacking)。具體來說,我們?cè)O(shè)計(jì)了如下的獎(jiǎng)勵(lì)函數(shù):

圖片

其中圖片代表對(duì)于工具調(diào)用次數(shù)的獎(jiǎng)勵(lì),圖片代表原來的根據(jù)答案的正確性的獎(jiǎng)勵(lì)。這樣的獎(jiǎng)勵(lì)函數(shù)有很多優(yōu)點(diǎn):1)已經(jīng)有理論證明類似這樣的定義理論上對(duì)于準(zhǔn)確性沒有任何損失;2)極大地避免獎(jiǎng)勵(lì)黑客的現(xiàn)象,防止模型過度優(yōu)化;3)可以泛化到幾乎所有的 Agentic RL 的場(chǎng)景,比如對(duì)圖片圖片進(jìn)行擴(kuò)充,考慮更多的獎(jiǎng)勵(lì)信號(hào)。這里圖片的設(shè)計(jì)只需要滿足之前說過的那些屬性即可,比如越少越好,或者越接近最優(yōu)工具調(diào)用越好,感興趣的可以參考原文,這里我們重點(diǎn)講講我們的一些發(fā)現(xiàn)。

主要結(jié)果

圖片

圖 2 Search as Tools, and Code as Tool can be found in the paper.

模型越大,其認(rèn)知卸載越嚴(yán)重。這里的認(rèn)知卸載指的是模型傾向于把原來通過推理能得到的結(jié)果直接外包給外部工具,從而一方面造成工具濫用,一方面阻礙了模型自身推理能力的發(fā)展。從圖上看就是 Search-R1 在更大的模型上反而需要使用到更多的工具,工具生產(chǎn)力更低。

模型越大,我們的方法效果越好。我們?cè)?7B 模型能夠取得最高 256.9% 的工具生產(chǎn)力的提升,并且我們的準(zhǔn)確率基本沒有損失,我們相信當(dāng)模型大小繼續(xù)增大的時(shí)候,有可能我們能迎來效果與效率的雙重提升,具體原因我們稍后解釋。

此外我們發(fā)現(xiàn) GRPO 相較于 PPO 效果更好,這是因?yàn)?GRPO 由于天然具備針對(duì)同一樣本的多次采樣,對(duì)于該樣本的最優(yōu)工具調(diào)用行為有一個(gè)更加精準(zhǔn)的估計(jì)。

圖片

圖 3 OTC-PO 訓(xùn)練效率分析

上圖展現(xiàn)了我們的訓(xùn)練效率分析。可以看出我們的方法不僅能夠以更少的工具調(diào)用和更短的響應(yīng)時(shí)間實(shí)現(xiàn)類似的結(jié)果,還能實(shí)現(xiàn)更快、更高效的訓(xùn)練優(yōu)化。這一點(diǎn)尤為重要,因?yàn)樗@著降低了訓(xùn)練過程中與實(shí)時(shí)工具交互相關(guān)的時(shí)間和成本,包括時(shí)間、計(jì)算資源以及可能潛在的工具調(diào)用費(fèi)用。

圖片

圖 4 The Out-of-domain performance of OTC-PO and Search-R1 in TP.

圖片

表 4 The results of Out-of-Domain (OOD) evaluation of OTC against Search-R1 in EM and TC.

我們的方法不僅僅在 In-domain evaluation 上取得了不錯(cuò)的效果,在 Out-of-domain 上仍然能夠帶來巨大的提升,甚至我們觀察到我們的準(zhǔn)確率和效率都得到了提升,而不僅僅是工具的調(diào)用次數(shù)和工具生產(chǎn)力,比如這里 OTC-PPO 在 7B 模型上的表現(xiàn)就顯著優(yōu)于 Search-R1-PPO。

圖片

最后分享一個(gè) case study,更多分析和 case 可參考原文。這個(gè) case study 代表了我們整篇論文最重要的一個(gè)發(fā)現(xiàn)即 (Minimizing Acting = Maximizing Reasoning) = Smart Agent 從案例中我們可以觀察到如果不對(duì)模型的交互行為做出任何的限制,模型非常容易出現(xiàn)認(rèn)知卸載以及工具濫用的現(xiàn)象。僅僅只需要最小化工具調(diào)用,我們就可以發(fā)現(xiàn)模型不僅能學(xué)會(huì)更加聰明的使用工具(OTC-PPO),還會(huì)極大地激發(fā)自身的推理能力,從而去完成問題,即我們一開始所說的如何實(shí)現(xiàn) o3 的行為模式。

結(jié)論

在本研究中,我們引入了最佳工具調(diào)用控制策略優(yōu)化(OTC-PO),這是一個(gè)簡(jiǎn)單而有效的強(qiáng)化學(xué)習(xí)框架,它明確鼓勵(lì)語言模型通過最佳工具調(diào)用生成正確答案。與之前主要關(guān)注最終答案正確性的研究不同,我們的方法結(jié)合了工具集成獎(jiǎng)勵(lì),該獎(jiǎng)勵(lì)同時(shí)考慮了工具使用的有效性和效率,從而促進(jìn)了既智能又經(jīng)濟(jì)高效的工具使用行為。

據(jù)我們所知,這是第一篇從強(qiáng)化學(xué)習(xí)(RL)角度去建模 TIR 中工具使用行為的研究,我們的方法提供了一種簡(jiǎn)單、可泛化、可擴(kuò)展的解決方案,使 LLM 在多種情境和基準(zhǔn)測(cè)試中成為更強(qiáng)大、更經(jīng)濟(jì)的智能體。這個(gè)項(xiàng)目仍在進(jìn)行中,希望不久的未來我們能夠給大家分享更多發(fā)現(xiàn)。我們有信心這篇論文將會(huì)引領(lǐng)一個(gè)全新的研究范式,為實(shí)現(xiàn) OpenAI 的 o3 系列模型帶來一個(gè)可行的路徑。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-01-07 15:07:13

2015-08-20 13:43:17

NFV網(wǎng)絡(luò)功能虛擬化

2010-05-26 19:12:41

SVN沖突

2012-09-11 09:27:58

云計(jì)算開發(fā)亞馬遜

2010-05-17 09:13:35

2014-03-12 11:11:39

Storage vMo虛擬機(jī)

2021-06-07 08:18:12

云計(jì)算云端阿里云

2009-09-15 15:34:33

Google Fast

2023-11-02 09:55:40

2016-04-06 09:27:10

runtime解密學(xué)習(xí)

2010-05-11 10:19:17

VMforceJava云計(jì)算

2018-03-01 09:33:05

軟件定義存儲(chǔ)

2009-06-01 09:04:44

Google WaveWeb

2021-07-28 21:49:01

JVM對(duì)象內(nèi)存

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2015-09-08 10:06:15

2010-09-17 14:57:34

JAVA數(shù)據(jù)類型

2015-09-06 10:54:29

HTTP網(wǎng)絡(luò)協(xié)議

2021-08-11 09:01:48

智能指針Box

2010-06-17 10:53:25

桌面虛擬化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)