官方揭秘ChatGPT Agent背后原理!通過強化學習讓模型自主探索最佳工具組合
ChatGPT Agent的技術內(nèi)幕,被官方披露了。
就在OpenAI官方推出其最強智能體后,外界褒與貶的熱議都沒停過……但不論如何,都被視為智能體方向上標志性的一步,是OpenAI一個全新的開端。
關于更進一步的Agent Mode的工作原理,OpenAI開發(fā)團隊在和投資方紅杉資本的圓桌談話中做了詳細解析,還回答了幾個值得關注的問題。
這是OpenAI官方首次詳細解析ChatGPT Agent功能背后的原理。

ChatGPT Agent由以下四個部分組成:
- Deep Research(基于文本的研究智能體)
 - Operator(基于GUI/操作的計算機智能體)
 - 其他新工具(終端、圖像生成、API調用等)
 - 通過共享狀態(tài)進行整合
 
然而,智能體也不是想要整合就能整合的,在這場談話中,OpenAI透露了他們的訓練方法,以及他們?yōu)镃hatGPT Agent做出的組織調整。
量子位提取并總結了一些關鍵信息,讓我們一起來看。
歪打正著的起源
在正式走近ChatGPT Agent之前,讓我們介紹一下這次談話的幾位主角,他們分別是OpenAI團隊核心成員Isa Fulford、Casey Chu和孫之清。
- Isa Fulford,斯坦福大學計算機科學碩士(人機交互方向),2022年11月加入OpenAI,現(xiàn)主導ChatGPT Agent的交互范式設計。
 - Casey Chu,OpenAI資深員工,斯坦福數(shù)學碩士,領導GPT-4視覺輸入初始原型開發(fā),現(xiàn)為Operator/ChatGPT Agent技術負責人。
 - 孫之清,95后北大校友,DeepResearch負責人,去年6月博士還沒畢業(yè)就加入了OpenAI,在后訓練團隊擔任研究科學家,已參與OpenAI的諸多核心項目。
 
在這次的談話中,他們介紹了ChatGPT Agent的起源:
我們團隊分別開發(fā)了Operator和Deep Research,在分析用戶請求時發(fā)現(xiàn),Deep Research的用戶非常希望模型能夠訪問需要付費訂閱的內(nèi)容或有門檻的資源,而Operator恰好具備這種能力。通過分析Operator的用戶提示發(fā)現(xiàn),很多用戶實際上試圖用它執(zhí)行Deep Research類型的任務。除了整合兩個核心工具,我們還添加了終端、圖像生成等多項功能。
原本兩個功能不同的智能體,就這樣在用戶的“錯用”下合二為一,變成了一個更通用的ChatGPT Agent。
1+1>2,怎么做到的?
簡單地說,ChatGPT Agent是Deep Research和Operator合作的成果。
Deep Research擅長文本閱讀與綜合報告,而Operator擅長視覺交互(如點擊、輸入、滾動);在此基礎上,ChatGPT Agent補足了Deep Research不擅長多輪對話的短板,能持續(xù)協(xié)作;又能在保持視覺交互的同時,執(zhí)行研究類任務。
但它們是如何整合到一起的呢?
在這次圓桌談話中,ChatGPT Agent團隊首次披露了他們的訓練方法:將所有工具集成至虛擬機,通過強化學習讓模型自主探索最佳工具組合。
具體來說,在訓練過程中,模型被賦予所有可用的工具,例如文本瀏覽器、虛擬瀏覽器、終端工具和圖像生成工具,它們都運行在同一個虛擬機(VM)環(huán)境中,并且所有工具都共享狀態(tài),類似于一臺電腦上不同應用程序訪問相同文件系統(tǒng)的方式。
這種設計使ChatGPT Agent能高效處理互聯(lián)網(wǎng)、文件系統(tǒng)和代碼等交互任務。研究團隊沒有預先指定工具使用規(guī)則,而是讓模型通過強化學習自行發(fā)現(xiàn)最佳策略。
研究團隊會創(chuàng)建一系列難度較高的任務,而模型需要調用已有的工具來完成任務。通過獎勵機制,如果模型能夠高效且正確地完成任務,它就會得到獎勵,從而學會如何更好地執(zhí)行任務。
訓練后的模型能夠通過實驗自主學習如何高效、正確地完成任務,并流暢地在各種工具之間切換,而無需被明確告知何時使用何種工具。
例如,如果任務要求研究餐廳并預訂,模型可能會先使用文本瀏覽器進行研究,然后切換到圖形用戶界面(GUI)瀏覽器查看食物圖片或預訂可用性(這通常需要實際的GUI瀏覽器來處理JavaScript元素)。
ChatGPT Agent團隊認為這種訓練方法潛力巨大。ChatGPT Agent目前僅為最簡可行產(chǎn)品(Minimum Viable Product,MVP),但已經(jīng)展現(xiàn)出強大的能力。同樣的強化學習算法也適用于Deep Research、Operator,研究團隊在短時間內(nèi)就取得了這些成果,未來還有很大提升空間。
在交互性方面,ChatGPT Agent團隊主要關注端到端性能,從用戶提示到任務完成。
ChatGPT Agent在與用戶交互方面表現(xiàn)良好,部分原因是它在訓練中納入了多樣化的任務軌跡,用戶可隨時干預,提供澄清或更正,它也能根據(jù)反饋調整行為。
ChatGPT Agent的開發(fā)可追溯到2017年的World of Bits項目,最大的變化是訓練規(guī)模的提升,無論是預訓練還是強化學習,計算量可能增加了數(shù)十萬倍,使ChatGPT Agent的短時間開發(fā)得以實現(xiàn)。
小團隊能成大事
OpenAI為了打造ChatGPT Agent,對其下的組織架構做出了調整。
比方說參與這次圓桌談話的Isa Fulford和孫之清,是Deep Research團隊的核心成員,而Casey Chu是Operator的技術負責人。
簡單地講,ChatGPT Agent團隊由Deep Research和Operator的研究與應用團隊合并而成。
這個團隊的總人數(shù)并不多,Deep Research團隊最初只有3-4人,Operator團隊約6-8人,合并在一起,加上產(chǎn)品和設計人員,也就20到35人,但他們花幾個月就完成了這個項目。
他們在談話中表示,ChatGPT Agent團隊對研究與應用的界限并不嚴格,應用工程師參與模型訓練,研究人員也參與模型部署。
研究與應用團隊緊密合作,從定義產(chǎn)品功能到模型訓練均以用戶場景為導向。
這種跨職能合作使項目充滿活力,團隊氛圍非常好。
雖然ChatGPT Agent尚未完全實現(xiàn)所有目標,但這種組織框架使他們能夠快速迭代。
安全機制與未來發(fā)展
談話還提到了ChatGPT Agent遇到的挑戰(zhàn),以及他們對未來的展望。
在訓練過程中,ChatGPT Agent遇到的最大的挑戰(zhàn)是訓練的穩(wěn)定性問題,ChatGPT Agent需同時處理多種新工具,且都在同一虛擬機環(huán)境中運行。這就需要同時運行成千上萬的虛擬機訪問網(wǎng)絡,經(jīng)常遇到網(wǎng)站宕機、API限制或網(wǎng)絡容量不足等問題。
某些網(wǎng)站可能因流量過載而暫時不可用,或者API調用因速率限制而失敗,這要求研究團隊在訓練中加入魯棒性機制,確保ChatGPT Agent能處理這些異常情況。
另外,由于ChatGPT Agent能夠執(zhí)行具有外部副作用的操作(例如購買物品),研究團隊在安全方面投入了大量精力,實施了多層次安全措施,包括以下四個方面:
- 實時監(jiān)控系統(tǒng)檢測異常行為,若發(fā)現(xiàn)可疑操作會立即暫停任務
 - 執(zhí)行敏感操作前強制用戶確認
 - 生物風險專項防護
 - 支持用戶隨時接管操作
 
研究團隊特別關注了生物風險等嚴重問題,例如防止ChatGPT Agent被用于創(chuàng)建生物武器。
對于未來的展望,ChatGPT Agent團隊在這次談話中表示,OpenAI傾向于打造一個通用的超級智能體。
雖然單一智能體模型在擴展性和通用性上更具潛力,但研究團隊希望通過持續(xù)優(yōu)化,讓ChatGPT Agent能夠無縫處理從簡單查詢到復雜工作流的各種任務,減少用戶對多個專用模型的依賴。
從市場價值的角度來看,定制化模型可能更優(yōu),但從訓練角度看,通用智能體能更好地利用技能的可遷移特性。研究團隊也在探索如何通過強化學習進一步提高ChatGPT Agent的泛化能力,在遇到全新任務時快速適應,而無需大量額外訓練數(shù)據(jù)。
未來,ChatGPT Agent可能通過學習用戶反饋,動態(tài)調整其行為模式,進一步提升任務完成的精準度。
總的來說,ChatGPT Agent的未來發(fā)展方向如下:
- 增強多輪對話與個性化記憶
 - 開發(fā)主動服務能力
 - 探索更自然的交互范式
 - 提升復雜任務(如數(shù)據(jù)分析)的完成度
 
目前ChatGPT Agent已開放使用,Plus用戶每月有40次使用額度。

ChatGPT Agent的研究團隊在采訪中表示,他們有意設計了一個開放式的智能體,鼓勵用戶探索其潛力。















 
 
 


















 
 
 
 