偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

官方揭秘ChatGPT Agent背后原理!通過強化學習讓模型自主探索最佳工具組合

人工智能 新聞
關于更進一步的Agent Mode的工作原理,OpenAI開發(fā)團隊在和投資方紅杉資本的圓桌談話中做了詳細解析,還回答了幾個值得關注的問題。

ChatGPT Agent的技術內(nèi)幕,被官方披露了。

就在OpenAI官方推出其最強智能體后,外界褒與貶的熱議都沒停過……但不論如何,都被視為智能體方向上標志性的一步,是OpenAI一個全新的開端。

關于更進一步的Agent Mode的工作原理,OpenAI開發(fā)團隊在和投資方紅杉資本的圓桌談話中做了詳細解析,還回答了幾個值得關注的問題。

這是OpenAI官方首次詳細解析ChatGPT Agent功能背后的原理。

圖片

ChatGPT Agent由以下四個部分組成:

  • Deep Research(基于文本的研究智能體)
  • Operator(基于GUI/操作的計算機智能體)
  • 其他新工具(終端、圖像生成、API調用等)
  • 通過共享狀態(tài)進行整合

然而,智能體也不是想要整合就能整合的,在這場談話中,OpenAI透露了他們的訓練方法,以及他們?yōu)镃hatGPT Agent做出的組織調整

量子位提取并總結了一些關鍵信息,讓我們一起來看。

歪打正著的起源

在正式走近ChatGPT Agent之前,讓我們介紹一下這次談話的幾位主角,他們分別是OpenAI團隊核心成員Isa Fulford、Casey Chu孫之清。

  • Isa Fulford,斯坦福大學計算機科學碩士(人機交互方向),2022年11月加入OpenAI,現(xiàn)主導ChatGPT Agent的交互范式設計。
  • Casey Chu,OpenAI資深員工,斯坦福數(shù)學碩士,領導GPT-4視覺輸入初始原型開發(fā),現(xiàn)為Operator/ChatGPT Agent技術負責人。
  • 孫之清,95后北大校友,DeepResearch負責人,去年6月博士還沒畢業(yè)就加入了OpenAI,在后訓練團隊擔任研究科學家,已參與OpenAI的諸多核心項目。

在這次的談話中,他們介紹了ChatGPT Agent的起源:

我們團隊分別開發(fā)了Operator和Deep Research,在分析用戶請求時發(fā)現(xiàn),Deep Research的用戶非常希望模型能夠訪問需要付費訂閱的內(nèi)容或有門檻的資源,而Operator恰好具備這種能力。通過分析Operator的用戶提示發(fā)現(xiàn),很多用戶實際上試圖用它執(zhí)行Deep Research類型的任務。除了整合兩個核心工具,我們還添加了終端、圖像生成等多項功能。

原本兩個功能不同的智能體,就這樣在用戶的“錯用”下合二為一,變成了一個更通用的ChatGPT Agent。

1+1>2,怎么做到的?

簡單地說,ChatGPT Agent是Deep Research和Operator合作的成果。

Deep Research擅長文本閱讀與綜合報告,而Operator擅長視覺交互(如點擊、輸入、滾動);在此基礎上,ChatGPT Agent補足了Deep Research不擅長多輪對話的短板,能持續(xù)協(xié)作;又能在保持視覺交互的同時,執(zhí)行研究類任務。

但它們是如何整合到一起的呢?

在這次圓桌談話中,ChatGPT Agent團隊首次披露了他們的訓練方法:將所有工具集成至虛擬機,通過強化學習讓模型自主探索最佳工具組合

具體來說,在訓練過程中,模型被賦予所有可用的工具,例如文本瀏覽器、虛擬瀏覽器、終端工具和圖像生成工具,它們都運行在同一個虛擬機(VM)環(huán)境中,并且所有工具都共享狀態(tài),類似于一臺電腦上不同應用程序訪問相同文件系統(tǒng)的方式。

這種設計使ChatGPT Agent能高效處理互聯(lián)網(wǎng)、文件系統(tǒng)和代碼等交互任務。研究團隊沒有預先指定工具使用規(guī)則,而是讓模型通過強化學習自行發(fā)現(xiàn)最佳策略。

研究團隊會創(chuàng)建一系列難度較高的任務,而模型需要調用已有的工具來完成任務。通過獎勵機制,如果模型能夠高效且正確地完成任務,它就會得到獎勵,從而學會如何更好地執(zhí)行任務。

訓練后的模型能夠通過實驗自主學習如何高效、正確地完成任務,并流暢地在各種工具之間切換,而無需被明確告知何時使用何種工具。

例如,如果任務要求研究餐廳并預訂,模型可能會先使用文本瀏覽器進行研究,然后切換到圖形用戶界面(GUI)瀏覽器查看食物圖片或預訂可用性(這通常需要實際的GUI瀏覽器來處理JavaScript元素)。

ChatGPT Agent團隊認為這種訓練方法潛力巨大。ChatGPT Agent目前僅為最簡可行產(chǎn)品(Minimum Viable Product,MVP),但已經(jīng)展現(xiàn)出強大的能力。同樣的強化學習算法也適用于Deep Research、Operator,研究團隊在短時間內(nèi)就取得了這些成果,未來還有很大提升空間。

在交互性方面,ChatGPT Agent團隊主要關注端到端性能,從用戶提示到任務完成。

ChatGPT Agent在與用戶交互方面表現(xiàn)良好,部分原因是它在訓練中納入了多樣化的任務軌跡,用戶可隨時干預,提供澄清或更正,它也能根據(jù)反饋調整行為。

ChatGPT Agent的開發(fā)可追溯到2017年的World of Bits項目,最大的變化是訓練規(guī)模的提升,無論是預訓練還是強化學習,計算量可能增加了數(shù)十萬倍,使ChatGPT Agent的短時間開發(fā)得以實現(xiàn)。

小團隊能成大事

OpenAI為了打造ChatGPT Agent,對其下的組織架構做出了調整。

比方說參與這次圓桌談話的Isa Fulford和孫之清,是Deep Research團隊的核心成員,而Casey Chu是Operator的技術負責人。

簡單地講,ChatGPT Agent團隊由Deep Research和Operator的研究與應用團隊合并而成。

這個團隊的總人數(shù)并不多,Deep Research團隊最初只有3-4人,Operator團隊約6-8人,合并在一起,加上產(chǎn)品和設計人員,也就20到35人,但他們花幾個月就完成了這個項目。

他們在談話中表示,ChatGPT Agent團隊對研究與應用的界限并不嚴格,應用工程師參與模型訓練,研究人員也參與模型部署

研究與應用團隊緊密合作,從定義產(chǎn)品功能到模型訓練均以用戶場景為導向。

這種跨職能合作使項目充滿活力,團隊氛圍非常好。

雖然ChatGPT Agent尚未完全實現(xiàn)所有目標,但這種組織框架使他們能夠快速迭代。

安全機制與未來發(fā)展

談話還提到了ChatGPT Agent遇到的挑戰(zhàn),以及他們對未來的展望。

在訓練過程中,ChatGPT Agent遇到的最大的挑戰(zhàn)是訓練的穩(wěn)定性問題,ChatGPT Agent需同時處理多種新工具,且都在同一虛擬機環(huán)境中運行。這就需要同時運行成千上萬的虛擬機訪問網(wǎng)絡,經(jīng)常遇到網(wǎng)站宕機、API限制或網(wǎng)絡容量不足等問題。

某些網(wǎng)站可能因流量過載而暫時不可用,或者API調用因速率限制而失敗,這要求研究團隊在訓練中加入魯棒性機制,確保ChatGPT Agent能處理這些異常情況。

另外,由于ChatGPT Agent能夠執(zhí)行具有外部副作用的操作(例如購買物品),研究團隊在安全方面投入了大量精力,實施了多層次安全措施,包括以下四個方面:

  • 實時監(jiān)控系統(tǒng)檢測異常行為,若發(fā)現(xiàn)可疑操作會立即暫停任務
  • 執(zhí)行敏感操作前強制用戶確認
  • 生物風險專項防護
  • 支持用戶隨時接管操作

研究團隊特別關注了生物風險等嚴重問題,例如防止ChatGPT Agent被用于創(chuàng)建生物武器。

對于未來的展望,ChatGPT Agent團隊在這次談話中表示,OpenAI傾向于打造一個通用的超級智能體。

雖然單一智能體模型在擴展性和通用性上更具潛力,但研究團隊希望通過持續(xù)優(yōu)化,讓ChatGPT Agent能夠無縫處理從簡單查詢到復雜工作流的各種任務,減少用戶對多個專用模型的依賴。

從市場價值的角度來看,定制化模型可能更優(yōu),但從訓練角度看,通用智能體能更好地利用技能的可遷移特性。研究團隊也在探索如何通過強化學習進一步提高ChatGPT Agent的泛化能力,在遇到全新任務時快速適應,而無需大量額外訓練數(shù)據(jù)。

未來,ChatGPT Agent可能通過學習用戶反饋,動態(tài)調整其行為模式,進一步提升任務完成的精準度。

總的來說,ChatGPT Agent的未來發(fā)展方向如下:

  • 增強多輪對話與個性化記憶
  • 開發(fā)主動服務能力
  • 探索更自然的交互范式
  • 提升復雜任務(如數(shù)據(jù)分析)的完成度

目前ChatGPT Agent已開放使用,Plus用戶每月有40次使用額度。

圖片

ChatGPT Agent的研究團隊在采訪中表示,他們有意設計了一個開放式的智能體,鼓勵用戶探索其潛力。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-05-30 16:37:29

2023-05-05 13:11:16

2023-04-23 10:12:14

算法強化學習

2025-04-02 09:21:00

2025-04-01 09:10:00

2025-07-01 09:05:28

2025-08-01 09:05:00

2025-10-10 08:33:49

2025-03-21 13:00:54

2024-04-28 08:00:41

2025-02-25 12:30:00

2022-11-02 14:02:02

強化學習訓練

2025-07-21 02:22:00

ChatGPTAgent工具

2024-09-23 08:30:00

AI模型

2025-10-11 09:23:28

RLPT強化學習預訓練數(shù)據(jù)

2023-08-28 06:52:29

2023-02-14 09:28:35

2025-04-07 03:00:00

Dreamer世界模型

2018-04-21 06:41:39

Q-learning算法函數(shù)
點贊
收藏

51CTO技術棧公眾號