偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="1x3re"><center id="1x3re"></center></pre>

<abbr id="1x3re"></abbr>

<tt id="1x3re"><th id="1x3re"><code id="1x3re"></code></th></tt>

<tt id="1x3re"><option id="1x3re"></option></tt>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

官方揭秘ChatGPT Agent背后原理！通過強化學習讓模型自主探索最佳工具組合

2025-07-24 09:05:00

人工智能新聞

關于更進一步的Agent Mode的工作原理，OpenAI開發(fā)團隊在和投資方紅杉資本的圓桌談話中做了詳細解析，還回答了幾個值得關注的問題。

ChatGPT Agent的技術內(nèi)幕，被官方披露了。

就在OpenAI官方推出其最強智能體后，外界褒與貶的熱議都沒停過……但不論如何，都被視為智能體方向上標志性的一步，是OpenAI一個全新的開端。

關于更進一步的Agent Mode的工作原理，OpenAI開發(fā)團隊在和投資方紅杉資本的圓桌談話中做了詳細解析，還回答了幾個值得關注的問題。

這是OpenAI官方首次詳細解析ChatGPT Agent功能背后的原理。

ChatGPT Agent由以下四個部分組成：

Deep Research（基于文本的研究智能體）
Operator（基于GUI/操作的計算機智能體）
其他新工具（終端、圖像生成、API調用等）
通過共享狀態(tài)進行整合

然而，智能體也不是想要整合就能整合的，在這場談話中，OpenAI透露了他們的訓練方法，以及他們?yōu)镃hatGPT Agent做出的組織調整。

量子位提取并總結了一些關鍵信息，讓我們一起來看。

歪打正著的起源

在正式走近ChatGPT Agent之前，讓我們介紹一下這次談話的幾位主角，他們分別是OpenAI團隊核心成員Isa Fulford、Casey Chu和孫之清。

Isa Fulford，斯坦福大學計算機科學碩士（人機交互方向），2022年11月加入OpenAI，現(xiàn)主導ChatGPT Agent的交互范式設計。
Casey Chu，OpenAI資深員工，斯坦福數(shù)學碩士，領導GPT-4視覺輸入初始原型開發(fā)，現(xiàn)為Operator/ChatGPT Agent技術負責人。
孫之清，95后北大校友，DeepResearch負責人，去年6月博士還沒畢業(yè)就加入了OpenAI，在后訓練團隊擔任研究科學家，已參與OpenAI的諸多核心項目。

在這次的談話中，他們介紹了ChatGPT Agent的起源：

我們團隊分別開發(fā)了Operator和Deep Research，在分析用戶請求時發(fā)現(xiàn)，Deep Research的用戶非常希望模型能夠訪問需要付費訂閱的內(nèi)容或有門檻的資源，而Operator恰好具備這種能力。通過分析Operator的用戶提示發(fā)現(xiàn)，很多用戶實際上試圖用它執(zhí)行Deep Research類型的任務。除了整合兩個核心工具，我們還添加了終端、圖像生成等多項功能。

原本兩個功能不同的智能體，就這樣在用戶的“錯用”下合二為一，變成了一個更通用的ChatGPT Agent。

1+1>2，怎么做到的？

簡單地說，ChatGPT Agent是Deep Research和Operator合作的成果。

Deep Research擅長文本閱讀與綜合報告，而Operator擅長視覺交互（如點擊、輸入、滾動）；在此基礎上，ChatGPT Agent補足了Deep Research不擅長多輪對話的短板，能持續(xù)協(xié)作；又能在保持視覺交互的同時，執(zhí)行研究類任務。

但它們是如何整合到一起的呢？

在這次圓桌談話中，ChatGPT Agent團隊首次披露了他們的訓練方法：將所有工具集成至虛擬機，通過強化學習讓模型自主探索最佳工具組合。

具體來說，在訓練過程中，模型被賦予所有可用的工具，例如文本瀏覽器、虛擬瀏覽器、終端工具和圖像生成工具，它們都運行在同一個虛擬機（VM）環(huán)境中，并且所有工具都共享狀態(tài)，類似于一臺電腦上不同應用程序訪問相同文件系統(tǒng)的方式。

這種設計使ChatGPT Agent能高效處理互聯(lián)網(wǎng)、文件系統(tǒng)和代碼等交互任務。研究團隊沒有預先指定工具使用規(guī)則，而是讓模型通過強化學習自行發(fā)現(xiàn)最佳策略。

研究團隊會創(chuàng)建一系列難度較高的任務，而模型需要調用已有的工具來完成任務。通過獎勵機制，如果模型能夠高效且正確地完成任務，它就會得到獎勵，從而學會如何更好地執(zhí)行任務。

訓練后的模型能夠通過實驗自主學習如何高效、正確地完成任務，并流暢地在各種工具之間切換，而無需被明確告知何時使用何種工具。

例如，如果任務要求研究餐廳并預訂，模型可能會先使用文本瀏覽器進行研究，然后切換到圖形用戶界面（GUI）瀏覽器查看食物圖片或預訂可用性（這通常需要實際的GUI瀏覽器來處理JavaScript元素）。

ChatGPT Agent團隊認為這種訓練方法潛力巨大。ChatGPT Agent目前僅為最簡可行產(chǎn)品（Minimum Viable Product，MVP），但已經(jīng)展現(xiàn)出強大的能力。同樣的強化學習算法也適用于Deep Research、Operator，研究團隊在短時間內(nèi)就取得了這些成果，未來還有很大提升空間。

在交互性方面，ChatGPT Agent團隊主要關注端到端性能，從用戶提示到任務完成。

ChatGPT Agent在與用戶交互方面表現(xiàn)良好，部分原因是它在訓練中納入了多樣化的任務軌跡，用戶可隨時干預，提供澄清或更正，它也能根據(jù)反饋調整行為。

ChatGPT Agent的開發(fā)可追溯到2017年的World of Bits項目，最大的變化是訓練規(guī)模的提升，無論是預訓練還是強化學習，計算量可能增加了數(shù)十萬倍，使ChatGPT Agent的短時間開發(fā)得以實現(xiàn)。

小團隊能成大事

OpenAI為了打造ChatGPT Agent，對其下的組織架構做出了調整。

比方說參與這次圓桌談話的Isa Fulford和孫之清，是Deep Research團隊的核心成員，而Casey Chu是Operator的技術負責人。

簡單地講，ChatGPT Agent團隊由Deep Research和Operator的研究與應用團隊合并而成。

這個團隊的總人數(shù)并不多，Deep Research團隊最初只有3-4人，Operator團隊約6-8人，合并在一起，加上產(chǎn)品和設計人員，也就20到35人，但他們花幾個月就完成了這個項目。

他們在談話中表示，ChatGPT Agent團隊對研究與應用的界限并不嚴格，應用工程師參與模型訓練，研究人員也參與模型部署。

研究與應用團隊緊密合作，從定義產(chǎn)品功能到模型訓練均以用戶場景為導向。

這種跨職能合作使項目充滿活力，團隊氛圍非常好。

雖然ChatGPT Agent尚未完全實現(xiàn)所有目標，但這種組織框架使他們能夠快速迭代。

安全機制與未來發(fā)展

談話還提到了ChatGPT Agent遇到的挑戰(zhàn)，以及他們對未來的展望。

在訓練過程中，ChatGPT Agent遇到的最大的挑戰(zhàn)是訓練的穩(wěn)定性問題，ChatGPT Agent需同時處理多種新工具，且都在同一虛擬機環(huán)境中運行。這就需要同時運行成千上萬的虛擬機訪問網(wǎng)絡，經(jīng)常遇到網(wǎng)站宕機、API限制或網(wǎng)絡容量不足等問題。

某些網(wǎng)站可能因流量過載而暫時不可用，或者API調用因速率限制而失敗，這要求研究團隊在訓練中加入魯棒性機制，確保ChatGPT Agent能處理這些異常情況。

另外，由于ChatGPT Agent能夠執(zhí)行具有外部副作用的操作（例如購買物品），研究團隊在安全方面投入了大量精力，實施了多層次安全措施，包括以下四個方面：

實時監(jiān)控系統(tǒng)檢測異常行為，若發(fā)現(xiàn)可疑操作會立即暫停任務
執(zhí)行敏感操作前強制用戶確認
生物風險專項防護
支持用戶隨時接管操作

研究團隊特別關注了生物風險等嚴重問題，例如防止ChatGPT Agent被用于創(chuàng)建生物武器。

對于未來的展望，ChatGPT Agent團隊在這次談話中表示，OpenAI傾向于打造一個通用的超級智能體。

雖然單一智能體模型在擴展性和通用性上更具潛力，但研究團隊希望通過持續(xù)優(yōu)化，讓ChatGPT Agent能夠無縫處理從簡單查詢到復雜工作流的各種任務，減少用戶對多個專用模型的依賴。

從市場價值的角度來看，定制化模型可能更優(yōu)，但從訓練角度看，通用智能體能更好地利用技能的可遷移特性。研究團隊也在探索如何通過強化學習進一步提高ChatGPT Agent的泛化能力，在遇到全新任務時快速適應，而無需大量額外訓練數(shù)據(jù)。

未來，ChatGPT Agent可能通過學習用戶反饋，動態(tài)調整其行為模式，進一步提升任務完成的精準度。

總的來說，ChatGPT Agent的未來發(fā)展方向如下：

增強多輪對話與個性化記憶
開發(fā)主動服務能力
探索更自然的交互范式
提升復雜任務（如數(shù)據(jù)分析）的完成度

目前ChatGPT Agent已開放使用，Plus用戶每月有40次使用額度。

ChatGPT Agent的研究團隊在采訪中表示，他們有意設計了一個開放式的智能體，鼓勵用戶探索其潛力。

責任編輯：張燕妮來源：量子位

OpenAI 開發(fā)技術

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<nobr id="j5jji"><tr id="j5jji"><optgroup id="j5jji"></optgroup></tr></nobr>