OpenAI突然發(fā)布智能體API!支持網(wǎng)絡(luò)和文件搜索以及computer use
「Agent/智能體」可說(shuō)是當(dāng)今 AI 領(lǐng)域最炙手可熱的話題。今天凌晨,OpenAI 發(fā)布了一系列可讓開發(fā)者通過(guò) API 構(gòu)建智能體的新工具,其中最大的看點(diǎn)便是 Responses API?,這是對(duì)之前的 Chat Completions API 的一輪大升級(jí),使其獲得了 Assistants API 般使用工具的能力,從而可以幫助開發(fā)者構(gòu)建智能體。目前,Responses API? 已經(jīng)內(nèi)置了網(wǎng)絡(luò)搜索、文件搜索和計(jì)算機(jī)使用(computer use)能力。

OpenAI CEO Sam Altman 表示 Chat Completions API 是有史以來(lái)設(shè)計(jì)最完善、最實(shí)用的 API 之一。
熟悉大模型應(yīng)用開發(fā)的人都知道,當(dāng)今不少大模型提供商的服務(wù)都兼容 OpenAI 之前提出的 Chat Completions API,其對(duì)行業(yè)標(biāo)準(zhǔn)化做出了非常大的貢獻(xiàn)。而今發(fā)布的 Responses API? 或許也將成為智能體響應(yīng)標(biāo)準(zhǔn)化的重要組成部分。

Chat Completions API 的一個(gè)簡(jiǎn)單示例
除此之外,OpenAI 還發(fā)布了用于編排單智能體和多智能體工作流的 Agents SDK 以及用于跟蹤和檢查智能體工作流程執(zhí)行情況的 observability tools。
OpenAI 表示:「這些新工具簡(jiǎn)化了核心智能體邏輯、編排和交互,使開發(fā)者能夠更輕松地開始構(gòu)建智能體。在接下來(lái)的幾周和幾個(gè)月內(nèi),我們計(jì)劃發(fā)布更多工具和功能,以進(jìn)一步簡(jiǎn)化和加速在我們的平臺(tái)上構(gòu)建智能體應(yīng)用的過(guò)程?!?/span>
相關(guān)文檔鏈接如下:
- Responses API?:https://platform.openai.com/docs/quickstart?api-mode=responses
- 網(wǎng)絡(luò)搜索:https://platform.openai.com/docs/guides/tools-web-search
- 文件搜索:https://platform.openai.com/docs/guides/tools-file-search
- computer use:https://platform.openai.com/docs/guides/tools-computer-use
- Agents SDK:https://platform.openai.com/docs/guides/agents
- observability tools:https://platform.openai.com/docs/guides/agents#orchestration
另外,OpenAI 還準(zhǔn)備了 PlayGround 供開發(fā)者嘗試:https://platform.openai.com/playground/prompts?preset=ks7kayjX55ehTBR9oyUviuJe
下面來(lái)具體看看 OpenAI 今天發(fā)布的東西。
Responses API 是什么?
簡(jiǎn)單來(lái)說(shuō),Responses API 是一種 API 新原語(yǔ),其作用是使用 OpenAI 內(nèi)置工具來(lái)構(gòu)建智能體。OpenAI 表示它將 Chat Completions 的簡(jiǎn)單性與 Assistants API 的工具使用功能結(jié)合到了一起?!鸽S著模型功能的不斷進(jìn)化,我們相信 Responses API 將為開發(fā)者構(gòu)建智能體應(yīng)用提供更靈活的基礎(chǔ)。只需一次 Responses API 調(diào)用,開發(fā)者就能夠使用多個(gè)工具和模型輪次來(lái)解決越來(lái)越復(fù)雜的任務(wù)。」

首先,Responses API 將支持新的內(nèi)置工具,如網(wǎng)絡(luò)搜索、文件搜索和 computer use。這些工具可以協(xié)同工作,將模型連接到現(xiàn)實(shí)世界,從而讓模型可以完成更加有用的任務(wù)。Responses API 還包含一些可用性改進(jìn),包括統(tǒng)一的基于事項(xiàng)(item)的設(shè)計(jì)、更簡(jiǎn)單的多態(tài)性、直觀的流式事件和 SDK 助手(如可幫助輕松獲取模型的文本輸出的 response.output_text)。
對(duì)于希望輕松將 OpenAI 模型和內(nèi)置工具結(jié)合到其應(yīng)用中的開發(fā)者,Responses API 可提供一個(gè)統(tǒng)一的接口,而無(wú)需集成多個(gè) API 或外部供應(yīng)商。
該 API 還使在 OpenAI 上存儲(chǔ)數(shù)據(jù)變得更加容易,因此開發(fā)者可以使用跟蹤和評(píng)估等功能來(lái)評(píng)估智能體性能。OpenAI 還特別指出:「即使數(shù)據(jù)存儲(chǔ)在 OpenAI 上,我們也不會(huì)默認(rèn)使用業(yè)務(wù)數(shù)據(jù)來(lái)訓(xùn)練我們的模型?!?/span>
Responses API 即日可用,并且不會(huì)單獨(dú)收費(fèi) ——token 和工具按照 OpenAI 定價(jià)頁(yè)面上指定的標(biāo)準(zhǔn)費(fèi)率計(jì)費(fèi)。
現(xiàn)有的 API 呢?
Chat Completions API:OpenAI 表示,Chat Completions 仍然是他們最廣泛采用的 API,他們也會(huì)讓新模型和新功能支持它。無(wú)需內(nèi)置工具的開發(fā)者可以放心地繼續(xù)使用 Chat Completions。只要 Chat Completions 的功能不依賴于內(nèi)置工具或調(diào)用多個(gè)模型,OpenAI 表示就會(huì)繼續(xù)發(fā)布支持 Chat Completions 的新模型。而 Responses API 是 Chat Completions 的超集?,具有同樣出色的性能,因此對(duì)于新的集成,OpenAI 建議從 Responses API 開始。
Assistants API?:根據(jù)開發(fā)者對(duì) Assistants API beta 的反饋,OpenAI 在 Responses API 中加入了一些關(guān)鍵改進(jìn),使其更加靈活、更快、更易于使用。OpenAI 表示正在努力實(shí)現(xiàn) Assistants 和 Responses API 之間的完全功能對(duì)等,包括對(duì)類似 Assistant 和類似 Thread 的對(duì)象以及代碼解釋器工具的支持。OpenAI 表示,完成這個(gè)過(guò)程后,就會(huì)正式宣布棄用 Assistants API,目標(biāo)截止日期為 2026 年中期。棄用后,OpenAI 將提供從 Assistants API 到 Responses API 的遷移指南,使開發(fā)者能夠保留所有數(shù)據(jù)并遷移其應(yīng)用。而在正式宣布棄用之前,OpenAI 將繼續(xù)讓新模型支持 Assistants API。
OpenAI 表示:「Responses API 代表了在 OpenAI 上構(gòu)建智能體的未來(lái)方向?!?/span>
Responses API 的內(nèi)置工具
網(wǎng)絡(luò)搜索
開發(fā)者現(xiàn)在可以從網(wǎng)絡(luò)上獲得快速、最新的答案,同時(shí)還帶有清晰且相關(guān)的引文。在 Responses API 中,使用 gpt-4o 和 gpt-4o-mini 時(shí),網(wǎng)絡(luò)搜索可用作工具使用,并且可以與其他工具或函數(shù)調(diào)用搭配使用。

Responses API 中的網(wǎng)絡(luò)搜索使用了 ChatGPT 搜索一樣的模型。OpenAI 也發(fā)布了基準(zhǔn)測(cè)試結(jié)果:在 SimpleQA 評(píng)估 LLM 回答簡(jiǎn)短事實(shí)問(wèn)題的準(zhǔn)確性的基準(zhǔn))上,GPT-4o search preview 和 GPT-4o mini search preview 分別得分 90% 和 88%。

使用該 API 中的網(wǎng)絡(luò)搜索生成的響應(yīng)會(huì)包含指向新聞文章和博客文章等來(lái)源的鏈接,為用戶提供了一種了解更多信息的方式。
任何網(wǎng)站或發(fā)布者都可以選擇是否在該 API 中的網(wǎng)絡(luò)搜索中顯示。
目前,網(wǎng)絡(luò)搜索工具已在 Responses API 中以預(yù)覽版形式提供給所有開發(fā)者。OpenAI 還支持開發(fā)者通過(guò) gpt-4o-search-preview 和 gpt-4o-mini-search-preview 直接訪問(wèn) Chat Completions API 中經(jīng)過(guò)微調(diào)的搜索模型。GPT?4o search 和 4o-mini search 的定價(jià)分別為每千次查詢 30 美元和 25 美元。
文件搜索
開發(fā)者現(xiàn)在可以使用經(jīng)過(guò)改進(jìn)的文件搜索工具輕松地從大量文檔中檢索相關(guān)信息。其支持多種文件類型、查詢優(yōu)化、元數(shù)據(jù)過(guò)濾和自定義重新排名,并能提供快速、準(zhǔn)確的搜索結(jié)果。同樣,使用 Responses API,只需幾行代碼即可完成集成。

文件搜索工具可用于各種實(shí)際用例,包括使客服智能體輕松訪問(wèn)常見問(wèn)題解答、幫助法律助理快速參考合格專業(yè)人員的過(guò)去案例以及協(xié)助編程智能體查詢技術(shù)文檔。
此工具在 Responses API 中可供所有開發(fā)者使用。使用價(jià)格為每千次查詢 2.50 美元,文件存儲(chǔ)價(jià)格為 0.10 美元/GB /天,首 GB 免費(fèi)。
該工具也將繼續(xù)在 Assistants API 中提供。最后,OpenAI 表示還向 Vector Store API 對(duì)象添加了一個(gè)新的搜索端點(diǎn),開發(fā)者可直接將其用于查詢自己的數(shù)據(jù),然后用于其他應(yīng)用和 API。
Computer Use
為了構(gòu)建能夠在計(jì)算機(jī)上完成任務(wù)的智能體,開發(fā)者現(xiàn)在可以使用 Responses API 中的 Computer Use 工具,該工具使用了 Computer-Using Agent(CUA)模型 —— 與 Operator 一樣。
而此研究預(yù)覽版(research preview)模型創(chuàng)下了新的 SOTA 記錄:在 OSWorld? 的全 Computer Use 任務(wù)上實(shí)現(xiàn)了 38.1% 的成功率,在 WebArena? 上實(shí)現(xiàn) 58.1% 的成功率,在 WebVoyager? 的基于 Web 的交互任務(wù)上實(shí)現(xiàn) 87% 的成功率。
內(nèi)置的 Computer Use 工具可捕獲模型生成的鼠標(biāo)和鍵盤操作,使開發(fā)者能夠通過(guò)將這些操作直接轉(zhuǎn)換為其環(huán)境中的可執(zhí)行命令來(lái)自動(dòng)執(zhí)行 Computer Use 任務(wù)。

開發(fā)者可以使用 Computer Use 工具來(lái)自動(dòng)化基于瀏覽器的工作流程,例如在 Web 應(yīng)用上執(zhí)行質(zhì)量驗(yàn)證任務(wù)或跨舊系統(tǒng)執(zhí)行數(shù)據(jù)輸入任務(wù)。
OpenAI 表示,在去年推出支持 Operator 的 CUA 之前,他們進(jìn)行了廣泛的安全測(cè)試和紅隊(duì)測(cè)試,解決了三個(gè)關(guān)鍵風(fēng)險(xiǎn)領(lǐng)域:誤用、模型錯(cuò)誤和前沿風(fēng)險(xiǎn)。
而通過(guò) API 中的 CUA 將 Operator 的功能擴(kuò)展到本地操作系統(tǒng)也會(huì)引入新的風(fēng)險(xiǎn),為此 OpenAI 進(jìn)行了額外的安全評(píng)估和紅隊(duì)測(cè)試。
OpenAI 還為開發(fā)者添加了緩解措施,包括防止提示詞注入的安全檢查、敏感任務(wù)的確認(rèn)提示、幫助開發(fā)者隔離其環(huán)境的工具以及增強(qiáng)對(duì)潛在政策違規(guī)行為的檢測(cè)。雖然這些緩解措施有助于降低風(fēng)險(xiǎn),但該模型仍然容易受到無(wú)意錯(cuò)誤的影響,尤其是在非瀏覽器環(huán)境中。
例如,CUA 在 OSWorld(旨在衡量 AI 智能體在實(shí)際任務(wù)中的表現(xiàn)的基準(zhǔn))上的表現(xiàn)目前為 38.1%,這表明該模型對(duì)于在操作系統(tǒng)上自動(dòng)執(zhí)行任務(wù)還不夠可靠。在這些情況下,OpenAI 建議進(jìn)行人工監(jiān)督。
更多詳情可訪問(wèn)已更新的系統(tǒng)卡:https://openai.com/index/operator-system-card/

從今天開始,Computer Use 工具將作為研究預(yù)覽版在 Responses API 中提供給使用等級(jí)為 3-5 的選定開發(fā)者。
使用價(jià)格為 3 美元/100 萬(wàn)輸入 token 和 12 美元/100 萬(wàn)輸出 token。
Agents SDK
除了構(gòu)建智能體的核心邏輯并讓它們能夠訪問(wèn)有用的工具之外,開發(fā)者還需要編排智能體工作流。
OpenAI 開源發(fā)布的 Agents SDK 可簡(jiǎn)化多智能體工作流的編排,并且相比于 Swarm? 有了顯著的改進(jìn)。Swarm 是 OpenAI 去年發(fā)布的實(shí)驗(yàn)性 SDK 并已被開發(fā)者社區(qū)廣泛采用,可參閱機(jī)器之心報(bào)道《OpenAI 今天 Open 了一下:開源多智能體框架 Swarm》。
- 智能體:易于配置的 LLM,具有清晰的說(shuō)明和內(nèi)置工具。
- 交接:在智能體之間智能地轉(zhuǎn)移控制權(quán)。
- 護(hù)欄:可配置的安全檢查,用于輸入和輸出驗(yàn)證。
- 跟蹤和可觀察性:可視化智能體執(zhí)行跟蹤以調(diào)試和優(yōu)化性能。

智能體 SDK 適用于各種實(shí)際應(yīng)用,包括客戶支持自動(dòng)化、多步驟研究、內(nèi)容生成、代碼審查和銷售潛在客戶挖掘。
Agents SDK 可與 Responses API 和 Chat Completions API 配合使用。只要其他提供商提供 Chat Completions 樣式的 API 端點(diǎn),該 SDK 還可以與其他提供商的模型配合使用。
開發(fā)者可以立即將其集成到他們的 Python 代碼庫(kù)中,Node.js 支持也即將推出。
OpenAI 還提到未來(lái)可能會(huì)開源 Agents SDK:「在設(shè)計(jì) Agents SDK 時(shí),我們的團(tuán)隊(duì)受到了社區(qū)中其他人的出色工作的啟發(fā),包括 Pydantic、Griffe 和 MkDocs。我們致力于繼續(xù)將 Agents SDK 構(gòu)建為開源框架,以便社區(qū)中的其他人可以擴(kuò)展我們的方法?!?/span>
最后,OpenAI 稱:「我們相信智能體很快就會(huì)成為勞動(dòng)力不可或缺的一部分,從而顯著提高各行業(yè)的生產(chǎn)力。隨著公司越來(lái)越多地尋求利用 AI 來(lái)完成復(fù)雜的任務(wù),我們致力于為開發(fā)者和企業(yè)提供構(gòu)建模塊,使他們能夠有效地創(chuàng)建可產(chǎn)生實(shí)際影響的自動(dòng)系統(tǒng)?!?/span>
Responses API? 背后的故事
Responses API? 背后的設(shè)計(jì)者之一、OpenAI 的 Atty Eleti 還在 ?? 上分享了 Responses API? 背后的故事。

他表示,Responses API? 是他設(shè)計(jì) OpenAI API 2 年的經(jīng)驗(yàn)累積的成果。
兩年前,他們與 GPT-3.5 Turbo 團(tuán)隊(duì)一起推出了 Chat Completions。而這個(gè) API 是他與 Rachel Lim 在一個(gè)周末內(nèi)完成的:周五設(shè)計(jì),周二發(fā)布 GA。如今,Chat Completions 已成為事實(shí)上的行業(yè)標(biāo)準(zhǔn),為數(shù)十萬(wàn)個(gè)應(yīng)用提供支持,并被每個(gè)主要模型提供商所采用。
當(dāng)年晚些時(shí)候,他們發(fā)布了 Assistants API 的 beta 版,這是構(gòu)建智能體原語(yǔ)的初稿。其運(yùn)行在后臺(tái)進(jìn)行,并能根據(jù)需要調(diào)用工具。
許多開發(fā)者喜歡它,因?yàn)樗子谏鲜郑ㄖ恍枋褂?OpenAI 作為自己的數(shù)據(jù)庫(kù)?。┎⑶彝ㄟ^(guò)「file_search」工具內(nèi)置了強(qiáng)大的 RAG。
但從那時(shí)起,很多事情都發(fā)生了變化:今天的模型是多模態(tài)的(文本、圖像、音頻)、智能體形式的(調(diào)用一個(gè)或多個(gè)工具),并且在說(shuō)話前會(huì)思考。
Chat Completions 不是為此設(shè)計(jì)的;它是無(wú)狀態(tài)的(會(huì)迫使你傳回大量圖像和音頻),不支持工具,并且存在許多可用性問(wèn)題(特別是,流式傳輸很難正確實(shí)現(xiàn)。)
Assistants 支持工具,但它太抽象了。你需要了解六個(gè)概念才能開始使用,而且后臺(tái)處理意味著它默認(rèn)很慢。
這些 API 的形式成為了開發(fā)者調(diào)用底層功能的障礙。
Responses API 則將上述兩種 API 的優(yōu)勢(shì)整合到了一起。
只需 4 行代碼即可開始使用,只需一個(gè)參數(shù)即可包含文件搜索、網(wǎng)絡(luò)搜索、函數(shù)調(diào)用和結(jié)構(gòu)化輸出等功能。

Responses 具有多種狀態(tài)。
默認(rèn)情況下,所有 Responses 都會(huì)被存儲(chǔ),用戶可以在儀表板中查看它們,以便以后進(jìn)行調(diào)試。你可以使用「previous_response_id」繼續(xù)對(duì)話 —— 無(wú)需一次又一次地發(fā)送大載荷。
Responses 也是狀態(tài)機(jī)(state-machines),可以更好地模擬不完整、中斷和失敗的模型輸出。

Responses 的核心概念是事項(xiàng)(item):表示用戶輸入或模型輸出的多態(tài)對(duì)象。事項(xiàng)可以表示消息、推理、函數(shù)調(diào)用、Web 搜索調(diào)用等。
Chat Completions 是消息來(lái)來(lái)回回的列表,而 Responses 則是事項(xiàng)來(lái)來(lái)回回的列表。

托管工具(Hosted tools)是 Responses 的殺手級(jí)功能。
只需一行代碼,你就可以在應(yīng)用中獲得一流的網(wǎng)頁(yè)搜索、文件搜索以及即將推出的代碼解釋器。
至于 Responses 這個(gè)起名。Atty Eleti 指出「Responses 顯然與 HTTP Responses 沖突。」
「但我們堅(jiān)信這個(gè)名字完美地平衡了優(yōu)雅和描述性。我們?cè)谌粘J褂弥卸紩?huì)問(wèn)『模特的 Responses 是什么?』」
Eleti 表示他們還考慮過(guò) Tasks、Generations、Messages、Interactions、Conversations 等名稱。
他也總結(jié)了 OpenAI 的 API 設(shè)計(jì)哲學(xué):交付能力,而非抽象。(Ship capabilities, not abstractions.)
最后,順帶一提,OpenAI CEO Sam Altman 在 ?? 表示他們已經(jīng)訓(xùn)練出了一個(gè)擅長(zhǎng)創(chuàng)意寫作的模型,不過(guò)發(fā)布時(shí)間待定。他說(shuō):「這是我第一次真正被 AI 寫的東西所震撼;它恰到好處地傳達(dá)了元小說(shuō)的氛圍。」
下面是他分享的提示詞和小說(shuō),感興趣的讀者可訪問(wèn)這里自行評(píng)鑒:https://x.com/sama/status/1899535387435086115

你對(duì) OpenAI 今天的發(fā)布怎么看?



































