鐵了心為Agent開發(fā)鋪路!OpenAI“真香”式升級(jí):跳出Python圈、可人類干預(yù)、實(shí)時(shí)語音Agent、全鏈路追蹤 原創(chuàng)
編輯 | 云昭
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
OpenAI 又放大招了!用實(shí)力正名:在AI圈,自己的“一哥”地位不可動(dòng)搖!
就在今天凌晨,OpenAI 官方開發(fā)者賬號(hào) @OpenAIDevs 在 X 平臺(tái)上,一口氣連續(xù)發(fā)布了 4 項(xiàng)關(guān)鍵更新,直接把 AI 代理(Agent)開發(fā)體驗(yàn)提升到新維度,圍繞 Agent 開發(fā)體驗(yàn)、實(shí)時(shí)語音應(yīng)用、人類干預(yù)機(jī)制和全鏈路追蹤都做了重要升級(jí)。
具體包括:推出了TypeScript 原生支持,語音代理可以實(shí)時(shí)跑,執(zhí)行過程還能人工干預(yù),全鏈路追蹤也一站搞定。
別小看這 4 個(gè)更新,它們背后透露出的,OpenAI 對(duì)于 AI Agent 產(chǎn)品線的定位再升級(jí): 從“開發(fā)者玩具”,轉(zhuǎn)向升級(jí)成為“企業(yè)級(jí) AI 工具鏈”。
所以,今天這 4 個(gè)更新,哪怕你不寫代碼,也值得關(guān)注。我們這就來細(xì)細(xì)拆一下,告訴大家為什么這么說。
Agents SDK 正式跳出 Python 圈,支持 TypeScript,前端全棧開發(fā)者福音
過去,OpenAI Agents SDK 只提供 Python 版本,對(duì)大多數(shù)前端、全棧和 Node.js 開發(fā)者不太友好。
這次,官方直接放出了 TypeScript 版本 SDK,功能完全對(duì)齊 Python 版,支持:
- handoffs(任務(wù)移交)
- guardrails(安全機(jī)制)
- tracing(執(zhí)行追蹤)
- MCP(多通道代理控制)
- 以及 Agent 所需的各類基礎(chǔ)能力。
安裝也是非常簡(jiǎn)單:
復(fù)制
npm install @openai/agents
官網(wǎng)還給出了使用示例:
復(fù)制
import { Agent, run } from'@openai/agents';
const agent = new Agent({
name: 'Assistant',
instructions: 'You are a helpful assistant',
});
const result = await run(
agent,
'Write a haiku about recursion in programming.',
);
console.log(result.finalOutput);
// Code within the code,
// Functions calling themselves,
// Infinite loop's dance.
可以說,OpenAI 的 AI Agent 終于從 Python 圈子里跳出來了,前端開發(fā)者也能玩轉(zhuǎn) AI 代理。
對(duì) AI 工具 SaaS、智能客服、網(wǎng)頁嵌入式 AI 助手這些場(chǎng)景是重大利好。
?? 官方文檔:
??https://openai.github.io/openai-agents-js/??
新增 Human-in-the-loop 功能,AI 調(diào)用過程可人工干預(yù)
AI 黑箱執(zhí)行、無法插手,一直是企業(yè)在部署 Agent 時(shí)最大的顧慮,尤其對(duì)于
金融風(fēng)控、內(nèi)容審核、法務(wù)審校這些場(chǎng)景,可控性尤其重要。
這一次,AI 不再是一錘子買賣,OpenAI貼心地將「人類介入權(quán)」被納入了開發(fā)體系。
這次 SDK 增強(qiáng)了 Human-in-the-loop 功能,允許開發(fā)者:
- 在 Agent 調(diào)用工具或執(zhí)行任務(wù)時(shí),主動(dòng)暫停
- 保存當(dāng)前 agent 狀態(tài)
- 讓人工審核、確認(rèn)或調(diào)整調(diào)用
- 再?zèng)Q定是否恢復(fù)執(zhí)行
?? 功能指南:
??https://openai.github.io/openai-agents-js/guides/human-in-the-loop/??
實(shí)時(shí)語音 Agent 功能上線,實(shí)時(shí)語音代理可以跑了
第三個(gè)更新,相信適合所有在做各種 AI 助手的朋友,比如 AI 語音助手、客服機(jī)器人、播報(bào)應(yīng)用等等,終于有了靠譜的官方方案。
圖片
這次新出的 RealtimeAgent 功能,基于 OpenAI 的 Realtime API,可以讓語音代理在本地客戶端或服務(wù)器端實(shí)時(shí)運(yùn)行,具體可以支持:
- 和文字 agent 一樣的工具調(diào)用、任務(wù)移交、guardrails(護(hù)欄)
- 自動(dòng)處理語音輸入、輸出、用戶打斷
?? 入門地址:https://openai.github.io/openai-agents-js/guides/voice-agents/
從“對(duì)話文字機(jī)器人”邁向“語音實(shí)時(shí)助手”,Agent 從文本應(yīng)用進(jìn)化到多模態(tài) AI 產(chǎn)品,這是一個(gè)業(yè)內(nèi)的共識(shí)和趨勢(shì),所以小編認(rèn)為,OpenAI 這一次的功能真的很香!
這里也給大家放一個(gè)示例:
復(fù)制
import { z } from'zod';
import { RealtimeAgent, RealtimeSession, tool } from'@openai/agents/realtime';
const createTicket = tool({
name: 'createTicket',
description: 'Create a support ticket for a faulty laptop.',
parameters: z.object({}),
needsApproval: true,
execute: async () => 'Ticket filed!',
});
const faqAgent = new RealtimeAgent({
name: 'FAQ',
instructions: 'Answer laptop support questions concisely.',
});
const customerServiceAgent = new RealtimeAgent({
name: 'Customer Service',
instructions: 'Handle customer service inquiries, including support tickets.',
tools: [createTicket],
});
const triageAgent = new RealtimeAgent({
name: 'Triage',
instructions: 'Route laptop support questions to FAQ or customer service.',
handoffs: [faqAgent, customerServiceAgent],
});
const session = new RealtimeSession(triageAgent, {
model: 'gpt-4o-realtime-2025-06-03'
});
await session.connect({ apiKey });
Agent也有了抓手:Traces 儀表盤支持實(shí)時(shí)語音代理追蹤
為了方便開發(fā)者監(jiān)控 Agent 執(zhí)行過程,OpenAI 的 Traces dashboard 現(xiàn)在也支持實(shí)時(shí)語音代理。
圖片
可實(shí)時(shí)查看:
- 語音輸入、輸出
- 工具調(diào)用記錄
- 用戶打斷情況
- 執(zhí)行鏈路
這里值得注意的是,無論通過 API 還是 Agents SDK 調(diào)用,執(zhí)行過程都能清晰追蹤。
這也就意味著,企業(yè)徹查 Agent 的黑箱行為,也算是有了清晰的抓手。
寫在最后:Agent 正在成為 AI 世界的操作系統(tǒng)
這 4 個(gè)更新看似瑣碎,但放在一起,就是一個(gè)很清晰的信號(hào):
AI Agent 不再是一個(gè)單點(diǎn)功能,而是正走向“全??煽亍⒅С终Z音、支持人類干預(yù)、過程全追溯”的企業(yè)級(jí) AI 操作系統(tǒng)。
未來,客服、銷售助理、內(nèi)容審核、IoT 智能設(shè)備、企業(yè)運(yùn)營輔助,這些場(chǎng)景里,AI Agent 不僅能實(shí)時(shí)跑,執(zhí)行過程還能隨時(shí)插手、隨時(shí)追蹤。
這意味著什么?
這就意味著,AI 正從“生成答案”,變成“執(zhí)行任務(wù)”的超級(jí)數(shù)字勞動(dòng)力。
而今天 OpenAI 的這波更新,正是為這個(gè)趨勢(shì)鋪路。
最后給大家看一下,最早一批嘗鮮該功能的 Perplexity 開發(fā)的新品效果——
參考資料:https://x.com/OpenAIDevs/status/1929950489539686901
本文轉(zhuǎn)載自????51CTO技術(shù)棧????,作者:云昭
