偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI剛剛發(fā)布GPT-Realtime,AI Agent進入超逼真對話時代

人工智能 新聞
GPT-realtime是一個專用于語音AIAgent的多模態(tài)模型,能夠生成更加自然流暢的語音,完美模仿人類豐富多樣的語調(diào)、情感以及語速,支持圖像理解并將其與語音或文本對話相結(jié)合使用,非常適用于客服、教育、金融、醫(yī)療等領(lǐng)域打造語音智能體。

今天凌晨1點,OpenAI進行了技術(shù)直播發(fā)布了語音模型GPT-realtime。

GPT-realtime是一個專用于語音AIAgent的多模態(tài)模型,能夠生成更加自然流暢的語音,完美模仿人類豐富多樣的語調(diào)、情感以及語速,支持圖像理解并將其與語音或文本對話相結(jié)合使用,非常適用于客服、教育、金融、醫(yī)療等領(lǐng)域打造語音智能體。

GPT-realtime還新增了Marin與Cedar兩種極具特色的語音,同時對原有的8種語音也進行了全面升級。

與傳統(tǒng)純語音模型不同的是,GPT-realtime還具備智力、推理和理解能力,例如,能夠敏銳捕捉笑聲等非語言信號,在句子中間自如地切換語言,并根據(jù)場景需求靈活調(diào)整語氣。

根據(jù)評估數(shù)據(jù)顯示,在多種語言環(huán)境下,GPT-realtime對字母數(shù)字序列的檢測準確率大幅提升,在用于衡量推理能力的BigBenchAudio評估中,準確率高達82.8%成為目前最強智能語音模型。

指令遵循能力的改進也是GPT-realtime的一大亮點。在構(gòu)建語音應(yīng)用時,開發(fā)者可對模型進行一系列指令自定義,包括如何說話、特定場景下該說什么、該做什么以及不該做什么等。

GPT-realtime針對這一點進行了深度優(yōu)化,即便是極為細微的指令,也能對其產(chǎn)生顯著的引導效果。在衡量指令遵循準確率的MultiChallenge音頻基準測試中,GPT-realtime的得分從舊模型的20.6%提升到30.5%,進步十分顯著。

在函數(shù)調(diào)用能力方面,GPT - realtime 從調(diào)用相關(guān)函數(shù)、把握調(diào)用時機以及選用合適的參數(shù)調(diào)用函數(shù)這三個關(guān)鍵維度進行了全方位優(yōu)化。在 ComplexFuncBench測試中,得分從舊模型的49.7%飆升至66.5%。

異步函數(shù)調(diào)用功能也得到了極大改進,長時間運行的函數(shù)調(diào)用不再會成為會話流程的絆腳石,模型在耐心等待結(jié)果的同時,依然能夠絲滑進行對話,并且這一強大功能無需開發(fā)者更新代碼,開箱即用。

支持圖像輸入是GPT–realtime特色功能之一,開發(fā)者可在Realtime API 會話中,可以自由地將圖像、照片、截圖與音頻或文本一并添加。模型由此具備了基于用戶實際所見內(nèi)容展開對話的能力,用戶能夠提出諸如 “你看到了什么?” 或 “讀取這張截圖中的文字” 等多樣化問題。

值得一提的是,該系統(tǒng)并非將圖像視為實時視頻流,而是巧妙地將其類比為在對話中插入的一張圖片,開發(fā)者可通過應(yīng)用自主決定向模型分享哪些圖像以及分享的時機,從而牢牢掌握模型看到的內(nèi)容與響應(yīng)時機,實現(xiàn)更加個性化、精準化的交互體驗。

與GPT - realtime 模型同步上線的,還有Realtime API 的一系列全新功能。從今天開始,在 Realtime API 會話中,開發(fā)者只需在會話配置中輕松傳入遠程 MCP 服務(wù)器的 URL,即可快速啟用 MCP 支持。

連接建立后,API 會自動承擔起工具調(diào)用的重任,無需開發(fā)者再手動搭建繁瑣的集成環(huán)境。這種配置方式為擴展智能體功能提供了極大的便利,開發(fā)者只需將會話指向不同的 MCP 服務(wù)器,相應(yīng)的工具便能即刻投入使用,大大提高了開發(fā)效率。

此外,Realtime API還新增了多項功能,旨在進一步提升其集成便捷性與生產(chǎn)使用靈活性。其中,會話初始協(xié)議支持使得Realtime API能夠直接與公共電話網(wǎng)絡(luò)、專用分組交換機系統(tǒng)、桌面電話及其他SIP終端建立連接,極大地拓展了應(yīng)用的連接范圍。

而可復(fù)用提示功能則允許開發(fā)者像在Responses API中一樣,保存并在多個Realtime API會話中重復(fù)使用提示,這些提示涵蓋了開發(fā)者消息、工具、變量以及用戶/助理示例消息等豐富信息,為開發(fā)工作帶來了極大的便利,有效減少了重復(fù)性勞動,提高了開發(fā)效率。

在安全與隱私保障方面,Realtime API內(nèi)置了多層嚴密的防護與緩解措施,全力防止濫用情況的發(fā)生。通過采用主動分類器,在會話過程中實時監(jiān)測對話內(nèi)容,一旦檢測到對話違反有害內(nèi)容準則,會立即終止相關(guān)會話,從源頭上保障了使用環(huán)境的安全與健康。

開發(fā)者還可借助Agents SDK輕松添加自定義安全防護措施,實現(xiàn)更加個性化、精細化的安全管理。在使用政策上,明確禁止將服務(wù)輸出用于垃圾郵件、欺詐或其他有害用途,并要求開發(fā)者在上下文未明確表明的情況下,必須向終端用戶清晰告知其正在與人工智能進行交互。此外,Realtime API采用預(yù)設(shè)語音,有效防止了惡意人員冒充他人的風險。

在定價與可用性方面,自發(fā)布之日起,所有開發(fā)者均可自由使用正式開放的Realtime API與全新的GPT-realtime模型。與之前的gpt-4o-realtime-preview相比,GPT-realtime的價格降低了20%,具體為音頻輸入token單價32美元/百萬個(緩存輸入token單價0.40美元/百萬個),音頻輸出token單價64美元/百萬個。

此外,OpenAI還為對話上下文新增了精細控制功能,開發(fā)者可靈活設(shè)置智能token限制,一次性截斷多輪對話內(nèi)容,從而大幅降低長會話的成本。

API詳情:https://platform.openai.com/docs/guides/realtime

責任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2025-09-17 09:14:03

2025-09-05 09:07:00

2025-10-14 09:15:31

2025-10-31 09:02:07

2024-05-14 07:30:56

OpenAIGPT-4oGPT-4

2025-08-18 17:14:41

GPT-5OpenAIAGI

2025-10-22 07:59:49

2025-05-19 09:10:00

2025-09-04 16:10:52

AgentOpenAI蘋果

2024-03-05 09:16:32

AI模型GPT-4

2024-05-14 11:29:15

2025-05-08 16:40:27

OpenAICEOFacebook

2025-04-25 09:09:00

2025-04-15 07:41:18

2025-07-24 09:15:06

2024-10-10 17:46:48

2018-10-11 17:01:01

華為云

2025-02-28 08:47:00

2025-05-15 09:16:00

2023-03-21 14:07:54

AI工作
點贊
收藏

51CTO技術(shù)棧公眾號