偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rt id="nz4k9"><strong id="nz4k9"></strong></rt>

<abbr id="nz4k9"><form id="nz4k9"></form></abbr>

<nav id="nz4k9"></nav>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

今夜，語音模型第一次超越人類！OpenAI再現(xiàn)Her時刻，95后華人研究員坐鎮(zhèn)

2025-08-29 14:38:42

人工智能新聞

OpenAI凌晨發(fā)布最新生產(chǎn)級別語音模型和API。Realtime API實現(xiàn)語音直接處理，支持圖像輸入、遠程MCP服務(wù)器與SIP打電話，極大簡化語音智能體構(gòu)建；而新一代語音到語音模型gpt-realtime，在音質(zhì)、理解力、指令遵循和函數(shù)調(diào)用上全面提升，語音幾乎媲美真人，還能多語種切換與細膩表達。

今天凌晨1點，OpenAI接連扔出AI語音能力的兩個重磅更新。

一個是Realtime API，可支持生產(chǎn)級的實時智能體。

另一個是最先進的語音到語音模型gpt-realtime。

Realtime API更新后不僅能連遠程MCP服務(wù)器，識別圖像輸入，還能通過SIP協(xié)議直接打電話。

新模型gpt-realtime更是狠，復(fù)雜指令都能聽懂，工具調(diào)用更精準，語音自然流暢，還能帶點表現(xiàn)力。

它能逐字念免責聲明，能準確復(fù)述字母數(shù)字，還能在對話里無縫切換語言。

最驚艷的，還是那聲音效果，幾乎和真人沒區(qū)別，甚至比真人更惟妙惟肖。

先來感受下這個語音的夸張效果，你幾乎聽不出來「機器味」。

這不禁讓人聯(lián)想到OpenAl這兩天很多人在社交媒體表示「feel the AGI....」

不知道說的是不是這個最新的Realtime語音功能。

在OpenAI提供的官方示例中，語音能力的加入，讓整個畫面立即就是充滿了AGI的味道！

現(xiàn)在gpt-realtime能夠處理復(fù)雜的多步驟請求，例如根據(jù)生活方式需求縮小房源列表，全程對話讓AI完成操作。

或者直接撥打電話安排醫(yī)生預(yù)約。

Realtime API第一次開放測試版是在去年10月，數(shù)千名開發(fā)者參與，邊用邊反饋。是所有這些開發(fā)者塑造了今天的改進。

高可靠性、低延遲、高品質(zhì)，就是為了讓語音智能體能夠真正能落地。

因為AI語音實現(xiàn)的傳統(tǒng)鏈路很繁瑣：語音轉(zhuǎn)文本，文本再轉(zhuǎn)語音，層層疊加。

而Realtime API不一樣，它只用一個模型，一個接口。

直接處理，直接生成音頻。延遲更低，細節(jié)保留得更好。

聲音，也更自然，更有表現(xiàn)力。

gpt-realtime 模型介紹

全新的語音到語音模型gpt-realtime，在音質(zhì)、智能、指令遵循和函數(shù)調(diào)用方面均實現(xiàn)了全面提升。

可以說是OpenAI目前最先進的，并且也是已為生產(chǎn)環(huán)境準備就緒的語音模型。

音頻質(zhì)量

自然的對話是語音智能體在現(xiàn)實世界中落地的關(guān)鍵，就像電影《HER》中主角完全沉浸在斯嘉麗約翰遜的聲音中。

所以要求模型需要具備媲美人類的語調(diào)、情感和語速，才能創(chuàng)造愉悅的體驗，并鼓勵用戶持續(xù)交流。

OpenAI對gpt-realtime的訓練專注于生成音質(zhì)更佳、聽感更自然的語音，并能遵循細粒度指令。

例如「用快速、專業(yè)的語氣說話」或「帶上法國口音，用共情的語氣表達」。

此外，在API中推出了Marin和Cedar兩款新語音，在語音的自然度上實現(xiàn)了重大突破。

同時，對現(xiàn)有的八款語音也進行了升級，使其同樣受益于這些改進。

智能與理解力

gpt-realtime展現(xiàn)出更高的智能水平，能夠更精準地理解原始音頻。

模型可以捕捉笑聲等非語言線索，在句子中途切換語言，并根據(jù)要求調(diào)整語氣（例如，從「干脆利落的專業(yè)風格」切換到「親切有同理心」）。

內(nèi)部評估顯示，該模型在識別西班牙語、中文、日語、法語等語言中的字母數(shù)字序列（如電話號碼、車輛識別碼等）時，表現(xiàn)也更為準確。

在衡量推理能力的Big Bench Audio評測中，gpt-realtime取得了 82.8% 的準確率，遠超在2024年12月發(fā)布的上一版模型（65.6%）。

指令遵循

構(gòu)建語音到語音應(yīng)用時，開發(fā)者需要為模型提供一套行為指令，包括如何說話、在特定情境下說什么、以及行為的邊界。

此次著重改進了模型對這些指令的遵循能力，使得即便是最細微的指示也能被模型有效捕捉。

在衡量指令遵循準確度的MultiChallenge音頻基準測試中，gpt-realtime的得分達到30.5%，相較于舊版模型（20.6%）有了顯著提高。

函數(shù)調(diào)用

要利用語音到語音模型構(gòu)建強大的語音智能體，模型必須能夠在恰當?shù)臅r機調(diào)用正確的工具，才能在生產(chǎn)環(huán)境中真正發(fā)揮作用。

gpt-realtime從三個維度改進了函數(shù)調(diào)用：調(diào)用相關(guān)函數(shù)、在合適的時機調(diào)用，以及使用正確的參數(shù)調(diào)用（從而提升準確率）。

在衡量函數(shù)調(diào)用性能的ComplexFuncBench音頻評測中，gpt-realtime的得分為66.5%，而舊版模型得分僅49.7%。

還對異步函數(shù)調(diào)用進行了改進。耗時較長的函數(shù)調(diào)用將不再阻塞會話流程——模型可以在等待結(jié)果的同時，保持流暢的對話。該功能已原生內(nèi)置于gpt-realtime，開發(fā)者無需更新代碼即可使用。

Realtime API的新功能

遠程 MCP 服務(wù)器支持

您可以在實時API的會話配置中，通過傳入遠程MCP服務(wù)器的URL來啟用MCP支持。連接后，API會自動處理相關(guān)的工具調(diào)用，無需手動進行集成。

該設(shè)置讓您可以輕松地為智能體擴展新能力：只需將會話指向一個不同的MCP服務(wù)器，相應(yīng)的工具便會立即可用。

// POST /v1/realtime/client_secrets
{
  "session": {
    "type": "realtime",
    "tools": [
      {
        "type": "mcp",
        "server_label": "stripe",
        "server_url": "https://mcp.stripe.com",
        "authorization": "{access_token}",
        "require_approval": "never"
      }
    ]
  }
}

圖像輸入

gpt-realtime現(xiàn)已支持圖像輸入。

可以將圖片、照片、屏幕截圖等視覺信息與音頻或文本一同加入到實時API的會話中。

現(xiàn)在，模型可以將對話內(nèi)容與用戶所見的畫面相結(jié)合，讓用戶可以提出「你看到了什么？」或「讀一下這張截圖里的文字」這類問題。

系統(tǒng)處理圖像的方式并非實時視頻流，而更像是在對話中插入一張圖片。

應(yīng)用程序可以決定在何時、與模型分享哪些圖像。

通過這種方式，可以始終掌控模型看到的內(nèi)容以及響應(yīng)的時機。

{
    "type":"conversation.item.create",
    "previous_item_id":null,
    "item":{
        "type":"message",
        "role":"user",
        "content":[
            {
                "type":"input_image",
                "image_url":"data:image/{format(example: png)};base64,{some_base64_image_bytes}"
            }
        ]
    }
}

其他功能

此次更新還增加了多項功能，使Realtime API更易于集成，在生產(chǎn)使用中也更具靈活性。

會話發(fā)起協(xié)議 (SIP) 支持：通過實時API的原生支持，將應(yīng)用連接到公共電話網(wǎng)絡(luò)、PBX系統(tǒng)、桌面電話及其他 SIP端點。

這有點像馬斯克此前推出的Ani打電話功能。

可重用提示詞：可以像在Responses API中一樣，保存并在不同的實時API會話中重用提示詞——這些提示詞可包含開發(fā)者消息、工具、變量以及用戶/助手消息示例。

華人面孔+2

OpenAI的發(fā)布會必定會出現(xiàn)華人，這次發(fā)布會出現(xiàn)兩張新面孔。

Beichen Li

Beichen Li目前是OpenAI的技術(shù)研究員。

研究方向是計算機圖形學與機器學習的交叉領(lǐng)域，重點關(guān)注利用多模態(tài)大語言模型（MLLM）進行視覺程序合成。

此前，他在MIT CSAIL獲得計算機科學博士學位，師從Wojciech Matusik教授；在MIT獲得電氣工程與計算機科學碩士學位；在清華大學獲得計算機科學與技術(shù)學士學位。

Liyu Chen

Liyu Chen目前是OpenAI的技術(shù)研究員。

此前，他在南加州大學獲得博士學位，師從Haipeng Luo教授；在香港科技大學獲得學士學位，畢業(yè)論文由Dit-Yan Yeung教授指導(dǎo)。

責任編輯：張燕妮來源：新智元

AI 語音生成模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<em id="4bnhi"></em>