偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

昨天,國(guó)產(chǎn)大模型接管了人類的手機(jī)、電腦!

原創(chuàng) 精選
人工智能
GLM-4-Voice 是智譜 AI 推出的端到端語(yǔ)音模型。GLM-4-Voice 能夠直接理解和生成中英文語(yǔ)音,進(jìn)行實(shí)時(shí)語(yǔ)音對(duì)話,并且能夠遵循用戶的指令要求改變語(yǔ)音的情感、語(yǔ)調(diào)、語(yǔ)速、方言等屬性。

整理 | 言征

國(guó)產(chǎn)多模態(tài)、智能體版本的GPT-4o終于來(lái)了!

10月25日,國(guó)內(nèi)大模型獨(dú)角獸智譜連發(fā)兩個(gè)大招,小編當(dāng)時(shí)差點(diǎn)愣住,不愧國(guó)產(chǎn)大模型之光!

廢話不多說(shuō),直接上干貨。這次智譜推出了一個(gè)模型GLM-4-Voice ,一款應(yīng)用AutoGLM。

圖片圖片

開(kāi)源地址:https://github.com/THUDM/GLM-4-Voice

GLM-4-Voice 是智譜 AI 推出的端到端語(yǔ)音模型。GLM-4-Voice 能夠直接理解和生成中英文語(yǔ)音,進(jìn)行實(shí)時(shí)語(yǔ)音對(duì)話,并且能夠遵循用戶的指令要求改變語(yǔ)音的情感、語(yǔ)調(diào)、語(yǔ)速、方言等屬性。

圖片圖片

模型架構(gòu)

GLM-4-Voice 由三個(gè)部分組成:

GLM-4-Voice-Tokenizer: 通過(guò)在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 數(shù)據(jù)上有監(jiān)督訓(xùn)練,將連續(xù)的語(yǔ)音輸入轉(zhuǎn)化為離散的 token。每秒音頻平均只需要用 12.5 個(gè)離散 token 表示。

GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型結(jié)構(gòu)訓(xùn)練的支持流式推理的語(yǔ)音解碼器,將離散化的語(yǔ)音 token 轉(zhuǎn)化為連續(xù)的語(yǔ)音輸出。最少只需要 10 個(gè)語(yǔ)音 token 即可開(kāi)始生成,降低端到端對(duì)話延遲。

GLM-4-Voice-9B: 在 GLM-4-9B 的基礎(chǔ)上進(jìn)行語(yǔ)音模態(tài)的預(yù)訓(xùn)練和對(duì)齊,從而能夠理解和生成離散化的語(yǔ)音 token。

預(yù)訓(xùn)練方面,為了攻克模型在語(yǔ)音模態(tài)下的智商和合成表現(xiàn)力兩個(gè)難關(guān),我們將 Speech2Speech 任務(wù)解耦合為“根據(jù)用戶音頻做出文本回復(fù)”和“根據(jù)文本回復(fù)和用戶語(yǔ)音合成回復(fù)語(yǔ)音”兩個(gè)任務(wù),并設(shè)計(jì)兩種預(yù)訓(xùn)練目標(biāo),分別基于文本預(yù)訓(xùn)練數(shù)據(jù)和無(wú)監(jiān)督音頻數(shù)據(jù)合成語(yǔ)音-文本交錯(cuò)數(shù)據(jù)以適配這兩種任務(wù)形式。

GLM-4-Voice-9B 在 GLM-4-9B 的基座模型基礎(chǔ)之上,經(jīng)過(guò)了數(shù)百萬(wàn)小時(shí)音頻和數(shù)千億 token 的音頻文本交錯(cuò)數(shù)據(jù)預(yù)訓(xùn)練,擁有很強(qiáng)的音頻理解和建模能力。

GLM-4-Voice 預(yù)訓(xùn)練數(shù)據(jù)構(gòu)造GLM-4-Voice 預(yù)訓(xùn)練數(shù)據(jù)構(gòu)造


對(duì)齊方面,為了支持高質(zhì)量的語(yǔ)音對(duì)話,我們?cè)O(shè)計(jì)了一套流式思考架構(gòu):根據(jù)用戶語(yǔ)音,GLM-4-Voice 可以流式交替輸出文本和語(yǔ)音兩個(gè)模態(tài)的內(nèi)容,其中語(yǔ)音模態(tài)以文本作為參照保證回復(fù)內(nèi)容的高質(zhì)量,并根據(jù)用戶的語(yǔ)音指令要求做出相應(yīng)的聲音變化,在最大程度保留語(yǔ)言模型智商的情況下仍然具有端到端建模的能力,同時(shí)具備低延遲性,最低只需要輸出 20 個(gè) token 便可以合成語(yǔ)音。

電腦、手機(jī)聽(tīng)從指令幫你操作AutoGLM 同步上線

在情感語(yǔ)音通話全面開(kāi)放的同時(shí),智譜也宣布了另一項(xiàng)前沿成果:AutoGLM。

一句話讓AutoGLM點(diǎn)喜茶視頻來(lái)源:數(shù)字生命卡茲克一句話讓AutoGLM點(diǎn)喜茶視頻來(lái)源:數(shù)字生命卡茲克

讓 AI 像人類一樣操作電腦和手機(jī),是近期領(lǐng)域內(nèi)的熱點(diǎn)話題。以往這是一項(xiàng)頗具挑戰(zhàn)性的任務(wù),因?yàn)樵诖祟悎?chǎng)景下,AI 需要根據(jù)用戶的要求拆解指令背后蘊(yùn)含的步驟,感知環(huán)境、規(guī)劃任務(wù)、執(zhí)行動(dòng)作,逐步完成任務(wù)。某種程度上說(shuō),這突破了大模型的常規(guī)能力邊界,更加注重其「工具」屬性。

很多大模型公司都在探索這一方向,錨定其為「下一個(gè) AI 前沿」?;诖笳Z(yǔ)言模型(GLM 系列模型)、多模態(tài)模型和工具使用(CogAgent 模型)等方面的探索,智譜已經(jīng)在由自主智能體(Agent)驅(qū)動(dòng)的人機(jī)交互新范式方面取得了一些階段性成果。

在智譜最新發(fā)布的 AutoGLM App 中,用戶可以憑借一句指令讓 AI 自動(dòng)完成許多任務(wù),比如閱讀網(wǎng)頁(yè)信息、電商產(chǎn)品購(gòu)買、點(diǎn)外賣、訂酒店、評(píng)論和點(diǎn)贊微信朋友圈等。目前,AutoGLM 已開(kāi)啟內(nèi)測(cè)(暫時(shí)僅支持 Android 系統(tǒng))。

在 AutoGLM App 發(fā)布之前,AutoGLM-Web 已經(jīng)通過(guò)「智譜清言」插件對(duì)外開(kāi)放使用。這是一個(gè)能模擬用戶訪問(wèn)網(wǎng)頁(yè)、點(diǎn)擊網(wǎng)頁(yè)的瀏覽器助手,可以根據(jù)用戶指令在私域網(wǎng)站上完成高級(jí)檢索并總結(jié)信息、模擬用戶看網(wǎng)頁(yè)的過(guò)程進(jìn)行批量、快速的瀏覽并總結(jié)多個(gè)網(wǎng)頁(yè),結(jié)合歷史郵件信息回復(fù)郵件。

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2018-03-22 09:21:06

機(jī)器人工作人類

2020-09-01 13:07:52

女人計(jì)算機(jī)編程

2024-10-30 14:50:00

系統(tǒng)語(yǔ)音模型

2015-02-09 09:52:41

GoogleGlass

2024-05-31 14:23:15

2024-01-23 10:35:09

ChatGPT人工智能

2023-02-22 14:55:04

人工智能寫作

2025-05-13 02:00:22

2025-02-28 12:32:42

2023-03-27 08:22:48

ChatGPT語(yǔ)言模型

2024-11-29 13:49:23

CogAgentGLM-PCAI

2019-02-28 14:08:33

安卓蘋果華為

2024-10-23 11:59:33

2024-02-02 21:42:41

2015-11-16 15:15:39

國(guó)產(chǎn)系統(tǒng)iOSAnroid

2025-04-07 09:31:00

LLMAI模型

2024-04-07 11:50:53

2019-09-10 13:48:12

NLP神經(jīng)網(wǎng)絡(luò)模型

2022-08-25 10:31:57

模型人工智能

2020-11-12 08:24:06

云計(jì)算公共云
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)