偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

超越OpenAI、ElevenLabs,MiniMax新一代語音模型屠榜!人格化語音時代來了

人工智能 新聞
我們看到,其全新一代 TTS 語音大模型「Speech-02」在國際權(quán)威語音評測榜單 Artificial Analysis 上強勢登頂,一舉擊敗了 OpenAI、ElevenLabs 兩大行業(yè)巨頭!

國產(chǎn)大模型進(jìn)步的速度早已大大超出了人們的預(yù)期。年初 DeepSeek-R1 爆火,以超低的成本實現(xiàn)了部分超越 OpenAI o1 的表現(xiàn),一定程度上讓人不再過度「迷信」國外大模型。

如今,在語音 AI 領(lǐng)域,國產(chǎn)大模型第一梯隊的重量級選手 MiniMax 又拋下了一顆「重磅炸彈」。

我們看到,其全新一代 TTS 語音大模型「Speech-02」在國際權(quán)威語音評測榜單 Artificial Analysis 上強勢登頂,一舉擊敗了 OpenAI、ElevenLabs 兩大行業(yè)巨頭!

其中,在字錯率(WER,越低越好)和說話人相似度(SIM,越高越好)等關(guān)鍵語音克隆指標(biāo)上均取得 SOTA 結(jié)果。

圖片

圖源:Artificial Analysis Speech Arena Leaderboard

這項成績直接震驚國外網(wǎng)友,他們紛紛表示:「MiniMax 將成為音頻領(lǐng)域的破局者?!?/span>

圖片


圖片

知名博主 AK 也轉(zhuǎn)推了這個新語音模型:

圖片

性能更強之外,Speech-02 還極具性價比,成本僅為 ElevenLabs 競品模型(multilingual_v2)的 1/4。

圖片

Speech-02 的登頂,再次展現(xiàn)出了國產(chǎn)大模型超越國外頂級競爭對手的技術(shù)實力與底蘊。

那么,Speech-02 究竟有哪些魔力才取得了這樣亮眼的成績。隨著本周技術(shù)報告的公布,我們對模型背后的技術(shù)展開了一番深挖。

屠榜背后

MiniMax 做了哪些技術(shù)創(chuàng)新?

當(dāng)前,主流的文本轉(zhuǎn)語音(TTS)模型在建模策略上主要分為兩類,即自回歸( AR)語言模型和非自回歸(NAR)擴散模型,兩者在建模難度、推理速度、合成質(zhì)量等方面各有其優(yōu)劣勢。

其中,非自回歸模型有點類似于批量生產(chǎn),生成速度很快,就像一家快餐店出餐快但口味普通,生成的語音不夠生動、逼真。

自回歸模型可以生成韻律、語調(diào)和整體自然度等多個方面更好的語音。不過,這類模型在語音克隆過程中需要參考語音和轉(zhuǎn)錄文本作為提示詞,就像高級餐廳味道好但需要顧客提供詳細(xì)食譜才能復(fù)刻菜品一樣。這種單樣本(one-shot)學(xué)習(xí)范式往往導(dǎo)致生成質(zhì)量不佳。

作為一個采用自回歸 Transformer 架構(gòu)的 TTS 模型,Speech-02 的強大源于兩大技術(shù)上的創(chuàng)新:

一是實現(xiàn)了真正意義上的零樣本(zero-shot)語音克隆。所謂零樣本,就是給定一段參考語音,無需提供文本,模型很快就可以生成高度相似的目標(biāo)語音。

二是全新的 Flow-VAE 架構(gòu),既增強了語音生成過程中的信息表征能力,又進(jìn)一步提升了合成語音的整體質(zhì)量和相似度。

零樣本語音克隆

首先,Speech-02 引入了一個可學(xué)習(xí)的 speaker 編碼器,該編碼器會專門學(xué)習(xí)對合成語音最有用的聲音特征,比如更關(guān)注說話人的獨特發(fā)音習(xí)慣,而不是無關(guān)的背景噪音。

正是在此模式下,Speech-02 只需要聽一段目標(biāo)說話人的聲音片段(幾秒即可),就能模仿出這個人的音色、語調(diào)、節(jié)奏等特征,不會有機器人念稿的那種割裂感。而且整個過程是零樣本的,不需要額外訓(xùn)練或調(diào)整。

這就為語音合成技術(shù)節(jié)省了大量寶貴時間,我們不難發(fā)現(xiàn),傳統(tǒng)方法需要大量數(shù)據(jù),比如先錄制 1 小時的聲音。此外,數(shù)據(jù)的多樣性也是一個問題,模型需要能夠處理不同國家、年齡、性別等說話人信息。而 Speech-02 完全克服了這些挑戰(zhàn),直接聽音學(xué)樣,且一聽就是你。

此外,MiniMax 還提出了可選增強功能,即單樣本語音克隆。在此設(shè)置下,需要提供一個文本 - 音頻配對樣本作為上下文提示,從而指導(dǎo)語音合成。

圖片

Flow-VAE 架構(gòu)

MiniMax 還提出了用于生成連續(xù)語音特征的關(guān)鍵組件,即基于 Flow-VAE 架構(gòu)的流匹配模型。從而進(jìn)一步提升了音頻質(zhì)量,使得生成的音頻更加接近真人。

在 Speech-02 中,流匹配模型旨在模擬連續(xù)語音特征(潛在)的分布,這些特征是從音頻訓(xùn)練的編碼器 - 解碼器模塊架構(gòu)中提取的,而不是梅爾頻譜圖。

通常來講,傳統(tǒng)的 VAE 假設(shè)其潛在空間服從簡單的標(biāo)準(zhǔn)高斯分布,相比之下,F(xiàn)low-VAE 引入了一個流模型,該模型可以靈活地使用一系列可逆映射來變換潛在空間,從而更準(zhǔn)確地捕捉數(shù)據(jù)中的復(fù)雜模式。

更進(jìn)一步,MiniMax 還搞了個雙保險設(shè)計,即將全局音色信息和提示信息結(jié)合起來。具體而言,Speaker 編碼器會從聲音中提取全局音色特征 —— 就像提取一個人的「聲音 DNA」。訓(xùn)練時,當(dāng)前句子開頭的信息會以一定的概率被用作提示。因此在推理階段,模型支持零樣本和單樣本合成模式。

圖片

可以說,經(jīng)過一系列操作,Speech-02 不僅可以模仿聲音的「形」,還能復(fù)現(xiàn)聲音的「神」。

正是基于這些強有力的技術(shù)支撐,才使得 Speech-02 一舉超越 OpenAI、ElevenLabs 等競品模型。

文生音色

現(xiàn)有的 TTS 方法生成所需音色的語音需要提供該特定音色的參考音頻樣本,這一要求可能會限制其操作靈活性。

相比之下,MiniMax引入了一個 T2V 框架,該框架獨特地將開放式自然語言描述與結(jié)構(gòu)化標(biāo)簽信息相結(jié)合。作為參考音頻驅(qū)動的speaker編碼器(擅長克隆現(xiàn)有語音)的補充,該方法促進(jìn)了高度靈活且可控的音色生成,從而顯著增強了 TTS 系統(tǒng)的多功能性。

這里,我們聽個Demo,聲音描述:說中文的女青年,音色偏甜美,語速比較快,說話時帶著一種輕快的感覺整體音調(diào)較高,像是在直播帶貨,整體氛圍比較活躍,聲音清晰,聽起來很有親和力。

親愛的寶寶們,等了好久的神仙面霜終于到貨啦!你們看這個包裝是不是超級精致?我自己已經(jīng)用了一個月了,效果真的絕絕子!而且這次活動價真的太劃算了,錯過真的會后悔的哦~

多指標(biāo)趕超競品模型

語音克隆保真度、多語言與跨語言語音合成等多個關(guān)鍵維度的綜合評估結(jié)果,有力驗證了 Speech-02 的「含金量」。

首先來看語音克隆保真度指標(biāo),從下表可以看到,與 Seed-TTS、CosyVoice 2 和真實音頻相比,Speech-02 在中英文的零樣本語音克隆中均實現(xiàn)了更低的 WER,表明其發(fā)音錯誤率更低且更清晰穩(wěn)定。

此外,零樣本語音克隆的 WER 表現(xiàn)也顯著優(yōu)于單樣本。并且根據(jù)聽眾的主觀評價反饋,零樣本克隆合成的語音聽起來更自然、真實。

圖片

在多語言方面,Speech-02著重與ElevenLabs的multilingual_v2模型進(jìn)行對比,兩者均采用零樣本克隆來生成語音。

在 WER 方面,Speech-02與multilingual_v2表現(xiàn)相當(dāng)。在中文、粵語、泰語、越南語、日語等幾種語言上,multilingual_v2的WER均超過了10%,而 Speech-02 的表現(xiàn)明顯更優(yōu)。這意味著,在捕捉并復(fù)現(xiàn)這些具有復(fù)雜聲調(diào)系統(tǒng)或豐富音素庫的語言時,multilingual_v2 處于絕對劣勢。

在 SIM 方面,Speech-02 在所有 24 種測試語言中均顯著優(yōu)于 multilingual_v2,無論目標(biāo)語言的音系特征如何,前者生成的克隆語音更接近真人原始聲音。

圖片

在跨語言方面,下表多語言測試結(jié)果展示了零樣本語音克隆下更低的 WER,證明 Speech-02 引入的 speaker 編碼器架構(gòu)的優(yōu)越性,可以做到「一個語音音色」支持其他更多目標(biāo)語言并且理解起來也較容易。

圖片

更多技術(shù)與實驗的細(xì)節(jié),大家可以參閱原技術(shù)報告。

技術(shù)報告地址:https://minimax-ai.github.io/tts_tech_report/

實戰(zhàn)效果如何?

我們上手進(jìn)行了一些實測,發(fā)現(xiàn)可以用三個關(guān)鍵詞來總結(jié) Speech-02 的亮點 —— 超擬人、個性化、多樣性,在這些層面迎來脫胎換骨的升級。

第一,超擬人。 

Speech-02 預(yù)置了極其豐富(數(shù)以百計)的多語言聲音庫,每一個都有其獨特的音色和情感語調(diào)。

圖片

從合成音效來看,Speech-02 的相似度和表現(xiàn)力非常出色,情緒表達(dá)到位,音色、口音、停頓、韻律等也與真人無異。錯誤率上比真人更低,也更穩(wěn)定。

我們用柔和低語的女聲來朗誦莎士比亞《哈姆雷特》中的經(jīng)典獨白 ——To be, or not to be 片段,是不是很催眠呢?

第二,個性化。

核心是「聲音參考」(Voice Clone)功能,只需提供一段示范音頻或者直接對著模型說幾句話,模型就可以學(xué)會這種聲音,并用這個聲音來演繹內(nèi)容。目前該功能只在海外網(wǎng)頁版上線,國內(nèi)僅對 B 端用戶開放。

從行業(yè)來看,其他頭部語音模型只能提供少數(shù)幾個精品音色的控制。而 Speech-02 通過聲音參考功能可以靈活控制任意給定聲音,提供了更多選擇和更大自由度。

小編試著錄制了一段自己的聲音,十幾秒后就得到了專屬的 AI 克隆語音。

接著上傳了蘇軾的名篇《江城子?乙卯正月二十日夜記夢》,這是一首他寫給已故妻子的悼亡詞。由于 Speech-02 可以對音色進(jìn)一步進(jìn)行情緒控制,這里選擇了悲傷「sad」,并調(diào)慢了語速。

圖片

除了悲傷之外,Speech-02 還有快樂、生氣、恐懼、厭惡、驚訝、中立其他情緒可選。

最終的效果是這樣的,節(jié)奏舒緩、情感也比較充沛:

總結(jié)一波,Speech-02 的「個性化」有以下三點關(guān)鍵影響:

  • 促成了業(yè)內(nèi)首個實現(xiàn)「任意音色、靈活控制」的模型;
  • 讓每一個音色都能有好的自然度和情感表現(xiàn)力;
  • 用戶就是導(dǎo)演,音色就是演員。用戶可以根據(jù)自己想要的效果用文字來指導(dǎo)演員表演。

第三,多樣性。

Speech-02 支持 32 種語言,并尤為擅長中英、粵語、葡萄牙語、法語等語種。

下面來聽一段融合了中文、英語和日語的長段落,讀起來一氣呵成:

昨天我去參加了一個國際會議,遇到了很多 interesting people from all around the world. 有一位日本代表和我分享了他們的新技術(shù),他說「私たちの新しい技術(shù)は市場を変革するでしょう」,這確實令人印象深刻。之后我們?nèi)チ烁浇牟蛷d,服務(wù)員問我們 '?Qué les gustaría ordenar para cenar?',我只好笑著用英語回答 'Sorry, I don't speak Spanish, but I'd love to try your signature dish'。

這種跨文化交流的體驗 really makes you appreciate the diversity of our world,不是嗎?下次我一定要多學(xué)習(xí)幾句常用的外語 phrases,這樣交流起來會更加 smooth and natural.

對于同一段音頻,Speech-02 也可以輕松切換不同語言。我們將上面蘇軾的《江城子》切換成了粵語:

隨著高質(zhì)量、多維度語音能力的極致釋放,Speech-02 一躍成為了「全球首個真正實現(xiàn)多樣化、個性化定義的語音模型」。

這將進(jìn)一步推動語音 AI 走向千人千面的智能交互體驗,為 MiniMax 在「AI 人格化」的技術(shù)與應(yīng)用浪潮中搶占先機。

體驗地址:https://www.minimax.io/audio/text-to-speech

技術(shù)領(lǐng)先只是第一步

能落地才能發(fā)揮價值

作為一家成立于 2021 年的大模型廠商,MiniMax 從創(chuàng)立之初即聚焦面向 C 端和 B 端的 AI 產(chǎn)品,強調(diào)「模型即產(chǎn)品」理念,其文本模型、語音模型與視頻模型已經(jīng)形成了一條完整的產(chǎn)品鏈,比如海螺 AI。

在語音大模型領(lǐng)域,MiniMax 在深耕底層技術(shù)的同時,持續(xù)探索語音助手、聲聊唱聊、配音等不同場景的落地方案,推動智能語音內(nèi)容創(chuàng)作向更高效、更個性化、更情感化演進(jìn);同時接入 MiniMax 語音大模型的 AI 硬件逐漸增多,并擴展到兒童玩具、教育學(xué)習(xí)機、汽車智能座艙、機器人等賽道,加速商業(yè)化進(jìn)程。

MiniMax 正依托其語音大模型,聯(lián)合行業(yè)上下游構(gòu)建更豐富、更垂直的智能交互生態(tài)。過程中也向外界透露出這樣一種跡象:語音大模型技術(shù)正迎來從技術(shù)成熟走向規(guī)模應(yīng)用的關(guān)鍵拐點。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2012-05-29 09:23:42

虛擬化微軟私有云

2012-03-07 14:56:54

新一代語音云發(fā)布暨語音

2012-03-05 10:01:39

科大訊飛

2018-06-07 10:34:22

開源DFSMN語音識別

2013-09-24 10:38:23

2012-03-23 15:37:39

2015-05-12 10:26:50

2025-04-09 11:01:19

2022-02-07 23:03:07

Python工具管理庫

2021-05-31 09:40:59

華為MatePad Pro鴻蒙系統(tǒng)

2015-06-30 10:00:44

Hyper虛擬化云計算

2025-08-29 14:38:42

AI語音生成模型

2024-12-12 08:18:50

2024-06-26 17:54:13

2015-11-26 15:33:36

AMD處理器Radeon Crim

2024-03-12 07:24:26

DingoDB數(shù)據(jù)庫數(shù)據(jù)的存儲

2022-03-10 16:01:29

Playwright開源

2012-07-02 10:36:19

菲亞特

2023-01-30 17:14:40

人工智能語音識別

2016-09-29 15:13:34

以太網(wǎng)網(wǎng)絡(luò)速度
點贊
收藏

51CTO技術(shù)棧公眾號