偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

超越OpenAI、拿下全球雙料第一,“AI吳彥祖”背后大模型SOTA了!

人工智能 新聞
如今,大模型趨勢(shì)來到應(yīng)用落地側(cè),MiniMax依舊堅(jiān)持原始性創(chuàng)新,不斷刷新領(lǐng)域內(nèi)新紀(jì)錄。

超越OpenAI!

國(guó)產(chǎn)大模型突襲,AI語音生成天花板被重新定義了。

MiniMax最新發(fā)布Speech-02,同時(shí)拿下Artificial Analysis Speech ArenaHugging Face TTS Arena兩項(xiàng)全球權(quán)威語音基準(zhǔn)測(cè)評(píng)第一!

而且還是榜單前十名中唯一的國(guó)產(chǎn)玩家。

要知道,這倆榜首長(zhǎng)期被OpenAI、ElevenLabs占據(jù),前者不用多介紹,公認(rèn)的AI領(lǐng)域全球NO.1梯隊(duì)成員,后者也是專精AI語音合成賽道的領(lǐng)軍玩家。

圖片

具體效果如何?一手實(shí)測(cè)在此:

用專業(yè)播音腔讀一讀量子位的文章?So easy~

直接根據(jù)文章內(nèi)容配上相應(yīng)的語氣和情緒,中英混雜輕松搞定,各種停頓和重音,完全就是頂級(jí)新聞播報(bào)員的感覺。

還能讓霉霉為我們讀論文。不僅是熟悉的美音,而且非常還原她個(gè)人特點(diǎn)。

如上效果,只需幾秒語音參考,即可讓大模型當(dāng)場(chǎng)完成超逼真復(fù)刻。

并且在提供SOTA級(jí)性能同時(shí),定價(jià)僅為ElevenLabs的一半甚至四分之一,性價(jià)比也稱得上“全球SOTA”了。

圖片

如此能力,不少人其實(shí)不知不覺體驗(yàn)到了。

比如前段時(shí)間大火的吳彥祖陪你學(xué)英語中的“AI阿祖”,底層能力正是來自MiniMax。

圖片

還有個(gè)人開發(fā)者打造的出圈案例——故宮AI向?qū)?,正是基?/span>MiniMax MCP Server,支持通過簡(jiǎn)單文本輸入,完成圖像、語音、視頻生成以及聲音克隆等多項(xiàng)能力。其中語音生成與克隆的能力,就是靠MiniMax Speech模型完成。

圖片

果然,MiniMax還是一如既往悶聲搞大事啊。

那么借著這次語音模型重磅更新,來扒一扒MiniMax是如何發(fā)起突襲的。

全球首個(gè)實(shí)現(xiàn)多樣化、個(gè)性定義的語音模型

總結(jié)來看,Speech-02兼顧了三方面亮點(diǎn):

  • 超擬人
  • 個(gè)性化
  • 多樣性

首先,在最關(guān)鍵的“超擬人”方面,Speech-02的還原度不說是100%,也幾乎是天衣無縫了。

比如這段脫口秀,無論是中文咬字還是英文發(fā)音,都非常完美。同時(shí)還帶有自然的情緒起伏、停頓和重音,給人以更豐富的聽覺感受。

其次在個(gè)性化方面,Speech-02現(xiàn)在已經(jīng)提供了豐富音色可供選擇。

細(xì)分維度包括語言、口音、性別和年齡。目前已經(jīng)支持32種語言。中英文這樣常用的選項(xiàng)里,還包含不同的口音。

圖片

同時(shí),它也支持對(duì)任意音色進(jìn)行復(fù)刻。

由于不局限于只學(xué)習(xí)精品音色,它具備極強(qiáng)泛化能力,最少只需聽10秒?yún)⒖紭颖?,即可完成?duì)一種說話人聲音的模仿。而且還支持對(duì)音色進(jìn)行進(jìn)一步細(xì)節(jié)調(diào)整。

聲音參考這一功能為例(這一功能在國(guó)內(nèi)僅對(duì)B端用戶開放),只需提供10-300秒聲音參考樣本,Speech-02就可以開始完成復(fù)刻。上傳文件or直接錄音都可以。也就是說,對(duì)著模型說幾句話,它就已經(jīng)能學(xué)會(huì)你的音色了。

圖片

它支持自動(dòng)剔除背景噪音,對(duì)上傳音頻的質(zhì)量要求不高。

比如生成霉霉音色時(shí),我們使用了她在紐約大學(xué)演講的片段,其中包含了掌聲、歡呼聲等噪音影響,但是對(duì)生成結(jié)果的影響很小。

此外還支持情緒等更細(xì)微的調(diào)整,能滿足專業(yè)領(lǐng)域人士的需求。

最后,在多樣性方面,Speech-02可以支持32種語言。

不僅支持不同語言之間無縫切換,而且在音色生成時(shí)就可以完成語種跨越。比如喂給它霉霉英文語音素材,讓它生成中文版音色。

生成的語音也支持多語言之間無縫切換,如下是英語、西班牙語之間切換。

由此幾方面優(yōu)勢(shì)結(jié)合,用Speech-02完成電影級(jí)配音,也不是問題了。

從數(shù)據(jù)維度看,Speech-02的表現(xiàn)也是全方位碾壓。

通過詞錯(cuò)誤率(WER)和說話者相似度(SIM)兩個(gè)維度,在Seed-TTS Test數(shù)據(jù)集上,Speech-02在零樣本克隆中實(shí)現(xiàn)了更低詞錯(cuò)誤率,one-shot下SIM得分與真實(shí)音頻(Ground Truth)相當(dāng),表明模型能夠有效提取和保留說話者音色特色。

圖片

在多語言評(píng)估上,Speech-02在包含24種語言的測(cè)試集上,它的WER表現(xiàn)與ElevenLabs Multilingual v2相當(dāng),在中文、粵語、泰語、越南語和日語等復(fù)雜語言中表現(xiàn)更好,甚至在英語上也完成了對(duì)ElevenLabs的全線超越。

在SIM方面,MiniMax-Speech在所有測(cè)試語言中均優(yōu)于ElevenLabs Multilingual v2,表明其說話者編碼器和合成流程在保留說話者身份方面更為有效。

圖片

A語音音頻直接克隆至B語言語音,MiniMax-Speech的zero-shot在所有測(cè)試語言中都實(shí)現(xiàn)了更低WER,發(fā)音準(zhǔn)確度最高。

圖片

創(chuàng)新性提出Flow-VAE,更好把握克隆細(xì)節(jié)

所以,Speech-02為啥這么強(qiáng)?

還得看技術(shù)細(xì)節(jié)。目前Speech-02論文已全面公開,還被很多海外AI博主關(guān)注到了。

圖片

圖片

圖片

從技術(shù)維度,Speech-02實(shí)現(xiàn)了只需極少樣本、甚至在沒有訓(xùn)練數(shù)據(jù)的情況下,僅通過參考音頻,就能生成與目標(biāo)說話人極為相似的音色,并且可以轉(zhuǎn)換成多種語種。

圖片

具體而言,它使用了基于自回歸Transformer的架構(gòu)。

大多數(shù)自回歸TTS在語音克隆中需要語音和對(duì)應(yīng)文字轉(zhuǎn)錄作為提示。提示語音和目標(biāo)語音在語義或語言上存在不匹配、解碼長(zhǎng)度限制等問題,往往會(huì)造成生成質(zhì)量欠佳。

為此,Speech-02引入了獨(dú)特的可學(xué)習(xí)說話者編碼器(Learnable Speaker Encoder),直接與TTS模型一起訓(xùn)練。輸入僅為一段參考音頻,輸出為一個(gè)固定大小的“聲音特征向量”。

核心解決了三方面問題:

1、無需參考文本即可通過語音提示實(shí)現(xiàn)零樣本語音克??;2、跨語言語音生成,它只關(guān)注聲音的特征而不關(guān)心語音內(nèi)容,因此即使參考音頻是英文,但是也可以使用該音色直接生成其他語言的語音;3、根據(jù)生成任務(wù)實(shí)際需求,提取出對(duì)音質(zhì)和相似度更有用的特征。

圖片

模型另一個(gè)重要?jiǎng)?chuàng)新在于引入了基于Flow-VAE的流匹配模型,進(jìn)一步提升了生成語音的音質(zhì)和說話人相似性。

VAE(Variational Autoencoder)用來學(xué)習(xí)語音的潛在特征表示(比如音色、韻律、情感等),它通常假設(shè)潛在空間服從標(biāo)準(zhǔn)正態(tài)分布,這可能會(huì)限制模型對(duì)復(fù)雜數(shù)據(jù)分布的建模能力。

由此引入Flow模型,通過一系列可逆轉(zhuǎn)換,將潛在空間映射到更復(fù)雜的分布,從而更準(zhǔn)確地捕捉數(shù)據(jù)中的復(fù)雜結(jié)構(gòu)和分布特性。

圖片

此外,研究團(tuán)隊(duì)還探索了模型的多種下游應(yīng)用。比如通過LoRA實(shí)現(xiàn)對(duì)合成語音情感更精細(xì)控制、文本驅(qū)動(dòng)音色生成以及專業(yè)語音克隆(通過微調(diào)參數(shù)為特定說話人生成更高保真度語音)。

為行業(yè)造AI語音引擎

不過,技術(shù)上領(lǐng)先還只是其一,在AI語音行業(yè)落地上,MiniMax也已悄悄領(lǐng)先。

落地案例多元、跨行業(yè)、全球化。與不同行業(yè)玩家共同開拓AI語音的應(yīng)用前景。具體包括:

  • 成熟場(chǎng)景:教育、有聲書等
  • 新鮮場(chǎng)景:AI伴讀、智能硬件、汽車智能座艙、3A游戲?qū)崟r(shí)交互等

比如在教育領(lǐng)域,MiniMax與高途共同探索出了24小時(shí)可定制化的AI語言陪練系統(tǒng)。

最近全網(wǎng)爆火的“吳彥祖教你學(xué)口語”中的“AI阿祖”,就是基于此實(shí)現(xiàn),通過對(duì)吳彥祖音色精品復(fù)刻,在高途推出的吳彥祖英語課中,AI阿祖可以24小時(shí)隨時(shí)在線陪練。

在智能座艙方面,MiniMax多個(gè)大模型已入駐極狐汽車,為用戶提供即時(shí)問答服務(wù)。

值得一提的是,作為大模型技術(shù)廠商,MiniMax還一直與不同行業(yè)玩家共創(chuàng),開拓AI應(yīng)用邊界、激發(fā)場(chǎng)景創(chuàng)新。

在一些前沿落地場(chǎng)景里,總能看到MiniMax。

比如大模型趨勢(shì)下爆火的AI玩具領(lǐng)域,MiniMax為熱度top1的躍然創(chuàng)新haivivi提供底層語音合成和文本模型能力。支持BubblePal能夠隨時(shí)靈活回答小朋友們的“十萬個(gè)為什么”。

圖片

基于MiniMax語音能力的「AI語音掛件」(售價(jià)399-449元),上線2個(gè)月銷量突破2萬臺(tái)。

AI教育硬件方面,MiniMax為聽力熊團(tuán)隊(duì)提供底層模型支持,專為青少年解決學(xué)習(xí)、生活中的各種問題,不局限于問題回答,還可以進(jìn)行適當(dāng)?shù)姆答伜颓楦斜磉_(dá),兼顧教育與陪伴場(chǎng)景。聽力熊AI聽說學(xué)習(xí)機(jī)T6已接入。

更為新鮮的,MiniMax與香港電視臺(tái)嘗試了使用語音模型的粵語能力做天氣預(yù)報(bào),進(jìn)一步開拓落地場(chǎng)景。

在海外也與Hedra合作,打造了可以定制化的數(shù)字角色分身。

可以明顯感知到,MiniMax不僅在商業(yè)價(jià)值已得到初步驗(yàn)證的領(lǐng)域積極落地,也重點(diǎn)關(guān)注了AI語音在更多新場(chǎng)景的應(yīng)用,推動(dòng)技術(shù)創(chuàng)新同時(shí)更為行業(yè)帶來新價(jià)值。

可以感知到,與MiniMax達(dá)成合作的行業(yè)玩家中,不乏領(lǐng)域內(nèi)領(lǐng)軍者,更有很多來自新興賽道。前者的落地價(jià)值已經(jīng)初步被驗(yàn)證,后者則蘊(yùn)藏著巨大潛力。

Always MiniMax,Why?

所以,為啥它們不約而同選擇MiniMax?

技術(shù)領(lǐng)先性是最首要的。MiniMax是AI領(lǐng)域頭部玩家,在大模型技術(shù)浪潮之前,已經(jīng)搶先布局自研多個(gè)模態(tài)的基礎(chǔ)模型,覆蓋文本、語音、視覺三大領(lǐng)域。

顯然在AI語音領(lǐng)域,MiniMax長(zhǎng)線布局,而且一直走在行業(yè)前沿。

而且,MiniMax還有天然的技術(shù)試煉場(chǎng)——星野、Talkie等。這意味著,MiniMax更懂實(shí)際落地、更懂如何將實(shí)驗(yàn)室中的前沿技術(shù)輸送到用戶面前。所以,MiniMax也是國(guó)內(nèi)最早用大模型架構(gòu)提供語音服務(wù)的公司。

這或許也是為何MiniMax始終低調(diào),但又一直被行業(yè)青睞。

而透過這次動(dòng)作,MiniMax的布局戰(zhàn)略,也呈現(xiàn)出更清晰的全貌——

布局全模態(tài),且紛紛拿下SOTA。

以最初的三大基礎(chǔ)模型為起點(diǎn),MiniMax在短短2年時(shí)間內(nèi)已經(jīng)完成了對(duì)全模態(tài)能力的完整布局。

文本方面,MiniMax打破了傳統(tǒng)Transformer架構(gòu)限制,首次大規(guī)模實(shí)現(xiàn)了線性注意力機(jī)制,這種架構(gòu)創(chuàng)新極大地提升了模型的計(jì)算效率,降低了成本,尤其在處理超長(zhǎng)文本場(chǎng)景中,展現(xiàn)出顯著的可擴(kuò)展性。這也是對(duì)Agent時(shí)代進(jìn)行搶先押注,從中也足見MiniMax領(lǐng)先于行業(yè)的技術(shù)。

就在年初,MiniMax還完成了MiniMax-01系列開源,包含兩個(gè)模型,基礎(chǔ)語言大模型 MiniMax-Text-01 和視覺多模態(tài)大模型 MiniMax-VL-01,為開源社區(qū)提供優(yōu)質(zhì)選擇。

語音方面,隨著Speech-02發(fā)布,MiniMax在AI語音領(lǐng)域的領(lǐng)先地位更加不可動(dòng)搖。

視頻方面,海螺AI已經(jīng)是全球最大的生成式AI視頻平臺(tái),它為用戶提供了高度自由的創(chuàng)作控制能力,用戶可以通過簡(jiǎn)單的輸入(如一張圖片或一段文字)生成視頻,并且能夠像專業(yè)導(dǎo)演一樣自由掌控鏡頭語言。

圖片

如今,大模型趨勢(shì)來到應(yīng)用落地側(cè),MiniMax依舊堅(jiān)持原始性創(chuàng)新,不斷刷新領(lǐng)域內(nèi)新紀(jì)錄。

底層技術(shù)是AI廠商的源頭優(yōu)勢(shì),是長(zhǎng)期估值的壓艙石,也是唯一不可被快速復(fù)制的壁壘。

而在落地方面,MiniMax低調(diào)推進(jìn),與不同行業(yè)合作。一些AI落地爆款背后,總能看到MiniMax的身影。這既是技術(shù)領(lǐng)先的進(jìn)一步驗(yàn)證,也是其落地能力的直接證明。

可以看到,隨著大模型發(fā)展駛?cè)搿吧钏畢^(qū)”,更關(guān)鍵在于,誰能構(gòu)建起“模型即產(chǎn)品”機(jī)制,不斷將AI技術(shù)從一線實(shí)驗(yàn)室向千行百業(yè)輸送。

在這之中,布局全、壁壘深、落地廣的玩家,更值得被關(guān)注。

MiniMax已經(jīng)為行業(yè)打了個(gè)樣,不是嗎?

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2012-05-22 10:32:56

ChromeIE

2024-06-13 17:34:52

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2024-02-19 08:35:00

2024-11-11 17:35:11

2023-03-06 16:12:59

ChatGPT人工智能

2025-04-27 08:30:00

2024-04-11 07:10:59

大語言模型AI人工智能

2023-07-04 15:58:11

ChatGPT人工智能

2024-05-10 12:58:08

2024-12-25 15:36:44

Sakana AI大模型ASAL

2025-02-21 09:37:00

2023-05-16 12:11:22

2025-03-05 10:21:04

DeepSeekLVLM

2021-07-28 11:54:09

阿里云AI自然語言理解

2023-12-12 13:16:00

模型訓(xùn)練

2024-11-04 08:47:00

2025-01-03 15:39:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)