偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

^{<sub id="u9odz"></sub>}

<blockquote id="u9odz"></blockquote>

<legend id="u9odz"><track id="u9odz"></track></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

超越OpenAI、拿下全球雙料第一，“AI吳彥祖”背后大模型SOTA了！

2025-05-16 10:15:06

人工智能新聞

如今，大模型趨勢(shì)來到應(yīng)用落地側(cè)，MiniMax依舊堅(jiān)持原始性創(chuàng)新，不斷刷新領(lǐng)域內(nèi)新紀(jì)錄。

超越OpenAI！

國(guó)產(chǎn)大模型突襲，AI語(yǔ)音生成天花板被重新定義了。

MiniMax最新發(fā)布Speech-02，同時(shí)拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena兩項(xiàng)全球權(quán)威語(yǔ)音基準(zhǔn)測(cè)評(píng)第一！

而且還是榜單前十名中唯一的國(guó)產(chǎn)玩家。

要知道，這倆榜首長(zhǎng)期被OpenAI、ElevenLabs占據(jù)，前者不用多介紹，公認(rèn)的AI領(lǐng)域全球NO.1梯隊(duì)成員，后者也是專精AI語(yǔ)音合成賽道的領(lǐng)軍玩家。

具體效果如何？一手實(shí)測(cè)在此：

用專業(yè)播音腔讀一讀量子位的文章？So easy~

直接根據(jù)文章內(nèi)容配上相應(yīng)的語(yǔ)氣和情緒，中英混雜輕松搞定，各種停頓和重音，完全就是頂級(jí)新聞播報(bào)員的感覺。

還能讓霉霉為我們讀論文。不僅是熟悉的美音，而且非常還原她個(gè)人特點(diǎn)。

如上效果，只需幾秒語(yǔ)音參考，即可讓大模型當(dāng)場(chǎng)完成超逼真復(fù)刻。

并且在提供SOTA級(jí)性能同時(shí)，定價(jià)僅為ElevenLabs的一半甚至四分之一，性價(jià)比也稱得上“全球SOTA”了。

如此能力，不少人其實(shí)不知不覺體驗(yàn)到了。

比如前段時(shí)間大火的吳彥祖陪你學(xué)英語(yǔ)中的“AI阿祖”，底層能力正是來自MiniMax。

還有個(gè)人開發(fā)者打造的出圈案例——故宮AI向?qū)В腔?/span>MiniMax MCP Server，支持通過簡(jiǎn)單文本輸入，完成圖像、語(yǔ)音、視頻生成以及聲音克隆等多項(xiàng)能力。其中語(yǔ)音生成與克隆的能力，就是靠MiniMax Speech模型完成。

果然，MiniMax還是一如既往悶聲搞大事啊。

那么借著這次語(yǔ)音模型重磅更新，來扒一扒MiniMax是如何發(fā)起突襲的。

全球首個(gè)實(shí)現(xiàn)多樣化、個(gè)性定義的語(yǔ)音模型

總結(jié)來看，Speech-02兼顧了三方面亮點(diǎn)：

超擬人
個(gè)性化
多樣性

首先，在最關(guān)鍵的“超擬人”方面，Speech-02的還原度不說是100%，也幾乎是天衣無(wú)縫了。

比如這段脫口秀，無(wú)論是中文咬字還是英文發(fā)音，都非常完美。同時(shí)還帶有自然的情緒起伏、停頓和重音，給人以更豐富的聽覺感受。

其次在個(gè)性化方面，Speech-02現(xiàn)在已經(jīng)提供了豐富音色可供選擇。

細(xì)分維度包括語(yǔ)言、口音、性別和年齡。目前已經(jīng)支持32種語(yǔ)言。中英文這樣常用的選項(xiàng)里，還包含不同的口音。

同時(shí)，它也支持對(duì)任意音色進(jìn)行復(fù)刻。

由于不局限于只學(xué)習(xí)精品音色，它具備極強(qiáng)泛化能力，最少只需聽10秒?yún)⒖紭颖?，即可完成?duì)一種說話人聲音的模仿。而且還支持對(duì)音色進(jìn)行進(jìn)一步細(xì)節(jié)調(diào)整。

以聲音參考這一功能為例（這一功能在國(guó)內(nèi)僅對(duì)B端用戶開放），只需提供10-300秒聲音參考樣本，Speech-02就可以開始完成復(fù)刻。上傳文件or直接錄音都可以。也就是說，對(duì)著模型說幾句話，它就已經(jīng)能學(xué)會(huì)你的音色了。

它支持自動(dòng)剔除背景噪音，對(duì)上傳音頻的質(zhì)量要求不高。

比如生成霉霉音色時(shí)，我們使用了她在紐約大學(xué)演講的片段，其中包含了掌聲、歡呼聲等噪音影響，但是對(duì)生成結(jié)果的影響很小。

此外還支持情緒等更細(xì)微的調(diào)整，能滿足專業(yè)領(lǐng)域人士的需求。

最后，在多樣性方面，Speech-02可以支持32種語(yǔ)言。

不僅支持不同語(yǔ)言之間無(wú)縫切換，而且在音色生成時(shí)就可以完成語(yǔ)種跨越。比如喂給它霉霉英文語(yǔ)音素材，讓它生成中文版音色。

生成的語(yǔ)音也支持多語(yǔ)言之間無(wú)縫切換，如下是英語(yǔ)、西班牙語(yǔ)之間切換。

由此幾方面優(yōu)勢(shì)結(jié)合，用Speech-02完成電影級(jí)配音，也不是問題了。

從數(shù)據(jù)維度看，Speech-02的表現(xiàn)也是全方位碾壓。

通過詞錯(cuò)誤率（WER）和說話者相似度（SIM）兩個(gè)維度，在Seed-TTS Test數(shù)據(jù)集上，Speech-02在零樣本克隆中實(shí)現(xiàn)了更低詞錯(cuò)誤率，one-shot下SIM得分與真實(shí)音頻（Ground Truth）相當(dāng)，表明模型能夠有效提取和保留說話者音色特色。

在多語(yǔ)言評(píng)估上，Speech-02在包含24種語(yǔ)言的測(cè)試集上，它的WER表現(xiàn)與ElevenLabs Multilingual v2相當(dāng)，在中文、粵語(yǔ)、泰語(yǔ)、越南語(yǔ)和日語(yǔ)等復(fù)雜語(yǔ)言中表現(xiàn)更好，甚至在英語(yǔ)上也完成了對(duì)ElevenLabs的全線超越。

在SIM方面，MiniMax-Speech在所有測(cè)試語(yǔ)言中均優(yōu)于ElevenLabs Multilingual v2，表明其說話者編碼器和合成流程在保留說話者身份方面更為有效。

A語(yǔ)音音頻直接克隆至B語(yǔ)言語(yǔ)音，MiniMax-Speech的zero-shot在所有測(cè)試語(yǔ)言中都實(shí)現(xiàn)了更低WER，發(fā)音準(zhǔn)確度最高。

創(chuàng)新性提出Flow-VAE，更好把握克隆細(xì)節(jié)

所以，Speech-02為啥這么強(qiáng)？

還得看技術(shù)細(xì)節(jié)。目前Speech-02論文已全面公開，還被很多海外AI博主關(guān)注到了。

從技術(shù)維度，Speech-02實(shí)現(xiàn)了只需極少樣本、甚至在沒有訓(xùn)練數(shù)據(jù)的情況下，僅通過參考音頻，就能生成與目標(biāo)說話人極為相似的音色，并且可以轉(zhuǎn)換成多種語(yǔ)種。

具體而言，它使用了基于自回歸Transformer的架構(gòu)。

大多數(shù)自回歸TTS在語(yǔ)音克隆中需要語(yǔ)音和對(duì)應(yīng)文字轉(zhuǎn)錄作為提示。提示語(yǔ)音和目標(biāo)語(yǔ)音在語(yǔ)義或語(yǔ)言上存在不匹配、解碼長(zhǎng)度限制等問題，往往會(huì)造成生成質(zhì)量欠佳。

為此，Speech-02引入了獨(dú)特的可學(xué)習(xí)說話者編碼器（Learnable Speaker Encoder），直接與TTS模型一起訓(xùn)練。輸入僅為一段參考音頻，輸出為一個(gè)固定大小的“聲音特征向量”。

核心解決了三方面問題：

1、無(wú)需參考文本即可通過語(yǔ)音提示實(shí)現(xiàn)零樣本語(yǔ)音克隆；2、跨語(yǔ)言語(yǔ)音生成，它只關(guān)注聲音的特征而不關(guān)心語(yǔ)音內(nèi)容，因此即使參考音頻是英文，但是也可以使用該音色直接生成其他語(yǔ)言的語(yǔ)音；3、根據(jù)生成任務(wù)實(shí)際需求，提取出對(duì)音質(zhì)和相似度更有用的特征。

模型另一個(gè)重要?jiǎng)?chuàng)新在于引入了基于Flow-VAE的流匹配模型，進(jìn)一步提升了生成語(yǔ)音的音質(zhì)和說話人相似性。

VAE（Variational Autoencoder）用來學(xué)習(xí)語(yǔ)音的潛在特征表示（比如音色、韻律、情感等），它通常假設(shè)潛在空間服從標(biāo)準(zhǔn)正態(tài)分布，這可能會(huì)限制模型對(duì)復(fù)雜數(shù)據(jù)分布的建模能力。

由此引入Flow模型，通過一系列可逆轉(zhuǎn)換，將潛在空間映射到更復(fù)雜的分布，從而更準(zhǔn)確地捕捉數(shù)據(jù)中的復(fù)雜結(jié)構(gòu)和分布特性。

此外，研究團(tuán)隊(duì)還探索了模型的多種下游應(yīng)用。比如通過LoRA實(shí)現(xiàn)對(duì)合成語(yǔ)音情感更精細(xì)控制、文本驅(qū)動(dòng)音色生成以及專業(yè)語(yǔ)音克?。ㄍㄟ^微調(diào)參數(shù)為特定說話人生成更高保真度語(yǔ)音）。

為行業(yè)造AI語(yǔ)音引擎

不過，技術(shù)上領(lǐng)先還只是其一，在AI語(yǔ)音行業(yè)落地上，MiniMax也已悄悄領(lǐng)先。

落地案例多元、跨行業(yè)、全球化。與不同行業(yè)玩家共同開拓AI語(yǔ)音的應(yīng)用前景。具體包括：

成熟場(chǎng)景：教育、有聲書等
新鮮場(chǎng)景：AI伴讀、智能硬件、汽車智能座艙、3A游戲?qū)崟r(shí)交互等

比如在教育領(lǐng)域，MiniMax與高途共同探索出了24小時(shí)可定制化的AI語(yǔ)言陪練系統(tǒng)。

最近全網(wǎng)爆火的“吳彥祖教你學(xué)口語(yǔ)”中的“AI阿祖”，就是基于此實(shí)現(xiàn)，通過對(duì)吳彥祖音色精品復(fù)刻，在高途推出的吳彥祖英語(yǔ)課中，AI阿祖可以24小時(shí)隨時(shí)在線陪練。

在智能座艙方面，MiniMax多個(gè)大模型已入駐極狐汽車，為用戶提供即時(shí)問答服務(wù)。

值得一提的是，作為大模型技術(shù)廠商，MiniMax還一直與不同行業(yè)玩家共創(chuàng)，開拓AI應(yīng)用邊界、激發(fā)場(chǎng)景創(chuàng)新。

在一些前沿落地場(chǎng)景里，總能看到MiniMax。

比如大模型趨勢(shì)下爆火的AI玩具領(lǐng)域，MiniMax為熱度top1的躍然創(chuàng)新haivivi提供底層語(yǔ)音合成和文本模型能力。支持BubblePal能夠隨時(shí)靈活回答小朋友們的“十萬(wàn)個(gè)為什么”。

基于MiniMax語(yǔ)音能力的「AI語(yǔ)音掛件」（售價(jià)399-449元），上線2個(gè)月銷量突破2萬(wàn)臺(tái)。

AI教育硬件方面，MiniMax為聽力熊團(tuán)隊(duì)提供底層模型支持，專為青少年解決學(xué)習(xí)、生活中的各種問題，不局限于問題回答，還可以進(jìn)行適當(dāng)?shù)姆答伜颓楦斜磉_(dá)，兼顧教育與陪伴場(chǎng)景。聽力熊AI聽說學(xué)習(xí)機(jī)T6已接入。

更為新鮮的，MiniMax與香港電視臺(tái)嘗試了使用語(yǔ)音模型的粵語(yǔ)能力做天氣預(yù)報(bào)，進(jìn)一步開拓落地場(chǎng)景。

在海外也與Hedra合作，打造了可以定制化的數(shù)字角色分身。

可以明顯感知到，MiniMax不僅在商業(yè)價(jià)值已得到初步驗(yàn)證的領(lǐng)域積極落地，也重點(diǎn)關(guān)注了AI語(yǔ)音在更多新場(chǎng)景的應(yīng)用，推動(dòng)技術(shù)創(chuàng)新同時(shí)更為行業(yè)帶來新價(jià)值。

可以感知到，與MiniMax達(dá)成合作的行業(yè)玩家中，不乏領(lǐng)域內(nèi)領(lǐng)軍者，更有很多來自新興賽道。前者的落地價(jià)值已經(jīng)初步被驗(yàn)證，后者則蘊(yùn)藏著巨大潛力。

Always MiniMax，Why？

所以，為啥它們不約而同選擇MiniMax？

技術(shù)領(lǐng)先性是最首要的。MiniMax是AI領(lǐng)域頭部玩家，在大模型技術(shù)浪潮之前，已經(jīng)搶先布局自研多個(gè)模態(tài)的基礎(chǔ)模型，覆蓋文本、語(yǔ)音、視覺三大領(lǐng)域。

顯然在AI語(yǔ)音領(lǐng)域，MiniMax長(zhǎng)線布局，而且一直走在行業(yè)前沿。

而且，MiniMax還有天然的技術(shù)試煉場(chǎng)——星野、Talkie等。這意味著，MiniMax更懂實(shí)際落地、更懂如何將實(shí)驗(yàn)室中的前沿技術(shù)輸送到用戶面前。所以，MiniMax也是國(guó)內(nèi)最早用大模型架構(gòu)提供語(yǔ)音服務(wù)的公司。

這或許也是為何MiniMax始終低調(diào)，但又一直被行業(yè)青睞。

而透過這次動(dòng)作，MiniMax的布局戰(zhàn)略，也呈現(xiàn)出更清晰的全貌——

布局全模態(tài)，且紛紛拿下SOTA。

以最初的三大基礎(chǔ)模型為起點(diǎn)，MiniMax在短短2年時(shí)間內(nèi)已經(jīng)完成了對(duì)全模態(tài)能力的完整布局。

文本方面，MiniMax打破了傳統(tǒng)Transformer架構(gòu)限制，首次大規(guī)模實(shí)現(xiàn)了線性注意力機(jī)制，這種架構(gòu)創(chuàng)新極大地提升了模型的計(jì)算效率，降低了成本，尤其在處理超長(zhǎng)文本場(chǎng)景中，展現(xiàn)出顯著的可擴(kuò)展性。這也是對(duì)Agent時(shí)代進(jìn)行搶先押注，從中也足見MiniMax領(lǐng)先于行業(yè)的技術(shù)。

就在年初，MiniMax還完成了MiniMax-01系列開源，包含兩個(gè)模型，基礎(chǔ)語(yǔ)言大模型 MiniMax-Text-01 和視覺多模態(tài)大模型 MiniMax-VL-01，為開源社區(qū)提供優(yōu)質(zhì)選擇。

語(yǔ)音方面，隨著Speech-02發(fā)布，MiniMax在AI語(yǔ)音領(lǐng)域的領(lǐng)先地位更加不可動(dòng)搖。

視頻方面，海螺AI已經(jīng)是全球最大的生成式AI視頻平臺(tái)，它為用戶提供了高度自由的創(chuàng)作控制能力，用戶可以通過簡(jiǎn)單的輸入（如一張圖片或一段文字）生成視頻，并且能夠像專業(yè)導(dǎo)演一樣自由掌控鏡頭語(yǔ)言。

如今，大模型趨勢(shì)來到應(yīng)用落地側(cè)，MiniMax依舊堅(jiān)持原始性創(chuàng)新，不斷刷新領(lǐng)域內(nèi)新紀(jì)錄。

底層技術(shù)是AI廠商的源頭優(yōu)勢(shì)，是長(zhǎng)期估值的壓艙石，也是唯一不可被快速?gòu)?fù)制的壁壘。

而在落地方面，MiniMax低調(diào)推進(jìn)，與不同行業(yè)合作。一些AI落地爆款背后，總能看到MiniMax的身影。這既是技術(shù)領(lǐng)先的進(jìn)一步驗(yàn)證，也是其落地能力的直接證明。

可以看到，隨著大模型發(fā)展駛?cè)搿吧钏畢^(qū)”，更關(guān)鍵在于，誰(shuí)能構(gòu)建起“模型即產(chǎn)品”機(jī)制，不斷將AI技術(shù)從一線實(shí)驗(yàn)室向千行百業(yè)輸送。

在這之中，布局全、壁壘深、落地廣的玩家，更值得被關(guān)注。

MiniMax已經(jīng)為行業(yè)打了個(gè)樣，不是嗎？

責(zé)任編輯：張燕妮來源：量子位

AI 模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<thead id="vdsw3"></thead>}