Voxtral:Mistral開源的語(yǔ)音識(shí)別模型! 原創(chuàng)
Voxtral在語(yǔ)音轉(zhuǎn)錄方面超越了Whisper large-v3。它在所有任務(wù)中都優(yōu)于GPT-4o mini和和Gemini 2.5 Flash轉(zhuǎn)錄功能,并在英語(yǔ)短文本和Mozilla Common Voice上取得了最先進(jìn)的成果,超越了ElevenLabs Scribe,展現(xiàn)出強(qiáng)大的多語(yǔ)言處理能力。
Voxtral 3B和Voxtral 24B模型不僅能夠轉(zhuǎn)錄,還具備以下功能:
- 長(zhǎng)文本上下文處理:32k token的上下文長(zhǎng)度,可處理長(zhǎng)達(dá)30分鐘的音頻轉(zhuǎn)錄,或40分鐘的音頻理解
- 內(nèi)置問答和摘要功能:支持直接對(duì)音頻內(nèi)容提問或生成結(jié)構(gòu)化摘要,無需鏈接獨(dú)立的ASR和語(yǔ)言模型
- 原生多語(yǔ)言支持:自動(dòng)語(yǔ)言檢測(cè),在全球最廣泛使用的語(yǔ)言(英語(yǔ)、西班牙語(yǔ)、法語(yǔ)、葡萄牙語(yǔ)、印地語(yǔ)、德語(yǔ)、荷蘭語(yǔ)、意大利語(yǔ)等)中實(shí)現(xiàn)最先進(jìn)的性能,幫助團(tuán)隊(duì)通過單一系統(tǒng)服務(wù)全球用戶
- 語(yǔ)音直接調(diào)用功能:基于語(yǔ)音用戶意圖直接觸發(fā)后端函數(shù)、工作流或API調(diào)用,將語(yǔ)音交互轉(zhuǎn)化為可操作的系統(tǒng)命令,無需中間解析步驟
- 強(qiáng)大的文本處理能力:保留其語(yǔ)言模型骨干網(wǎng)絡(luò)Mistral Small 3.1的文本理解能力
語(yǔ)音是人類最初的交互界面——遠(yuǎn)在書寫或打字之前,它就讓我們能夠分享想法、協(xié)調(diào)工作、建立關(guān)系。隨著數(shù)字系統(tǒng)變得更加強(qiáng)大,語(yǔ)音正在回歸,成為我們最自然的人機(jī)交互形式。
然而,當(dāng)今的系統(tǒng)仍然有限——不可靠、專有且過于脆弱,無法滿足現(xiàn)實(shí)世界的使用需求。彌合這一差距需要具備卓越轉(zhuǎn)錄能力、深度理解、多語(yǔ)言流利度以及開放、靈活部署的工具。
要在生產(chǎn)環(huán)境中獲得真正可用的語(yǔ)音智能,意味著要在兩種權(quán)衡之間做出選擇:
- 開源ASR系統(tǒng),但詞錯(cuò)誤率高,語(yǔ)義理解有限
- 封閉的專有API,雖然結(jié)合了強(qiáng)大的轉(zhuǎn)錄和語(yǔ)言理解能力,但成本顯著更高,對(duì)部署的控制力較小
Voxtral填補(bǔ)了這一空白。它以開放的方式提供最先進(jìn)的準(zhǔn)確性和原生語(yǔ)義理解,成本不到同類API的一半。這使得高質(zhì)量的語(yǔ)音智能變得可訪問且可大規(guī)??刂?。
兩種Voxtral模型都超越了轉(zhuǎn)錄功能,具備以下能力:
- 長(zhǎng)文本上下文處理:32k token的上下文長(zhǎng)度,可處理長(zhǎng)達(dá)30分鐘的音頻轉(zhuǎn)錄,或40分鐘的音頻理解
- 內(nèi)置問答和摘要功能:支持直接對(duì)音頻內(nèi)容提問或生成結(jié)構(gòu)化摘要,無需鏈接獨(dú)立的ASR和語(yǔ)言模型
- 原生多語(yǔ)言支持:自動(dòng)語(yǔ)言檢測(cè),在全球最廣泛使用的語(yǔ)言(英語(yǔ)、西班牙語(yǔ)、法語(yǔ)、葡萄牙語(yǔ)、印地語(yǔ)、德語(yǔ)、荷蘭語(yǔ)、意大利語(yǔ)等)中實(shí)現(xiàn)最先進(jìn)的性能,幫助團(tuán)隊(duì)通過單一系統(tǒng)服務(wù)全球用戶
- 語(yǔ)音直接調(diào)用功能:基于語(yǔ)音用戶意圖直接觸發(fā)后端函數(shù)、工作流或API調(diào)用,將語(yǔ)音交互轉(zhuǎn)化為可操作的系統(tǒng)命令,無需中間解析步驟
- 強(qiáng)大的文本處理能力:保留其語(yǔ)言模型骨干網(wǎng)絡(luò)Mistral Small 3.1的文本理解能力
這些功能使Voxtral模型非常適合現(xiàn)實(shí)世界的交互和下游操作,如摘要、答案、分析和洞察。對(duì)于成本敏感的用例,Voxtral Mini轉(zhuǎn)錄功能以不到一半的價(jià)格超越了OpenAI Whisper。對(duì)于高端用例,Voxtral small匹配ElevenLabs Scribe的性能,同樣以不到一半的價(jià)格。
語(yǔ)音轉(zhuǎn)錄
為了評(píng)估Voxtral的轉(zhuǎn)錄能力,我們?cè)谝幌盗杏⒄Z(yǔ)和多語(yǔ)言基準(zhǔn)測(cè)試中進(jìn)行了評(píng)估。對(duì)于每個(gè)任務(wù),我們報(bào)告各語(yǔ)言的宏平均詞錯(cuò)誤率(越低越好)。對(duì)于英語(yǔ),我們報(bào)告短文本(<30秒)和長(zhǎng)文本(>30秒)的平均值。
Voxtral全面超越了Whisper large-v3(當(dāng)前領(lǐng)先的開源語(yǔ)音轉(zhuǎn)錄模型)。它在所有任務(wù)中都優(yōu)于GPT-4o mini轉(zhuǎn)錄功能和Gemini 2.5 Flash,并在英語(yǔ)短文本和Mozilla Common Voice上取得了最先進(jìn)的成果,超越了ElevenLabs Scribe,展現(xiàn)出強(qiáng)大的多語(yǔ)言處理能力。
在FLEURS的跨語(yǔ)言評(píng)估中,Voxtral Small在每個(gè)任務(wù)上都優(yōu)于Whisper,在多種歐洲語(yǔ)言中實(shí)現(xiàn)了最先進(jìn)的性能。
宏平均詳情:
- 英語(yǔ)短文本:LibriSpeech Clean、LibriSpeech Other、GigaSpeech、VoxPopuli、Switchboard、CHiME-4、SPGISpeech
- 英語(yǔ)長(zhǎng)文本:Earnings-21 10-m、Earnings-22 10-m
- Mozilla Common Voice 15.1:英語(yǔ)、法語(yǔ)、德語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)、荷蘭語(yǔ)、印地語(yǔ)
- FLEURS:英語(yǔ)、法語(yǔ)、德語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)、荷蘭語(yǔ)、印地語(yǔ)、阿拉伯語(yǔ)
音頻理解
Voxtral Small和Mini能夠直接從語(yǔ)音中回答問題,或通過提供音頻和基于文本的提示。為了評(píng)估音頻理解能力,我們創(chuàng)建了三個(gè)常見文本理解任務(wù)的語(yǔ)音合成版本。我們還在內(nèi)部音頻理解(AU)基準(zhǔn)測(cè)試中評(píng)估了模型,該模型需要在40個(gè)長(zhǎng)文本音頻示例中回答具有挑戰(zhàn)性的問題。最后,我們?cè)贔LEURS-Translation基準(zhǔn)測(cè)試中評(píng)估了語(yǔ)音翻譯能力。
Voxtral Small在所有任務(wù)中都與GPT-4o-mini和Gemini 2.5 Flash競(jìng)爭(zhēng)激烈,在語(yǔ)音翻譯方面達(dá)到了最先進(jìn)的性能。
文本處理
Voxtral保留了其語(yǔ)言模型骨干網(wǎng)絡(luò)的文本處理能力,使其可以作為Ministral和Mistral Small 3.1的直接替代品。
blog:??https://mistral.ai/news/voxtral??
Model:???https://huggingface.co/mistralai??
本文轉(zhuǎn)載自??AI帝國(guó)??,作者:無影寺
