偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Voxtral:Mistral開源的語音識別模型! 原創(chuàng)

發(fā)布于 2025-7-17 06:29
瀏覽
0收藏

Voxtral在語音轉(zhuǎn)錄方面超越了Whisper large-v3。它在所有任務(wù)中都優(yōu)于GPT-4o mini和和Gemini 2.5 Flash轉(zhuǎn)錄功能,并在英語短文本和Mozilla Common Voice上取得了最先進(jìn)的成果,超越了ElevenLabs Scribe,展現(xiàn)出強(qiáng)大的多語言處理能力。

Voxtral:Mistral開源的語音識別模型!-AI.x社區(qū)

Voxtral 3B和Voxtral 24B模型不僅能夠轉(zhuǎn)錄,還具備以下功能:

  • 長文本上下文處理:32k token的上下文長度,可處理長達(dá)30分鐘的音頻轉(zhuǎn)錄,或40分鐘的音頻理解
  • 內(nèi)置問答和摘要功能:支持直接對音頻內(nèi)容提問或生成結(jié)構(gòu)化摘要,無需鏈接獨(dú)立的ASR和語言模型
  • 原生多語言支持:自動語言檢測,在全球最廣泛使用的語言(英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語、意大利語等)中實(shí)現(xiàn)最先進(jìn)的性能,幫助團(tuán)隊(duì)通過單一系統(tǒng)服務(wù)全球用戶
  • 語音直接調(diào)用功能:基于語音用戶意圖直接觸發(fā)后端函數(shù)、工作流或API調(diào)用,將語音交互轉(zhuǎn)化為可操作的系統(tǒng)命令,無需中間解析步驟
  • 強(qiáng)大的文本處理能力:保留其語言模型骨干網(wǎng)絡(luò)Mistral Small 3.1的文本理解能力

語音是人類最初的交互界面——遠(yuǎn)在書寫或打字之前,它就讓我們能夠分享想法、協(xié)調(diào)工作、建立關(guān)系。隨著數(shù)字系統(tǒng)變得更加強(qiáng)大,語音正在回歸,成為我們最自然的人機(jī)交互形式。

然而,當(dāng)今的系統(tǒng)仍然有限——不可靠、專有且過于脆弱,無法滿足現(xiàn)實(shí)世界的使用需求。彌合這一差距需要具備卓越轉(zhuǎn)錄能力、深度理解、多語言流利度以及開放、靈活部署的工具。

要在生產(chǎn)環(huán)境中獲得真正可用的語音智能,意味著要在兩種權(quán)衡之間做出選擇:

  1. 開源ASR系統(tǒng),但詞錯誤率高,語義理解有限
  2. 封閉的專有API,雖然結(jié)合了強(qiáng)大的轉(zhuǎn)錄和語言理解能力,但成本顯著更高,對部署的控制力較小

Voxtral填補(bǔ)了這一空白。它以開放的方式提供最先進(jìn)的準(zhǔn)確性和原生語義理解,成本不到同類API的一半。這使得高質(zhì)量的語音智能變得可訪問且可大規(guī)??刂?。

兩種Voxtral模型都超越了轉(zhuǎn)錄功能,具備以下能力:

  • 長文本上下文處理:32k token的上下文長度,可處理長達(dá)30分鐘的音頻轉(zhuǎn)錄,或40分鐘的音頻理解
  • 內(nèi)置問答和摘要功能:支持直接對音頻內(nèi)容提問或生成結(jié)構(gòu)化摘要,無需鏈接獨(dú)立的ASR和語言模型
  • 原生多語言支持:自動語言檢測,在全球最廣泛使用的語言(英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語、意大利語等)中實(shí)現(xiàn)最先進(jìn)的性能,幫助團(tuán)隊(duì)通過單一系統(tǒng)服務(wù)全球用戶
  • 語音直接調(diào)用功能:基于語音用戶意圖直接觸發(fā)后端函數(shù)、工作流或API調(diào)用,將語音交互轉(zhuǎn)化為可操作的系統(tǒng)命令,無需中間解析步驟
  • 強(qiáng)大的文本處理能力:保留其語言模型骨干網(wǎng)絡(luò)Mistral Small 3.1的文本理解能力

這些功能使Voxtral模型非常適合現(xiàn)實(shí)世界的交互和下游操作,如摘要、答案、分析和洞察。對于成本敏感的用例,Voxtral Mini轉(zhuǎn)錄功能以不到一半的價格超越了OpenAI Whisper。對于高端用例,Voxtral small匹配ElevenLabs Scribe的性能,同樣以不到一半的價格。

語音轉(zhuǎn)錄

為了評估Voxtral的轉(zhuǎn)錄能力,我們在一系列英語和多語言基準(zhǔn)測試中進(jìn)行了評估。對于每個任務(wù),我們報告各語言的宏平均詞錯誤率(越低越好)。對于英語,我們報告短文本(<30秒)和長文本(>30秒)的平均值。

Voxtral全面超越了Whisper large-v3(當(dāng)前領(lǐng)先的開源語音轉(zhuǎn)錄模型)。它在所有任務(wù)中都優(yōu)于GPT-4o mini轉(zhuǎn)錄功能和Gemini 2.5 Flash,并在英語短文本和Mozilla Common Voice上取得了最先進(jìn)的成果,超越了ElevenLabs Scribe,展現(xiàn)出強(qiáng)大的多語言處理能力。

Voxtral:Mistral開源的語音識別模型!-AI.x社區(qū)

在FLEURS的跨語言評估中,Voxtral Small在每個任務(wù)上都優(yōu)于Whisper,在多種歐洲語言中實(shí)現(xiàn)了最先進(jìn)的性能。

Voxtral:Mistral開源的語音識別模型!-AI.x社區(qū)

宏平均詳情:

  • 英語短文本:LibriSpeech Clean、LibriSpeech Other、GigaSpeech、VoxPopuli、Switchboard、CHiME-4、SPGISpeech
  • 英語長文本:Earnings-21 10-m、Earnings-22 10-m
  • Mozilla Common Voice 15.1:英語、法語、德語、西班牙語、意大利語、葡萄牙語、荷蘭語、印地語
  • FLEURS:英語、法語、德語、西班牙語、意大利語、葡萄牙語、荷蘭語、印地語、阿拉伯語

音頻理解

Voxtral Small和Mini能夠直接從語音中回答問題,或通過提供音頻和基于文本的提示。為了評估音頻理解能力,我們創(chuàng)建了三個常見文本理解任務(wù)的語音合成版本。我們還在內(nèi)部音頻理解(AU)基準(zhǔn)測試中評估了模型,該模型需要在40個長文本音頻示例中回答具有挑戰(zhàn)性的問題。最后,我們在FLEURS-Translation基準(zhǔn)測試中評估了語音翻譯能力。

Voxtral Small在所有任務(wù)中都與GPT-4o-mini和Gemini 2.5 Flash競爭激烈,在語音翻譯方面達(dá)到了最先進(jìn)的性能。

Voxtral:Mistral開源的語音識別模型!-AI.x社區(qū)

文本處理

Voxtral保留了其語言模型骨干網(wǎng)絡(luò)的文本處理能力,使其可以作為Ministral和Mistral Small 3.1的直接替代品。

Voxtral:Mistral開源的語音識別模型!-AI.x社區(qū)

blog:??https://mistral.ai/news/voxtral??

Model:???https://huggingface.co/mistralai??


本文轉(zhuǎn)載自??AI帝國??,作者:無影寺

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-7-17 09:33:22修改
1
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦