偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Voxtral:Mistral開源的語(yǔ)音識(shí)別模型! 原創(chuàng)

發(fā)布于 2025-7-17 06:29
瀏覽
0收藏

Voxtral在語(yǔ)音轉(zhuǎn)錄方面超越了Whisper large-v3。它在所有任務(wù)中都優(yōu)于GPT-4o mini和和Gemini 2.5 Flash轉(zhuǎn)錄功能,并在英語(yǔ)短文本和Mozilla Common Voice上取得了最先進(jìn)的成果,超越了ElevenLabs Scribe,展現(xiàn)出強(qiáng)大的多語(yǔ)言處理能力。

Voxtral:Mistral開源的語(yǔ)音識(shí)別模型!-AI.x社區(qū)

Voxtral 3B和Voxtral 24B模型不僅能夠轉(zhuǎn)錄,還具備以下功能:

  • 長(zhǎng)文本上下文處理:32k token的上下文長(zhǎng)度,可處理長(zhǎng)達(dá)30分鐘的音頻轉(zhuǎn)錄,或40分鐘的音頻理解
  • 內(nèi)置問答和摘要功能:支持直接對(duì)音頻內(nèi)容提問或生成結(jié)構(gòu)化摘要,無需鏈接獨(dú)立的ASR和語(yǔ)言模型
  • 原生多語(yǔ)言支持:自動(dòng)語(yǔ)言檢測(cè),在全球最廣泛使用的語(yǔ)言(英語(yǔ)、西班牙語(yǔ)、法語(yǔ)、葡萄牙語(yǔ)、印地語(yǔ)、德語(yǔ)、荷蘭語(yǔ)、意大利語(yǔ)等)中實(shí)現(xiàn)最先進(jìn)的性能,幫助團(tuán)隊(duì)通過單一系統(tǒng)服務(wù)全球用戶
  • 語(yǔ)音直接調(diào)用功能:基于語(yǔ)音用戶意圖直接觸發(fā)后端函數(shù)、工作流或API調(diào)用,將語(yǔ)音交互轉(zhuǎn)化為可操作的系統(tǒng)命令,無需中間解析步驟
  • 強(qiáng)大的文本處理能力:保留其語(yǔ)言模型骨干網(wǎng)絡(luò)Mistral Small 3.1的文本理解能力

語(yǔ)音是人類最初的交互界面——遠(yuǎn)在書寫或打字之前,它就讓我們能夠分享想法、協(xié)調(diào)工作、建立關(guān)系。隨著數(shù)字系統(tǒng)變得更加強(qiáng)大,語(yǔ)音正在回歸,成為我們最自然的人機(jī)交互形式。

然而,當(dāng)今的系統(tǒng)仍然有限——不可靠、專有且過于脆弱,無法滿足現(xiàn)實(shí)世界的使用需求。彌合這一差距需要具備卓越轉(zhuǎn)錄能力、深度理解、多語(yǔ)言流利度以及開放、靈活部署的工具。

要在生產(chǎn)環(huán)境中獲得真正可用的語(yǔ)音智能,意味著要在兩種權(quán)衡之間做出選擇:

  1. 開源ASR系統(tǒng),但詞錯(cuò)誤率高,語(yǔ)義理解有限
  2. 封閉的專有API,雖然結(jié)合了強(qiáng)大的轉(zhuǎn)錄和語(yǔ)言理解能力,但成本顯著更高,對(duì)部署的控制力較小

Voxtral填補(bǔ)了這一空白。它以開放的方式提供最先進(jìn)的準(zhǔn)確性和原生語(yǔ)義理解,成本不到同類API的一半。這使得高質(zhì)量的語(yǔ)音智能變得可訪問且可大規(guī)??刂?。

兩種Voxtral模型都超越了轉(zhuǎn)錄功能,具備以下能力:

  • 長(zhǎng)文本上下文處理:32k token的上下文長(zhǎng)度,可處理長(zhǎng)達(dá)30分鐘的音頻轉(zhuǎn)錄,或40分鐘的音頻理解
  • 內(nèi)置問答和摘要功能:支持直接對(duì)音頻內(nèi)容提問或生成結(jié)構(gòu)化摘要,無需鏈接獨(dú)立的ASR和語(yǔ)言模型
  • 原生多語(yǔ)言支持:自動(dòng)語(yǔ)言檢測(cè),在全球最廣泛使用的語(yǔ)言(英語(yǔ)、西班牙語(yǔ)、法語(yǔ)、葡萄牙語(yǔ)、印地語(yǔ)、德語(yǔ)、荷蘭語(yǔ)、意大利語(yǔ)等)中實(shí)現(xiàn)最先進(jìn)的性能,幫助團(tuán)隊(duì)通過單一系統(tǒng)服務(wù)全球用戶
  • 語(yǔ)音直接調(diào)用功能:基于語(yǔ)音用戶意圖直接觸發(fā)后端函數(shù)、工作流或API調(diào)用,將語(yǔ)音交互轉(zhuǎn)化為可操作的系統(tǒng)命令,無需中間解析步驟
  • 強(qiáng)大的文本處理能力:保留其語(yǔ)言模型骨干網(wǎng)絡(luò)Mistral Small 3.1的文本理解能力

這些功能使Voxtral模型非常適合現(xiàn)實(shí)世界的交互和下游操作,如摘要、答案、分析和洞察。對(duì)于成本敏感的用例,Voxtral Mini轉(zhuǎn)錄功能以不到一半的價(jià)格超越了OpenAI Whisper。對(duì)于高端用例,Voxtral small匹配ElevenLabs Scribe的性能,同樣以不到一半的價(jià)格。

語(yǔ)音轉(zhuǎn)錄

為了評(píng)估Voxtral的轉(zhuǎn)錄能力,我們?cè)谝幌盗杏⒄Z(yǔ)和多語(yǔ)言基準(zhǔn)測(cè)試中進(jìn)行了評(píng)估。對(duì)于每個(gè)任務(wù),我們報(bào)告各語(yǔ)言的宏平均詞錯(cuò)誤率(越低越好)。對(duì)于英語(yǔ),我們報(bào)告短文本(<30秒)和長(zhǎng)文本(>30秒)的平均值。

Voxtral全面超越了Whisper large-v3(當(dāng)前領(lǐng)先的開源語(yǔ)音轉(zhuǎn)錄模型)。它在所有任務(wù)中都優(yōu)于GPT-4o mini轉(zhuǎn)錄功能和Gemini 2.5 Flash,并在英語(yǔ)短文本和Mozilla Common Voice上取得了最先進(jìn)的成果,超越了ElevenLabs Scribe,展現(xiàn)出強(qiáng)大的多語(yǔ)言處理能力。

Voxtral:Mistral開源的語(yǔ)音識(shí)別模型!-AI.x社區(qū)

在FLEURS的跨語(yǔ)言評(píng)估中,Voxtral Small在每個(gè)任務(wù)上都優(yōu)于Whisper,在多種歐洲語(yǔ)言中實(shí)現(xiàn)了最先進(jìn)的性能。

Voxtral:Mistral開源的語(yǔ)音識(shí)別模型!-AI.x社區(qū)

宏平均詳情:

  • 英語(yǔ)短文本:LibriSpeech Clean、LibriSpeech Other、GigaSpeech、VoxPopuli、Switchboard、CHiME-4、SPGISpeech
  • 英語(yǔ)長(zhǎng)文本:Earnings-21 10-m、Earnings-22 10-m
  • Mozilla Common Voice 15.1:英語(yǔ)、法語(yǔ)、德語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)、荷蘭語(yǔ)、印地語(yǔ)
  • FLEURS:英語(yǔ)、法語(yǔ)、德語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)、荷蘭語(yǔ)、印地語(yǔ)、阿拉伯語(yǔ)

音頻理解

Voxtral Small和Mini能夠直接從語(yǔ)音中回答問題,或通過提供音頻和基于文本的提示。為了評(píng)估音頻理解能力,我們創(chuàng)建了三個(gè)常見文本理解任務(wù)的語(yǔ)音合成版本。我們還在內(nèi)部音頻理解(AU)基準(zhǔn)測(cè)試中評(píng)估了模型,該模型需要在40個(gè)長(zhǎng)文本音頻示例中回答具有挑戰(zhàn)性的問題。最后,我們?cè)贔LEURS-Translation基準(zhǔn)測(cè)試中評(píng)估了語(yǔ)音翻譯能力。

Voxtral Small在所有任務(wù)中都與GPT-4o-mini和Gemini 2.5 Flash競(jìng)爭(zhēng)激烈,在語(yǔ)音翻譯方面達(dá)到了最先進(jìn)的性能。

Voxtral:Mistral開源的語(yǔ)音識(shí)別模型!-AI.x社區(qū)

文本處理

Voxtral保留了其語(yǔ)言模型骨干網(wǎng)絡(luò)的文本處理能力,使其可以作為Ministral和Mistral Small 3.1的直接替代品。

Voxtral:Mistral開源的語(yǔ)音識(shí)別模型!-AI.x社區(qū)

blog:??https://mistral.ai/news/voxtral??

Model:???https://huggingface.co/mistralai??


本文轉(zhuǎn)載自??AI帝國(guó)??,作者:無影寺

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-7-17 09:33:22修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦