偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="fbtls"></style>

^{<blockquote id="fbtls"><i id="fbtls"></i></blockquote>}

<cite id="fbtls"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Voxtral：Mistral開源的語音識別模型！原創(chuàng)

發(fā)布于 2025-7-17 06:29

瀏覽

0收藏

Voxtral在語音轉(zhuǎn)錄方面超越了Whisper large-v3。它在所有任務(wù)中都優(yōu)于GPT-4o mini和和Gemini 2.5 Flash轉(zhuǎn)錄功能，并在英語短文本和Mozilla Common Voice上取得了最先進(jìn)的成果，超越了ElevenLabs Scribe，展現(xiàn)出強(qiáng)大的多語言處理能力。

Voxtral：Mistral開源的語音識別模型！-AI.x社區(qū)

Voxtral 3B和Voxtral 24B模型不僅能夠轉(zhuǎn)錄，還具備以下功能：

長文本上下文處理：32k token的上下文長度，可處理長達(dá)30分鐘的音頻轉(zhuǎn)錄，或40分鐘的音頻理解
內(nèi)置問答和摘要功能：支持直接對音頻內(nèi)容提問或生成結(jié)構(gòu)化摘要，無需鏈接獨(dú)立的ASR和語言模型
原生多語言支持：自動語言檢測，在全球最廣泛使用的語言（英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語、意大利語等）中實(shí)現(xiàn)最先進(jìn)的性能，幫助團(tuán)隊(duì)通過單一系統(tǒng)服務(wù)全球用戶
語音直接調(diào)用功能：基于語音用戶意圖直接觸發(fā)后端函數(shù)、工作流或API調(diào)用，將語音交互轉(zhuǎn)化為可操作的系統(tǒng)命令，無需中間解析步驟
強(qiáng)大的文本處理能力：保留其語言模型骨干網(wǎng)絡(luò)Mistral Small 3.1的文本理解能力

語音是人類最初的交互界面——遠(yuǎn)在書寫或打字之前，它就讓我們能夠分享想法、協(xié)調(diào)工作、建立關(guān)系。隨著數(shù)字系統(tǒng)變得更加強(qiáng)大，語音正在回歸，成為我們最自然的人機(jī)交互形式。

然而，當(dāng)今的系統(tǒng)仍然有限——不可靠、專有且過于脆弱，無法滿足現(xiàn)實(shí)世界的使用需求。彌合這一差距需要具備卓越轉(zhuǎn)錄能力、深度理解、多語言流利度以及開放、靈活部署的工具。

要在生產(chǎn)環(huán)境中獲得真正可用的語音智能，意味著要在兩種權(quán)衡之間做出選擇：

開源ASR系統(tǒng)，但詞錯誤率高，語義理解有限
封閉的專有API，雖然結(jié)合了強(qiáng)大的轉(zhuǎn)錄和語言理解能力，但成本顯著更高，對部署的控制力較小

Voxtral填補(bǔ)了這一空白。它以開放的方式提供最先進(jìn)的準(zhǔn)確性和原生語義理解，成本不到同類API的一半。這使得高質(zhì)量的語音智能變得可訪問且可大規(guī)?？刂?。

兩種Voxtral模型都超越了轉(zhuǎn)錄功能，具備以下能力：

長文本上下文處理：32k token的上下文長度，可處理長達(dá)30分鐘的音頻轉(zhuǎn)錄，或40分鐘的音頻理解
內(nèi)置問答和摘要功能：支持直接對音頻內(nèi)容提問或生成結(jié)構(gòu)化摘要，無需鏈接獨(dú)立的ASR和語言模型
原生多語言支持：自動語言檢測，在全球最廣泛使用的語言（英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語、意大利語等）中實(shí)現(xiàn)最先進(jìn)的性能，幫助團(tuán)隊(duì)通過單一系統(tǒng)服務(wù)全球用戶
語音直接調(diào)用功能：基于語音用戶意圖直接觸發(fā)后端函數(shù)、工作流或API調(diào)用，將語音交互轉(zhuǎn)化為可操作的系統(tǒng)命令，無需中間解析步驟
強(qiáng)大的文本處理能力：保留其語言模型骨干網(wǎng)絡(luò)Mistral Small 3.1的文本理解能力

這些功能使Voxtral模型非常適合現(xiàn)實(shí)世界的交互和下游操作，如摘要、答案、分析和洞察。對于成本敏感的用例，Voxtral Mini轉(zhuǎn)錄功能以不到一半的價格超越了OpenAI Whisper。對于高端用例，Voxtral small匹配ElevenLabs Scribe的性能，同樣以不到一半的價格。

語音轉(zhuǎn)錄

為了評估Voxtral的轉(zhuǎn)錄能力，我們在一系列英語和多語言基準(zhǔn)測試中進(jìn)行了評估。對于每個任務(wù)，我們報告各語言的宏平均詞錯誤率（越低越好）。對于英語，我們報告短文本（<30秒）和長文本（>30秒）的平均值。

Voxtral全面超越了Whisper large-v3（當(dāng)前領(lǐng)先的開源語音轉(zhuǎn)錄模型）。它在所有任務(wù)中都優(yōu)于GPT-4o mini轉(zhuǎn)錄功能和Gemini 2.5 Flash，并在英語短文本和Mozilla Common Voice上取得了最先進(jìn)的成果，超越了ElevenLabs Scribe，展現(xiàn)出強(qiáng)大的多語言處理能力。

Voxtral：Mistral開源的語音識別模型！-AI.x社區(qū)

在FLEURS的跨語言評估中，Voxtral Small在每個任務(wù)上都優(yōu)于Whisper，在多種歐洲語言中實(shí)現(xiàn)了最先進(jìn)的性能。

Voxtral：Mistral開源的語音識別模型！-AI.x社區(qū)

宏平均詳情：

英語短文本：LibriSpeech Clean、LibriSpeech Other、GigaSpeech、VoxPopuli、Switchboard、CHiME-4、SPGISpeech
英語長文本：Earnings-21 10-m、Earnings-22 10-m
Mozilla Common Voice 15.1：英語、法語、德語、西班牙語、意大利語、葡萄牙語、荷蘭語、印地語
FLEURS：英語、法語、德語、西班牙語、意大利語、葡萄牙語、荷蘭語、印地語、阿拉伯語

音頻理解

Voxtral Small和Mini能夠直接從語音中回答問題，或通過提供音頻和基于文本的提示。為了評估音頻理解能力，我們創(chuàng)建了三個常見文本理解任務(wù)的語音合成版本。我們還在內(nèi)部音頻理解（AU）基準(zhǔn)測試中評估了模型，該模型需要在40個長文本音頻示例中回答具有挑戰(zhàn)性的問題。最后，我們在FLEURS-Translation基準(zhǔn)測試中評估了語音翻譯能力。

Voxtral Small在所有任務(wù)中都與GPT-4o-mini和Gemini 2.5 Flash競爭激烈，在語音翻譯方面達(dá)到了最先進(jìn)的性能。

Voxtral：Mistral開源的語音識別模型！-AI.x社區(qū)

文本處理

Voxtral保留了其語言模型骨干網(wǎng)絡(luò)的文本處理能力，使其可以作為Ministral和Mistral Small 3.1的直接替代品。

Voxtral：Mistral開源的語音識別模型！-AI.x社區(qū)

blog:??https://mistral.ai/news/voxtral??

Model:???https://huggingface.co/mistralai??

本文轉(zhuǎn)載自??AI帝國??，作者：無影寺

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

語音識別模型

已于2025-7-17 09:33:22修改

贊 1

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

Mistral開源8X22B大模型，OpenAI更新GPT-4 Turbo視覺，都在欺負(fù)谷歌

輕薄滴假象 ? 3702瀏覽 ? 0回復(fù)
Mistral 不相信AGI，開源大模型CEO發(fā)出警告，科技帶不來“新造的人”

51CTO技術(shù)棧 ? 3600瀏覽 ? 0回復(fù)
Mistral開源首個22B代碼模型破記錄，支持80+編程語言

duhorse ? 4676瀏覽 ? 0回復(fù)
Mistral 開源代碼模型奪得王座！Codestral瘋狂訓(xùn)練超80種語言，國內(nèi)通義開發(fā)者請求出戰(zhàn)！

51CTO技術(shù)棧 ? 4201瀏覽 ? 0回復(fù)
比OpenAI的Whisper快50%，最新開源語音模型

Aceryt ? 4197瀏覽 ? 0回復(fù)
揭開神秘面紗：深入了解語音識別算法

51CTO內(nèi)容精選 ? 3408瀏覽 ? 0回復(fù)
Mistral開源首個多模態(tài)大模型—Pixtral 12B

Aceryt ? 3992瀏覽 ? 0回復(fù)
Moonshine 語音模型：資源受限設(shè)備的語音識別超強(qiáng) “芯” 動力！

穿越時空111 ? 3653瀏覽 ? 0回復(fù)
手勢圖像識別實(shí)戰(zhàn)(LeNet模型)

一起AI技術(shù) ? 3469瀏覽 ? 0回復(fù)
阿里巴巴語音實(shí)驗(yàn)室發(fā)布開源語音處理框架ClearerVoice-Studio，支持語音增強(qiáng)、分離、目標(biāo)說話人提取

Halo咯咯 ? 5108瀏覽 ? 0回復(fù)
人臉識別和MTCNN模型

一起AI技術(shù) ? 3451瀏覽 ? 0回復(fù)
Meta開源多模式模型，輕松混合文本和語音

Aceryt ? 3088瀏覽 ? 0回復(fù)
基于 LlamaFactory 微調(diào)大模型的實(shí)體識別的評估實(shí)現(xiàn)

AI悠閑區(qū) ? 4042瀏覽 ? 0回復(fù)
Mistral發(fā)布最強(qiáng)多模態(tài)文檔理解模型Mistral OCR！可免費(fèi)試用！

51CTO技術(shù)棧 ? 4008瀏覽 ? 0回復(fù)
Mistral殺回來了！Small 3.1開源發(fā)布，性能完勝Gemma 3，RTX 4090就能跑

老蛀蟲 ? 4358瀏覽 ? 0回復(fù)
OpenAI凌晨發(fā)布三款語音模型，語音AI Agent時代即將到來？

AI博物院 ? 2919瀏覽 ? 0回復(fù)
公式識別：利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力

大模型自然語言處理 ? 2495瀏覽 ? 0回復(fù)
IBM Granite 3.3：語音識別、推理增強(qiáng)與RAG的完美融合

Halo咯咯 ? 3351瀏覽 ? 0回復(fù)
Qwen3-Omni-30B-A3B-Instruct 部署實(shí)戰(zhàn)保姆及教程（圖片、語音、視頻全模態(tài)識別）

AI小新 ? 9827瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

OpenAI 開源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 2天前發(fā)布
HedgeSpec：比EAGLE3推理速度快2倍的LLM推測解碼 2天前發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇： MemOS：讓大模型告別遺忘、擁有操作系統(tǒng)級記憶管理

下一篇： Google發(fā)布MoR架構(gòu)：兩倍推理速度，節(jié)省50%內(nèi)存

社區(qū)精華內(nèi)容

目錄

<var id="zzo0f"><fieldset id="zzo0f"><dl id="zzo0f"></dl></fieldset></var>