偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<small id="fvgcs"><pre id="fvgcs"><acronym id="fvgcs"></acronym></pre></small>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

阿里云通義千問發(fā)布新一代端到端多模態(tài)旗艦?zāi)Ｐ?Qwen2.5-Omni 并開源，看聽說寫樣樣精通

作者：問舟 2025-03-27 10:04:36

人工智能開源

阿里云發(fā)布通義千問 Qwen 模型家族中新一代端到端多模態(tài)旗艦?zāi)Ｐ?——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上開源。

3 月 27 日消息，今日凌晨，阿里云發(fā)布通義千問 Qwen 模型家族中新一代端到端多模態(tài)旗艦?zāi)Ｐ?——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上開源。

阿里云表示，該模型專為全方位多模態(tài)感知設(shè)計(jì)，能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式，并通過實(shí)時流式響應(yīng)同時生成文本與自然語音合成輸出。IT之家匯總其主要特點(diǎn)如下：

全能創(chuàng)新架構(gòu)：Qwen 團(tuán)隊(duì)提出了一種全新的 Thinker-Talker 架構(gòu)，這是一種端到端的多模態(tài)模型，旨在支持文本 / 圖像 / 音頻 / 視頻的跨模態(tài)理解，同時以流式方式生成文本和自然語音響應(yīng)。Qwen 提出了一種新的位置編碼技術(shù)，稱為 TMRoPE（Time-aligned Multimodal RoPE），通過時間軸對齊實(shí)現(xiàn)視頻與音頻輸入的精準(zhǔn)同步。
實(shí)時音視頻交互：架構(gòu)旨在支持完全實(shí)時交互，支持分塊輸入和即時輸出。
自然流暢的語音生成：在語音生成的自然性和穩(wěn)定性方面超越了許多現(xiàn)有的流式和非流式替代方案。
全模態(tài)性能優(yōu)勢：在同等規(guī)模的單模態(tài)模型進(jìn)行基準(zhǔn)測試時，表現(xiàn)出卓越的性能。Qwen2.5-Omni 在音頻能力上優(yōu)于類似大小的 Qwen2-Audio，并與 Qwen2.5-VL-7B 保持同等水平。
卓越的端到端語音指令跟隨能力：Qwen2.5-Omni 在端到端語音指令跟隨方面表現(xiàn)出與文本輸入處理相媲美的效果，在 MMLU 通用知識理解和 GSM8K 數(shù)學(xué)推理等基準(zhǔn)測試中表現(xiàn)優(yōu)異。

據(jù)官方介紹，Qwen2.5-Omni 采用 Thinker-Talker 雙核架構(gòu)。Thinker 模塊如同大腦，負(fù)責(zé)處理文本、音頻、視頻等多模態(tài)輸入，生成高層語義表征及對應(yīng)文本內(nèi)容；Talker 模塊則類似發(fā)聲器官，以流式方式接收 Thinker 實(shí)時輸出的語義表征與文本，流暢合成離散語音單元。Thinker 基于 Transformer 解碼器架構(gòu)，融合音頻 / 圖像編碼器進(jìn)行特征提?。籘alker 則采用雙軌自回歸 Transformer 解碼器設(shè)計(jì)，在訓(xùn)練和推理過程中直接接收來自 Thinker 的高維表征，并共享全部歷史上下文信息，形成端到端的統(tǒng)一模型架構(gòu)。

模型架構(gòu)圖

模型性能方面，Qwen2.5-Omni 在包括圖像，音頻，音視頻等各種模態(tài)下的表現(xiàn)都優(yōu)于類似大小的單模態(tài)模型以及封閉源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模態(tài)任務(wù) OmniBench，Qwen2.5-Omni 達(dá)到了 SOTA 的表現(xiàn)。此外，在單模態(tài)任務(wù)中，Qwen2.5-Omni 在多個領(lǐng)域中表現(xiàn)優(yōu)異，包括語音識別（Common Voice）、翻譯（CoVoST2）、音頻理解（MMAU）、圖像推理（MMMU、MMStar）、視頻理解（MVBench）以及語音生成（Seed-tts-eval 和主觀自然聽感）。

▲ 模型性能圖

Qwen Chat：https://chat.qwenlm.ai
Hugging Face：https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
DashScope：https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
GitHub：https://github.com/QwenLM/Qwen2.5-Omni
Demo 體驗(yàn)：https://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

責(zé)任編輯：龐桂玉來源： IT之家

阿里云通義千問多模態(tài)大模型開源

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<menuitem id="lh8xn"><form id="lh8xn"><dd id="lh8xn"></dd></form></menuitem>

<tfoot id="lh8xn"><source id="lh8xn"></source></tfoot>

<tfoot id="lh8xn"><span id="lh8xn"></span></tfoot>