偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="lnkzj"></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

阿里最新全模態(tài)模型，成了！真·實測：多圖合成pose隨意擺，視頻實時對話，1分鐘7種語言絲滑切換，意外發(fā)現(xiàn)：訓(xùn)練數(shù)據(jù)截止到去年

原創(chuàng) 精選

作者：云昭 2025-09-23 16:38:05

Qwen3-Omni 是基于 Qwen3 的原生全模態(tài)大語言模型。它在文本和視覺模態(tài)上均無性能損失，在32個基準(zhǔn)測試中達(dá)到開源最優(yōu)水平，并在36個音頻及音視頻基準(zhǔn)測試中的22個實現(xiàn)整體最優(yōu)，表現(xiàn)超越 Gemini-2.5-Pro、Seed-ASR 和 GPT-4o-Transcribe 等強(qiáng)大的閉源模型。

編輯 | 云昭

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

就在今天，通義千問團(tuán)隊帶著新品來炸街了。

網(wǎng)友看完之后，都替美國的AI焦慮起來了：

如果美國實驗室不開始在開放權(quán)重上競爭，中國模型可就要壟斷人工智能市場。

圖片

那么，作為千問系列里首個端到端原生全模態(tài)（文本、圖像、音頻、視頻）的通用大模型，Qwen3-Omni 究竟如何呢？

圖片

多語種切換：絲滑程度不輸GPT-5

Qwen3-Omni 是基于 Qwen3 的原生全模態(tài)大語言模型。它在文本和視覺模態(tài)上均無性能損失，在32個基準(zhǔn)測試中達(dá)到開源最優(yōu)水平，并在36個音頻及音視頻基準(zhǔn)測試中的22個實現(xiàn)整體最優(yōu)，表現(xiàn)超越 Gemini-2.5-Pro、Seed-ASR 和 GPT-4o-Transcribe 等強(qiáng)大的閉源模型。

這一次新模型Omini的發(fā)布有一項主打的能力就是多語種自由切換。

這項能力非常重要，比如你收聽國內(nèi)外知名大佬同臺發(fā)表的一些中英文并存的觀點時，又或者工作中，一位操著東北或四川口音的朋友跟你嘮嗑：

昨天開會噻（四川話），大家覺得 delay 兩周比較合適。

又或者單純有的朋友不自覺得，在中文里摻點英文：

Anyway，它有的時候是真的不work。

這里有一個問題，為什么包括OpenAI、谷歌在內(nèi)，大家都在卷跨/多語種理解和切換的能力？

小編認(rèn)為，這是因為跨語種理解問題本質(zhì)上是在考驗大模型跨模態(tài)泛化能力。

不同語言是不同“編碼體系”。而模型能自由切換，說明它具備了某種 跨模態(tài)映射能力（把不同符號系統(tǒng)映射到同一語義空間）。

這種能力不僅有助于語言，還能遷移到 跨模態(tài)任務(wù)（語音→文字→圖像→動作）。

此外，一句話充斥著多種語種，也可以看出大模型對語言的上下文建模和語義對齊能力是否足夠強(qiáng)，是否具備真正的泛化理解力。

因此，來都來了，小編當(dāng)然不會放過測試它的機(jī)會。

小編除了英語、沒有其他特別能扯的外語了，所以就把能想起來的語種，比如日語（扣你急哇）、韓語（康桑阿米達(dá)）、法語（蹂嗎），甚至連“瓜娃子”的四川話都飆出來了，總之，能實驗的都實驗了一番。

結(jié)果還是非常滿意的，我打9分，感覺 Omni 反應(yīng)非常絲滑，無縫切換。

視頻通話：實時畫面理解不錯

視頻通話方面，由于谷歌的Gemini類似功能發(fā)布在前，所以沒有特別驚艷的地方。不過，我發(fā)現(xiàn)一個有意思的地方，就是Qwen3-Omni在對話中，會主動根據(jù)你對話時所處的環(huán)境、動作來分析理解你的行為和意圖，并主動跟你聊天。

比如在上一個測試開始時，它就快速捕捉到我再用手機(jī)拍攝電腦中的自己，率先對我發(fā)起了搭訕：

你是在用手機(jī)自拍嗎？（瞬間小編感覺有點被反向測試了~）

大家不妨自己親自試一試。蠻有意思的。

多說一嘴，Omni設(shè)置有多種有趣的聲音可供選擇，包括：

Dylan：在北京胡同里長大的青少年
Peter ：天津相聲，專業(yè)陪唱
Cherry ：一位陽光、積極、友好、自然的年輕女士
Ethan：一個陽光、熱情、精力充沛、充滿活力的男孩
Eric：一位與眾不同的四川成都人
Jada：來自上海的火辣姐姐

解鎖多圖合成：葉凡換裝，成了

上周，熱播動漫《遮天》葉凡除了新皮（衣）膚（服），然后有在吃午飯的時候刷到了熱播劇《赴山?！?，那個蕭秋水的粉里粉氣扎小辮的少年造型著實把我萌化了，想著這倆畫面，瞬間就來了一個不錯的測試題目。

小編先在手機(jī)上涂鴉了一個比耶的手勢，然后就把下面三張圖甩給了Omni-Flash，打開圖像編輯功能，給它一句話：

圖1主體人物穿上圖2里的衣服，擺出圖3的pose。

小編一邊問，還一邊期待這三張圖合并之后會有什么神奇的效果。

圖片

不出2分鐘，Omni 給我答案了。第一眼看上去，雖然有點別扭，但沒有抽盲盒，第一張圖就能準(zhǔn)確理解我的意圖，尤其圖3我的那個手勢其實并不容易識別出來?？傊Ч€是打80分的，絕對夠用了。

圖片

你看瘦的有些不協(xié)調(diào)了，不過沒關(guān)系，繼續(xù)點擊編輯，給個prompt：

身體跟頭部相比有點偏瘦，稍微改大概壯實一些。

圖片

一下，就出來效果了，這肌肉沒誰了~我權(quán)且給它取個名字：蕭秋水裝版葉凡。

這也是圖片生成領(lǐng)域，各大模型廠商在卷的方向，多張參考圖合成自己所需要的畫面。也值得大家上手一番。

為什么可以做到這樣的效果？

其實，體驗下來不難發(fā)現(xiàn)，最大的兩個點就是：音視頻更加絲滑（延遲很低），跨模態(tài)之間信息的理解力更強(qiáng)了。

根據(jù)Github上的官方介紹，Qwen3-Omini模型實現(xiàn)了原生多模態(tài)支持。在保持強(qiáng)大音頻、音頻-視頻效果的同時，單模態(tài)的文本與圖像性能不下降。

具體來講，在 36 項音頻/視頻基準(zhǔn)中，22 項達(dá)到 SOTA（最先進(jìn)水平），開源 SOTA 達(dá)到 32 項；在語音識別（ASR）、音頻理解和語音對話上表現(xiàn)可與 Gemini 2.5 Pro 相比。

多語種支持：支持 119 種文本語言、19 種語音輸入語言、10 種語音輸出語言。

語音輸入：英語、中文、韓語、日語、德語、俄語、意大利語、法語、西班牙語、葡萄牙語、馬來語、荷蘭語、印尼語、土耳其語、越南語、粵語、阿拉伯語、烏爾都語。
語音輸出：英語、中文、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語。

圖片

此外值得一提的是，Qwen團(tuán)隊在模型架構(gòu)方面也做出了不小的創(chuàng)新，從底層的角度解釋了延遲低、泛化能力更強(qiáng)的原因。

創(chuàng)新架構(gòu)：基于 MoE 的 Thinker–Talker 設(shè)計，結(jié)合 AuT 預(yù)訓(xùn)練以獲取更強(qiáng)泛化表示；采用多碼本設(shè)計，將延遲降至最低。

在Qwen官方X賬號上，這樣來描述這款模型：

該模型實現(xiàn)了統(tǒng)一文本、圖像、音頻和視頻于一個模型中，而無需在模態(tài)間做取舍！小編想，這可能也是包括GPT-5、Gemini 2.5 Pro唯二產(chǎn)品可以做到的水平吧。

意外發(fā)現(xiàn)：訓(xùn)練數(shù)據(jù)截止到2024年

測試過程中，小編還發(fā)現(xiàn)一個Omni的秘密：它的訓(xùn)練數(shù)據(jù)時間，應(yīng)該截止到去年。因為我在視頻對話過程中問道：現(xiàn)在是哪一年，北京時間是幾點？

它回答我是2024年XX月XX日XX點XX分。小編當(dāng)時就把它調(diào)侃了一番：

那我是來自2025年的未來人，你是過去人。

雖然因為暫時沒有實時聯(lián)網(wǎng)的原因，Beta版的Omni視頻對話功能，表現(xiàn)出來的情商非常高。

他回答我：怎么可能，我們都在2024年呀，雖然未來人是一個很有趣的概念，但我們最終還是要討論現(xiàn)在的問題。

此外，小編其實還做了ChatGPT的語音對話的測試，因為推出時間已經(jīng)過去一年了，所以不管是多語種切換、還是實時時間等問題，明顯還是GPT-5更絲滑。

但有一項是Qwen3-Omni明顯占優(yōu)勢的：那就是有趣的中國方言，GPT-5始終講不出來，哈哈~

給千問團(tuán)隊刷一波火箭，撒花。

對了，朋友們可以自己實測一波：

傳送門：https://chat.qwen.ai/

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

全模態(tài)Qwen3-Omni GPT-4o

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營