阿里最新全模態(tài)模型,成了!真·實測:多圖合成pose隨意擺,視頻實時對話,1分鐘7種語言絲滑切換,意外發(fā)現(xiàn):訓(xùn)練數(shù)據(jù)截止到去年
原創(chuàng) 精選編輯 | 云昭
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
就在今天,通義千問團(tuán)隊帶著新品來炸街了。
網(wǎng)友看完之后,都替美國的AI焦慮起來了:
如果美國實驗室不開始在開放權(quán)重上競爭,中國模型可就要壟斷人工智能市場。
圖片
那么,作為千問系列里首個端到端原生全模態(tài)(文本、圖像、音頻、視頻)的通用大模型,Qwen3-Omni 究竟如何呢?
圖片
多語種切換:絲滑程度不輸GPT-5
Qwen3-Omni 是基于 Qwen3 的原生全模態(tài)大語言模型。它在文本和視覺模態(tài)上均無性能損失,在32個基準(zhǔn)測試中達(dá)到開源最優(yōu)水平,并在36個音頻及音視頻基準(zhǔn)測試中的22個實現(xiàn)整體最優(yōu),表現(xiàn)超越 Gemini-2.5-Pro、Seed-ASR 和 GPT-4o-Transcribe 等強(qiáng)大的閉源模型。
這一次新模型Omini的發(fā)布有一項主打的能力就是多語種自由切換。
這項能力非常重要,比如你收聽國內(nèi)外知名大佬同臺發(fā)表的一些中英文并存的觀點時,又或者工作中,一位操著東北或四川口音的朋友跟你嘮嗑:
昨天開會噻(四川話),大家覺得 delay 兩周比較合適。
又或者單純有的朋友不自覺得,在中文里摻點英文:
Anyway,它有的時候是真的不work。
這里有一個問題,為什么包括OpenAI、谷歌在內(nèi),大家都在卷跨/多語種理解和切換的能力?
小編認(rèn)為,這是因為跨語種理解問題本質(zhì)上是在考驗大模型跨模態(tài)泛化能力。
不同語言是不同“編碼體系”。而模型能自由切換,說明它具備了某種 跨模態(tài)映射能力(把不同符號系統(tǒng)映射到同一語義空間)。
這種能力不僅有助于語言,還能遷移到 跨模態(tài)任務(wù)(語音→文字→圖像→動作)。
此外,一句話充斥著多種語種,也可以看出大模型對語言的上下文建模和語義對齊能力是否足夠強(qiáng),是否具備真正的泛化理解力。
因此,來都來了,小編當(dāng)然不會放過測試它的機(jī)會。

小編除了英語、沒有其他特別能扯的外語了,所以就把能想起來的語種,比如日語(扣你急哇)、韓語(康桑阿米達(dá))、法語(蹂嗎),甚至連“瓜娃子”的四川話都飆出來了,總之,能實驗的都實驗了一番。
結(jié)果還是非常滿意的,我打9分,感覺 Omni 反應(yīng)非常絲滑,無縫切換。
視頻通話:實時畫面理解不錯
視頻通話方面,由于谷歌的Gemini類似功能發(fā)布在前,所以沒有特別驚艷的地方。不過,我發(fā)現(xiàn)一個有意思的地方,就是Qwen3-Omni在對話中,會主動根據(jù)你對話時所處的環(huán)境、動作來分析理解你的行為和意圖,并主動跟你聊天。
比如在上一個測試開始時,它就快速捕捉到我再用手機(jī)拍攝電腦中的自己,率先對我發(fā)起了搭訕:
你是在用手機(jī)自拍嗎?(瞬間小編感覺有點被反向測試了~)
大家不妨自己親自試一試。蠻有意思的。
多說一嘴,Omni設(shè)置有多種有趣的聲音可供選擇,包括:
Dylan:在北京胡同里長大的青少年
Peter :天津相聲,專業(yè)陪唱
Cherry : 一位陽光、積極、友好、自然的年輕女士
Ethan: 一個陽光、熱情、精力充沛、充滿活力的男孩
Eric:一位與眾不同的四川成都人
Jada:來自上海的火辣姐姐
解鎖多圖合成:葉凡換裝,成了
上周,熱播動漫《遮天》葉凡除了新皮(衣)膚(服),然后有在吃午飯的時候刷到了熱播劇《赴山?!?,那個蕭秋水的粉里粉氣扎小辮的少年造型著實把我萌化了,想著這倆畫面,瞬間就來了一個不錯的測試題目。
小編先在手機(jī)上涂鴉了一個比耶的手勢,然后就把下面三張圖甩給了Omni-Flash,打開圖像編輯功能,給它一句話:
圖1主體人物穿上圖2里的衣服,擺出圖3的pose。
小編一邊問,還一邊期待這三張圖合并之后會有什么神奇的效果。
圖片
不出2分鐘,Omni 給我答案了。第一眼看上去,雖然有點別扭,但沒有抽盲盒,第一張圖就能準(zhǔn)確理解我的意圖,尤其圖3我的那個手勢其實并不容易識別出來??傊Ч€是打80分的,絕對夠用了。
圖片
你看瘦的有些不協(xié)調(diào)了,不過沒關(guān)系,繼續(xù)點擊編輯,給個prompt:
身體跟頭部相比有點偏瘦,稍微改大概壯實一些。
圖片
一下,就出來效果了,這肌肉沒誰了~我權(quán)且給它取個名字:蕭秋水裝版葉凡。
這也是圖片生成領(lǐng)域,各大模型廠商在卷的方向,多張參考圖合成自己所需要的畫面。也值得大家上手一番。
為什么可以做到這樣的效果?
其實,體驗下來不難發(fā)現(xiàn),最大的兩個點就是:音視頻更加絲滑(延遲很低),跨模態(tài)之間信息的理解力更強(qiáng)了。
根據(jù)Github上的官方介紹,Qwen3-Omini模型實現(xiàn)了原生多模態(tài)支持。在保持強(qiáng)大音頻、音頻-視頻效果的同時,單模態(tài)的文本與圖像性能不下降。
具體來講,在 36 項音頻/視頻基準(zhǔn)中,22 項達(dá)到 SOTA(最先進(jìn)水平),開源 SOTA 達(dá)到 32 項;在語音識別(ASR)、音頻理解和語音對話上表現(xiàn)可與 Gemini 2.5 Pro 相比。
多語種支持:支持 119 種文本語言、19 種語音輸入語言、10 種語音輸出語言。
- 語音輸入:英語、中文、韓語、日語、德語、俄語、意大利語、法語、西班牙語、葡萄牙語、馬來語、荷蘭語、印尼語、土耳其語、越南語、粵語、阿拉伯語、烏爾都語。
- 語音輸出:英語、中文、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語。
圖片
此外值得一提的是,Qwen團(tuán)隊在模型架構(gòu)方面也做出了不小的創(chuàng)新,從底層的角度解釋了延遲低、泛化能力更強(qiáng)的原因。
創(chuàng)新架構(gòu):基于 MoE 的 Thinker–Talker 設(shè)計,結(jié)合 AuT 預(yù)訓(xùn)練以獲取更強(qiáng)泛化表示;采用多碼本設(shè)計,將延遲降至最低。
在Qwen官方X賬號上,這樣來描述這款模型:
該模型實現(xiàn)了統(tǒng)一文本、圖像、音頻和視頻于一個模型中,而無需在模態(tài)間做取舍!小編想,這可能也是包括GPT-5、Gemini 2.5 Pro唯二產(chǎn)品可以做到的水平吧。
意外發(fā)現(xiàn):訓(xùn)練數(shù)據(jù)截止到2024年
測試過程中,小編還發(fā)現(xiàn)一個Omni的秘密:它的訓(xùn)練數(shù)據(jù)時間,應(yīng)該截止到去年。因為我在視頻對話過程中問道:現(xiàn)在是哪一年,北京時間是幾點?
它回答我是2024年XX月XX日XX點XX分。小編當(dāng)時就把它調(diào)侃了一番:
那我是來自2025年的未來人,你是過去人。

雖然因為暫時沒有實時聯(lián)網(wǎng)的原因,Beta版的Omni視頻對話功能,表現(xiàn)出來的情商非常高。
他回答我:怎么可能,我們都在2024年呀,雖然未來人是一個很有趣的概念,但我們最終還是要討論現(xiàn)在的問題。
此外,小編其實還做了ChatGPT的語音對話的測試,因為推出時間已經(jīng)過去一年了,所以不管是多語種切換、還是實時時間等問題,明顯還是GPT-5更絲滑。
但有一項是Qwen3-Omni明顯占優(yōu)勢的:那就是有趣的中國方言,GPT-5始終講不出來,哈哈~
給千問團(tuán)隊刷一波火箭,撒花。
對了,朋友們可以自己實測一波:































