偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

阿里版“Her”上線即開源!7B模型太全能了,全面擊敗Gemini-1.5-pro!所有用戶都能試玩! 原創(chuàng)

發(fā)布于 2025-3-27 13:46
瀏覽
0收藏

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

Qwen Chat上新實(shí)時(shí)語音聊天 + 視頻聊天了!

可以像打電話或視頻通話一樣與AI進(jìn)行聊天,Qwen也有自己的Her了。

更更重要的是,一向大方開源的千問,直接開源了背后的模型 Qwen2.5-Omni-7B( Apache 2.0 許可),并發(fā)布了詳細(xì)的技術(shù)報(bào)告!

做了OpenAI應(yīng)該干的事!

Qwen Chat:?

? https://chat.qwenlm.ai?

?

GitHub:?

? https://github.com/QwenLM/Qwen2.5-Omni?

?

目前每天有10次體驗(yàn)機(jī)會(huì):

阿里版“Her”上線即開源!7B模型太全能了,全面擊敗Gemini-1.5-pro!所有用戶都能試玩!-AI.x社區(qū)圖片

阿里版“Her”上線即開源!7B模型太全能了,全面擊敗Gemini-1.5-pro!所有用戶都能試玩!-AI.x社區(qū)圖片

Qwen2.5-Omni-7B模型,它是一個(gè) Omni(全能)模型。簡(jiǎn)單說,就是一個(gè)模型能同時(shí)理解 文本、音頻、圖像、視頻多種輸入,并且能輸出文本和音頻。

與類似規(guī)模的單模態(tài)模型和封閉源模型(如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro)相比,Qwen2.5-Omni 在所有模態(tài)上都表現(xiàn)出強(qiáng)勁的性能。 

阿里版“Her”上線即開源!7B模型太全能了,全面擊敗Gemini-1.5-pro!所有用戶都能試玩!-AI.x社區(qū)圖片

我們看一下官方Demo案例,感受下Qwen2.5-Omni-7B的強(qiáng)大。

Qwen2.5-Omni-7B可以成為繪畫搭子,不僅成功識(shí)別了小姐姐正在畫的吉他和毛絨熊,還能給出一些建議,提出可以畫一個(gè)正在彈吉他的熊,讓畫面更加有趣:

阿里版“Her”上線即開源!7B模型太全能了,全面擊敗Gemini-1.5-pro!所有用戶都能試玩!-AI.x社區(qū)

而且,AI還可以聆聽團(tuán)隊(duì)成員的自我介紹,并在結(jié)束后回答“聽力問題”,成功對(duì)應(yīng)了特定成員的研究方向,并且還有記憶能力,可以回憶成員有沒有戴眼鏡等等:

阿里版“Her”上線即開源!7B模型太全能了,全面擊敗Gemini-1.5-pro!所有用戶都能試玩!-AI.x社區(qū)

目前Qwen提供了四款音色,分別是三個(gè)女聲,和一款男聲。

阿里版“Her”上線即開源!7B模型太全能了,全面擊敗Gemini-1.5-pro!所有用戶都能試玩!-AI.x社區(qū)圖片


評(píng)論區(qū)網(wǎng)友對(duì)千問的更新表達(dá)了驚喜,因?yàn)镼wen2.5-Omni-7B的開源,這周的模型發(fā)布變得更激烈、更精彩了。

阿里版“Her”上線即開源!7B模型太全能了,全面擊敗Gemini-1.5-pro!所有用戶都能試玩!-AI.x社區(qū)圖片

阿里版“Her”上線即開源!7B模型太全能了,全面擊敗Gemini-1.5-pro!所有用戶都能試玩!-AI.x社區(qū)圖片

也有網(wǎng)友認(rèn)為,提供“虛擬女友”的音色,不符合千問通用模型的“人設(shè)”。

阿里版“Her”上線即開源!7B模型太全能了,全面擊敗Gemini-1.5-pro!所有用戶都能試玩!-AI.x社區(qū)圖片

有網(wǎng)友在一手體驗(yàn)后,感覺功能復(fù)雜,雖然有娛樂性,但從技術(shù)上看沒有做到極致,因此需要繼續(xù)努力。

阿里版“Her”上線即開源!7B模型太全能了,全面擊敗Gemini-1.5-pro!所有用戶都能試玩!-AI.x社區(qū)圖片

核心架構(gòu):Thinker-Talker,從思考到交流

Qwen2.5-Omni 采用 Thinker-Talker 架構(gòu)。Thinker 的功能類似大腦,負(fù)責(zé)處理和理解來自文本、音頻和視頻模式的輸入,生成高級(jí)表示和相應(yīng)的文本。

Talker 的功能就像人的嘴巴,以流式方式接收由 Thinker 生成的高級(jí)表征和文本,并流暢地輸出離散的語音標(biāo)記。思考者是一個(gè)變形解碼器,并配有音頻和圖像編碼器,以方便信息提取。相比之下,Talker 被設(shè)計(jì)為雙軌自回歸變換解碼器架構(gòu)。

在訓(xùn)練和推理過程中,Talker 直接從 Thinker 接收高維表示,并共享 Thinker 的所有歷史上下文信息。因此,整個(gè)架構(gòu)作為一個(gè)具有凝聚力的單一模型運(yùn)行,實(shí)現(xiàn)了端到端的訓(xùn)練和推理。

阿里版“Her”上線即開源!7B模型太全能了,全面擊敗Gemini-1.5-pro!所有用戶都能試玩!-AI.x社區(qū)圖片

本文轉(zhuǎn)載自??51CTO技術(shù)棧??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦