偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rt id="vgbdi"></rt>

<center id="vgbdi"></center>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

阿里剛剛開(kāi)源Qwen-Image，免費(fèi)版GPT-4o吉卜力，中文最好模型

2025-08-05 09:15:15

人工智能新聞

Qwen-Image是一個(gè)200億參數(shù)的MMDiT模型，可生成寫(xiě)實(shí)、動(dòng)漫、賽博朋克、科幻、極簡(jiǎn)、復(fù)古、超現(xiàn)實(shí)、水墨等幾十種類(lèi)型的圖片，支持圖片的風(fēng)格遷移、增刪改、細(xì)節(jié)增強(qiáng)、文字編輯，人物姿態(tài)調(diào)整等常規(guī)操作。

今天凌晨，阿里巴巴達(dá)摩院開(kāi)源了最新文生圖模型Qwen-Image。

Qwen-Image是一個(gè)200億參數(shù)的MMDiT模型，可生成寫(xiě)實(shí)、動(dòng)漫、賽博朋克、科幻、極簡(jiǎn)、復(fù)古、超現(xiàn)實(shí)、水墨等幾十種類(lèi)型的圖片，支持圖片的風(fēng)格遷移、增刪改、細(xì)節(jié)增強(qiáng)、文字編輯，人物姿態(tài)調(diào)整等常規(guī)操作。

Qwen-Image也可以生成OpenAI的GPT-4o爆火全網(wǎng)的吉卜力風(fēng)格圖片。根據(jù)「AIGC開(kāi)放社區(qū)」實(shí)際測(cè)試二者差距很小，尤其是在超復(fù)雜中文提示詞理解、文字嵌入方面Qwen-Image更好。

根據(jù)阿里公布的測(cè)試數(shù)據(jù)顯示，Qwen-Image在GenEval、DPG、OneIG-Bench以及GEdit、ImgEdit和GSO測(cè)試中，圖片生成、編輯能力非常出色，大幅度超越了文生圖開(kāi)源大黑馬FLUX.1 [Dev]，成為中文最好的文生圖模型。

免費(fèi)在線(xiàn)體驗(yàn)地址：https://chat.qwen.ai/c/guest

開(kāi)源地址：https://huggingface.co/Qwen/Qwen-Image

https://modelscope.cn/models/Qwen/Qwen-Image

https://github.com/QwenLM/Qwen-Image

目前，阿里免費(fèi)提供Qwen-Image，甚至不用注冊(cè)賬號(hào)訪(fǎng)客模式也能使用。打開(kāi)上面地址，然后選擇下方的“圖像生成”就可以開(kāi)始了。

在生成圖像前我們可以選擇圖像的比例，1:1、3:4、16:9等不同類(lèi)型，可以適配手機(jī)、平板不同類(lèi)型的設(shè)備和媒體平臺(tái)。做封面、插圖都非常好用

先試一個(gè)簡(jiǎn)單的提示：在風(fēng)雨中奔跑的小女孩，面帶笑容，上面寫(xiě)著Qwen-Image。吉卜力風(fēng)格。

試個(gè)復(fù)雜點(diǎn)的，古代的長(zhǎng)安城街道，街道兩旁是古色古香的建筑，有酒樓、茶館、商鋪等，街上的行人穿著各式各樣的古裝，有的騎馬，有的步行，還有小販在叫賣(mài)商品，充滿(mǎn)了濃厚的歷史氛圍。一座顯眼的酒樓牌匾上寫(xiě)著“阿里巴巴達(dá)摩院”。

一位穿著"QWEN"標(biāo)志的T恤的中國(guó)美女正拿著黑色的馬克筆面向鏡頭微笑。她身后的玻璃板上手寫(xiě)體寫(xiě)著 “一、Qwen-Image的技術(shù)路線(xiàn)：探索視覺(jué)生成基礎(chǔ)模型的極限，開(kāi)創(chuàng)理解與生成一體化的未來(lái)。

二、Qwen-Image的模型特色：1、復(fù)雜文字渲染。支持中英渲染、自動(dòng)布局；2、精準(zhǔn)圖像編輯。支持文字編輯、物體增減、風(fēng)格變換。三、Qwen-Image的未來(lái)愿景：賦能專(zhuān)業(yè)內(nèi)容創(chuàng)作、助力生成式AI發(fā)展?！?/span>

再試一個(gè)英文的提示，An ancient battlefield, with dark clouds in the sky, thunder rumbling and lightning flashing. Soldiers in armor are fighting bravely on the battlefield. In the distance, huge monsters are roaring, as if it is a contest between humans and mythical creatures, filled with a tense and exciting at mosphere

中文意思，古代的戰(zhàn)場(chǎng)，天空中烏云密布，電閃雷鳴，戰(zhàn)場(chǎng)上有穿著盔甲的士兵在奮勇廝殺，遠(yuǎn)處有巨大的怪獸在咆哮，仿佛是一場(chǎng)人與神話(huà)生物的較量，充滿(mǎn)了緊張與刺激的氛圍。

一片無(wú)垠的沙漠在夜晚靜靜鋪展，天空中銀河清晰可見(jiàn)，星星密布如銀沙，前景是一座起伏的沙丘，風(fēng)吹過(guò)留下細(xì)膩的波紋，寧?kù)o、莊嚴(yán)而神秘。

我們?cè)隗w驗(yàn)一下Qwen-Image強(qiáng)大的圖像編輯能力，就把上面剛生成的沙漠圖片，轉(zhuǎn)換成吉卜力風(fēng)格吧。

直接把圖片上傳到對(duì)話(huà)框，然后輸入，幫我把這張圖片轉(zhuǎn)換成白天吉卜力風(fēng)格。

再把第一個(gè)生成的吉卜力風(fēng)格小女孩轉(zhuǎn)換成寫(xiě)實(shí)女孩。

對(duì)于阿里新開(kāi)源的Qwen-Image，網(wǎng)友表示，非常好，和GPT-4o一樣棒。

圖片看起來(lái)好極了，一定要試試。

Qwen 團(tuán)隊(duì)在所有模型上都勢(shì)如破竹！干得好，Qwen3 系列對(duì)于本地開(kāi)源模型來(lái)說(shuō)是相當(dāng)大的升級(jí)。而現(xiàn)在，甚至連圖像生成也是如此。

這真是一個(gè)超棒的模型，從未想過(guò) Qwen能推出200億參數(shù)的多模態(tài)擴(kuò)散文本到圖像生成模型，但它確實(shí)來(lái)了！

它在各項(xiàng)基準(zhǔn)測(cè)試中性能超越了所有其他模型，并采用 Apache 許可證發(fā)布這非常值得稱(chēng)贊。祝賀 Qwen 團(tuán)隊(duì)。

Qwen-Image模型一共由多模態(tài)大語(yǔ)言模型、變分自編碼器和多模態(tài)擴(kuò)散Transformer（MMDiT）三大塊組成。

其中，多模態(tài)大語(yǔ)言模型扮演著條件編碼器的角色，負(fù)責(zé)從文本輸入中提取關(guān)鍵特征。Qwen-Image選用Qwen2.5-VL 作為這一模塊的實(shí)現(xiàn)。Qwen2.5-VL不僅在語(yǔ)言和視覺(jué)空間的對(duì)齊上表現(xiàn)出色，能夠使語(yǔ)言和圖像信息在同一個(gè)維度上相互呼應(yīng)，而且在語(yǔ)言建模能力上也毫不遜色，與純粹的語(yǔ)言模型相比，幾乎沒(méi)有任何性能損失。

Qwen-Image支持多模態(tài)輸入，能夠同時(shí)處理文本和圖像，解鎖了更廣泛的功能，例如，圖像編輯等高級(jí)應(yīng)用。當(dāng)用戶(hù)輸入文本描述時(shí)，Qwen2.5-VL會(huì)提取其中的關(guān)鍵特征，將其轉(zhuǎn)化為高維空間中的向量表示，為后續(xù)的圖像生成提供精準(zhǔn)的語(yǔ)義指導(dǎo)。

變分自編碼器則承擔(dān)著圖像token化的功能，負(fù)責(zé)將輸入圖像壓縮為緊湊的潛在表示，并在推理階段將潛在表示解碼回圖像。Qwen-Image的VAE設(shè)計(jì)采用了單編碼器、雙解碼器架構(gòu)，這一設(shè)計(jì)源于對(duì)通用視覺(jué)表示的追求，既需兼容圖像與視頻，又要避免聯(lián)合模型常見(jiàn)的性能妥協(xié)。

Qwen-Image基于Wan-2.1-VAE的架構(gòu)，凍結(jié)其編碼器以保持基礎(chǔ)能力，僅針對(duì)圖像解碼器進(jìn)行微調(diào)，使其更專(zhuān)注于圖像領(lǐng)域的重建任務(wù)。為提升小文本和精細(xì)細(xì)節(jié)的重建保真度，解碼器的訓(xùn)練數(shù)據(jù)包含大量文本豐富的圖像，涵蓋真實(shí)文檔與合成段落，涉及多種語(yǔ)言。

在訓(xùn)練策略上，通過(guò)平衡重建損失與感知損失減少網(wǎng)格偽影，并動(dòng)態(tài)調(diào)整兩者比例，同時(shí)發(fā)現(xiàn)當(dāng)重建質(zhì)量提升后，對(duì)抗損失效果減弱，因此僅保留前兩種損失，最終實(shí)現(xiàn)了在保證效率的同時(shí)，增強(qiáng)細(xì)節(jié)渲染能力的目標(biāo)。

MMDiT作為Qwen-Image的核心架構(gòu)主要負(fù)責(zé)在文本引導(dǎo)下對(duì)噪聲與圖像潛在表示之間的復(fù)雜聯(lián)合分布進(jìn)行建模。還引入了創(chuàng)新的 Multimodal Scalable RoPE（MSRoPE）嵌入方法，有效解決了文本與圖像在聯(lián)合編碼時(shí)的位置混淆問(wèn)題。

傳統(tǒng)方法中，文本 token 常直接拼接在圖像位置嵌入之后，或被視為特定形狀的 2D token，易導(dǎo)致部分位置編碼同構(gòu)，影響模型區(qū)分能力。

而MSRoPE將文本輸入視為二維張量，在兩個(gè)維度上應(yīng)用相同的位置 ID，概念上沿圖像對(duì)角線(xiàn)進(jìn)行拼接，既保留了圖像分辨率縮放的優(yōu)勢(shì)，又在文本側(cè)保持了與 1D-RoPE 的功能等效，無(wú)需為文本確定最優(yōu)位置編碼，顯著提升了圖文對(duì)齊的準(zhǔn)確性。

責(zé)任編輯：張燕妮來(lái)源： AIGC開(kāi)放社區(qū)

AI 模型開(kāi)源

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)