讓文字真正“寫進(jìn)”圖像:阿里巴巴發(fā)布Qwen-Image
阿里巴巴發(fā)布了一款全新的多模態(tài)模型Qwen-Image,這款模型擁有200億參數(shù),專為解決“圖中寫字”這一難題而生。
1.這并非簡(jiǎn)單地在圖片上“加字”。
Qwen-Image生成的文字具備真實(shí)感與融合度,不再漂浮在畫面上,而是自然嵌入圖像內(nèi)部,仿佛原本就存在于其中。

在這張由Qwen-Image生成的古代集市畫面中,出現(xiàn)了多個(gè)阿里云門店的招牌,分別售賣云存儲(chǔ)、算力、AI平臺(tái)與模型服務(wù)。街景復(fù)雜,信息密集,所有的文字元素卻絲毫不突兀。

在這張PPT中,阿里巴巴將“通義千問視覺基礎(chǔ)模型”的名稱鑲嵌在一張科技藍(lán)背景的幻燈片上,四周點(diǎn)綴抽象植物圖案,文字清晰、工整、準(zhǔn)確地匹配PPT結(jié)構(gòu)。
2.結(jié)構(gòu)重構(gòu),技術(shù)更迭
為了實(shí)現(xiàn)這種“寫得準(zhǔn)、嵌得牢”的文字圖像融合,Qwen團(tuán)隊(duì)對(duì)模型結(jié)構(gòu)進(jìn)行了徹底革新。
Qwen-Image的架構(gòu)由三大核心部分組成。
第一部分是Qwen2.5-VL,專注于圖文理解。它識(shí)別圖像中的物體與結(jié)構(gòu),同時(shí)理解文字內(nèi)容與語義。
第二部分是一個(gè)變分自編碼器(Variational AutoEncoder),用于壓縮圖像信息,提升效率。
第三部分是多模態(tài)擴(kuò)散變換器(Multimodal Diffusion Transformer),負(fù)責(zé)生成最終輸出。
但最關(guān)鍵的創(chuàng)新來自于一種全新的位置編碼方法——MSRoPE。傳統(tǒng)方法將文字當(dāng)作一串字符,在圖像中以橫排或網(wǎng)格方式簡(jiǎn)單排布。

MSRoPE從圖像中央出發(fā),沿對(duì)角線方向布置文字位置編碼。這種布局更貼合圖像的自然結(jié)構(gòu),讓模型能夠在不同分辨率下依然精準(zhǔn)定位每個(gè)文字元素。
結(jié)果就是:不論是幻燈片、街頭廣告、海報(bào)設(shè)計(jì),甚至是漫畫對(duì)話框中的對(duì)話,文字都不會(huì)跑偏、錯(cuò)位或重疊。
這項(xiàng)技術(shù)不僅提升了對(duì)中文復(fù)雜字符的渲染能力,還讓模型在中英文切換中保持流暢。
3.不靠AI圖訓(xùn)練,照樣超越對(duì)手

生成文字圖像的最大風(fēng)險(xiǎn),在于訓(xùn)練數(shù)據(jù)的質(zhì)量。整個(gè)訓(xùn)練集共分為四類:55%為自然圖片、27%為設(shè)計(jì)類內(nèi)容(如海報(bào)和PPT)、13%為人物照片,剩下5%為受控合成數(shù)據(jù)。
所有圖像都必須通過多級(jí)篩選流程,亮度、飽和度、色彩熵、清晰度四項(xiàng)指標(biāo)全面把關(guān),極端異常的圖像會(huì)被標(biāo)記并復(fù)查。
在此基礎(chǔ)上,Qwen-Image采用三種訓(xùn)練策略:純渲染策略,即在簡(jiǎn)單背景上顯示清晰文字;組合渲染策略,將文字置于真實(shí)場(chǎng)景中;復(fù)雜渲染策略,則處理多欄排版、手寫風(fēng)格、演示幻燈片等高難度格式。
這三種策略協(xié)同發(fā)力,覆蓋從基礎(chǔ)到高級(jí)的各種文本圖像組合,構(gòu)建出多層次、強(qiáng)魯棒性的訓(xùn)練數(shù)據(jù)集。。
在一項(xiàng)包含一萬多次匿名對(duì)比評(píng)估的測(cè)試中,Qwen-Image的表現(xiàn)優(yōu)于GPT-Image-1與Flux.1 Context等商業(yè)模型。
整體排名第三,僅次于少數(shù)研究性模型。在圖像生成、圖像編輯、中英文文字渲染這三項(xiàng)指標(biāo)上,Qwen-Image幾乎全面領(lǐng)先。

圖注:在與 Seedream 3.0、GPT-Image-1、Flux.1 和 Bagel 的正面測(cè)試中,Qwen-Image 在圖像生成與編輯方面表現(xiàn)領(lǐng)先。該模型在中文文本渲染方面也位居第一,并在英文表現(xiàn)上與競(jìng)爭(zhēng)對(duì)手持平。
在最關(guān)鍵的中文渲染測(cè)試中,它一騎絕塵,穩(wěn)居第一。在業(yè)界認(rèn)可的GenEval測(cè)試中,Qwen-Image在對(duì)象生成項(xiàng)目上得分高達(dá)0.91,遠(yuǎn)高于其他同類模型。
這說明,它不僅擅長(zhǎng)生成“看起來好”的圖像,更能處理結(jié)構(gòu)復(fù)雜、任務(wù)精細(xì)的圖文嵌合內(nèi)容。
阿里巴巴也在同步推進(jìn)一個(gè)名為Qwen VLo的模型,用于文字能力更強(qiáng)的圖文任務(wù)。
Qwen-Image現(xiàn)已在GitHub與Hugging Face平臺(tái)開放,可免費(fèi)試用,亦提供在線演示。
Github:https://github.com/QwenLM/Qwen-Image?tab=readme-ov-file
demo:https://huggingface.co/spaces/Qwen/Qwen-Image
paper:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf























