偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

讓文字真正“寫進(jìn)”圖像:阿里巴巴發(fā)布Qwen-Image

人工智能
在最關(guān)鍵的中文渲染測(cè)試中,它一騎絕塵,穩(wěn)居第一。在業(yè)界認(rèn)可的GenEval測(cè)試中,Qwen-Image在對(duì)象生成項(xiàng)目上得分高達(dá)0.91,遠(yuǎn)高于其他同類模型。

阿里巴巴發(fā)布了一款全新的多模態(tài)模型Qwen-Image,這款模型擁有200億參數(shù),專為解決“圖中寫字”這一難題而生。

1.這并非簡(jiǎn)單地在圖片上“加字”。

Qwen-Image生成的文字具備真實(shí)感與融合度,不再漂浮在畫面上,而是自然嵌入圖像內(nèi)部,仿佛原本就存在于其中。

圖片

在這張由Qwen-Image生成的古代集市畫面中,出現(xiàn)了多個(gè)阿里云門店的招牌,分別售賣云存儲(chǔ)、算力、AI平臺(tái)與模型服務(wù)。街景復(fù)雜,信息密集,所有的文字元素卻絲毫不突兀。

圖片

在這張PPT中,阿里巴巴將“通義千問視覺基礎(chǔ)模型”的名稱鑲嵌在一張科技藍(lán)背景的幻燈片上,四周點(diǎn)綴抽象植物圖案,文字清晰、工整、準(zhǔn)確地匹配PPT結(jié)構(gòu)。

2.結(jié)構(gòu)重構(gòu),技術(shù)更迭

為了實(shí)現(xiàn)這種“寫得準(zhǔn)、嵌得牢”的文字圖像融合,Qwen團(tuán)隊(duì)對(duì)模型結(jié)構(gòu)進(jìn)行了徹底革新。

Qwen-Image的架構(gòu)由三大核心部分組成。

第一部分是Qwen2.5-VL,專注于圖文理解。它識(shí)別圖像中的物體與結(jié)構(gòu),同時(shí)理解文字內(nèi)容與語義。

第二部分是一個(gè)變分自編碼器(Variational AutoEncoder),用于壓縮圖像信息,提升效率。

第三部分是多模態(tài)擴(kuò)散變換器(Multimodal Diffusion Transformer),負(fù)責(zé)生成最終輸出。

但最關(guān)鍵的創(chuàng)新來自于一種全新的位置編碼方法——MSRoPE。傳統(tǒng)方法將文字當(dāng)作一串字符,在圖像中以橫排或網(wǎng)格方式簡(jiǎn)單排布。

圖片

MSRoPE從圖像中央出發(fā),沿對(duì)角線方向布置文字位置編碼。這種布局更貼合圖像的自然結(jié)構(gòu),讓模型能夠在不同分辨率下依然精準(zhǔn)定位每個(gè)文字元素。

結(jié)果就是:不論是幻燈片、街頭廣告、海報(bào)設(shè)計(jì),甚至是漫畫對(duì)話框中的對(duì)話,文字都不會(huì)跑偏、錯(cuò)位或重疊。

這項(xiàng)技術(shù)不僅提升了對(duì)中文復(fù)雜字符的渲染能力,還讓模型在中英文切換中保持流暢。

3.不靠AI圖訓(xùn)練,照樣超越對(duì)手

圖片

生成文字圖像的最大風(fēng)險(xiǎn),在于訓(xùn)練數(shù)據(jù)的質(zhì)量。整個(gè)訓(xùn)練集共分為四類:55%為自然圖片、27%為設(shè)計(jì)類內(nèi)容(如海報(bào)和PPT)、13%為人物照片,剩下5%為受控合成數(shù)據(jù)。

所有圖像都必須通過多級(jí)篩選流程,亮度、飽和度、色彩熵、清晰度四項(xiàng)指標(biāo)全面把關(guān),極端異常的圖像會(huì)被標(biāo)記并復(fù)查。

在此基礎(chǔ)上,Qwen-Image采用三種訓(xùn)練策略:純渲染策略,即在簡(jiǎn)單背景上顯示清晰文字;組合渲染策略,將文字置于真實(shí)場(chǎng)景中;復(fù)雜渲染策略,則處理多欄排版、手寫風(fēng)格、演示幻燈片等高難度格式。

這三種策略協(xié)同發(fā)力,覆蓋從基礎(chǔ)到高級(jí)的各種文本圖像組合,構(gòu)建出多層次、強(qiáng)魯棒性的訓(xùn)練數(shù)據(jù)集。。

在一項(xiàng)包含一萬多次匿名對(duì)比評(píng)估的測(cè)試中,Qwen-Image的表現(xiàn)優(yōu)于GPT-Image-1與Flux.1 Context等商業(yè)模型。

整體排名第三,僅次于少數(shù)研究性模型。在圖像生成、圖像編輯、中英文文字渲染這三項(xiàng)指標(biāo)上,Qwen-Image幾乎全面領(lǐng)先。

圖片

圖注:在與 Seedream 3.0、GPT-Image-1、Flux.1 和 Bagel 的正面測(cè)試中,Qwen-Image 在圖像生成與編輯方面表現(xiàn)領(lǐng)先。該模型在中文文本渲染方面也位居第一,并在英文表現(xiàn)上與競(jìng)爭(zhēng)對(duì)手持平。

在最關(guān)鍵的中文渲染測(cè)試中,它一騎絕塵,穩(wěn)居第一。在業(yè)界認(rèn)可的GenEval測(cè)試中,Qwen-Image在對(duì)象生成項(xiàng)目上得分高達(dá)0.91,遠(yuǎn)高于其他同類模型。

這說明,它不僅擅長(zhǎng)生成“看起來好”的圖像,更能處理結(jié)構(gòu)復(fù)雜、任務(wù)精細(xì)的圖文嵌合內(nèi)容。

阿里巴巴也在同步推進(jìn)一個(gè)名為Qwen VLo的模型,用于文字能力更強(qiáng)的圖文任務(wù)。

Qwen-Image現(xiàn)已在GitHub與Hugging Face平臺(tái)開放,可免費(fèi)試用,亦提供在線演示。

Github:https://github.com/QwenLM/Qwen-Image?tab=readme-ov-file

demo:https://huggingface.co/spaces/Qwen/Qwen-Image

paper:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

責(zé)任編輯:武曉燕 來源: 大數(shù)據(jù)文摘
相關(guān)推薦

2025-09-15 05:00:00

Qwen-Image通義千問AI設(shè)計(jì)師

2010-06-28 10:43:47

2013-08-22 09:41:52

阿里巴巴去IOE王堅(jiān)

2011-12-28 15:26:16

Spring\Dubb

2025-08-05 09:15:15

2009-02-27 10:46:32

DBA筆試題阿里巴巴

2019-08-15 10:25:02

代碼開發(fā)工具

2023-03-29 09:42:32

2013-08-22 09:36:45

阿里巴巴王堅(jiān)阿里云

2016-02-29 19:38:06

阿里巴巴物聯(lián)網(wǎng)

2009-06-30 13:28:54

阿里巴巴旺旺

2014-12-31 10:48:40

阿里巴巴馬云

2014-06-19 16:52:20

阿里巴巴

2009-06-22 09:38:49

阿里巴巴辦公環(huán)境

2014-06-11 10:04:05

UC優(yōu)視阿里巴巴

2010-08-25 14:33:59

抄底

2015-04-23 15:30:08

2018-10-16 15:34:17

阿里巴巴Apache Flin大數(shù)據(jù)

2013-06-02 21:53:51

阿里巴巴Windows Azu淘寶

2015-06-12 10:12:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)