偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rt id="f3t39"><strike id="f3t39"><thead id="f3t39"></thead></strike></rt>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

讓文字真正“寫進(jìn)”圖像：阿里巴巴發(fā)布Qwen-Image

2025-08-08 14:27:50

在最關(guān)鍵的中文渲染測(cè)試中，它一騎絕塵，穩(wěn)居第一。在業(yè)界認(rèn)可的GenEval測(cè)試中，Qwen-Image在對(duì)象生成項(xiàng)目上得分高達(dá)0.91，遠(yuǎn)高于其他同類模型。

阿里巴巴發(fā)布了一款全新的多模態(tài)模型Qwen-Image，這款模型擁有200億參數(shù)，專為解決“圖中寫字”這一難題而生。

1.這并非簡(jiǎn)單地在圖片上“加字”。

Qwen-Image生成的文字具備真實(shí)感與融合度，不再漂浮在畫面上，而是自然嵌入圖像內(nèi)部，仿佛原本就存在于其中。

在這張由Qwen-Image生成的古代集市畫面中，出現(xiàn)了多個(gè)阿里云門店的招牌，分別售賣云存儲(chǔ)、算力、AI平臺(tái)與模型服務(wù)。街景復(fù)雜，信息密集，所有的文字元素卻絲毫不突兀。

在這張PPT中，阿里巴巴將“通義千問視覺基礎(chǔ)模型”的名稱鑲嵌在一張科技藍(lán)背景的幻燈片上，四周點(diǎn)綴抽象植物圖案，文字清晰、工整、準(zhǔn)確地匹配PPT結(jié)構(gòu)。

2.結(jié)構(gòu)重構(gòu)，技術(shù)更迭

為了實(shí)現(xiàn)這種“寫得準(zhǔn)、嵌得牢”的文字圖像融合，Qwen團(tuán)隊(duì)對(duì)模型結(jié)構(gòu)進(jìn)行了徹底革新。

Qwen-Image的架構(gòu)由三大核心部分組成。

第一部分是Qwen2.5-VL，專注于圖文理解。它識(shí)別圖像中的物體與結(jié)構(gòu)，同時(shí)理解文字內(nèi)容與語義。

第二部分是一個(gè)變分自編碼器（Variational AutoEncoder），用于壓縮圖像信息，提升效率。

第三部分是多模態(tài)擴(kuò)散變換器（Multimodal Diffusion Transformer），負(fù)責(zé)生成最終輸出。

但最關(guān)鍵的創(chuàng)新來自于一種全新的位置編碼方法——MSRoPE。傳統(tǒng)方法將文字當(dāng)作一串字符，在圖像中以橫排或網(wǎng)格方式簡(jiǎn)單排布。

MSRoPE從圖像中央出發(fā)，沿對(duì)角線方向布置文字位置編碼。這種布局更貼合圖像的自然結(jié)構(gòu)，讓模型能夠在不同分辨率下依然精準(zhǔn)定位每個(gè)文字元素。

結(jié)果就是：不論是幻燈片、街頭廣告、海報(bào)設(shè)計(jì)，甚至是漫畫對(duì)話框中的對(duì)話，文字都不會(huì)跑偏、錯(cuò)位或重疊。

這項(xiàng)技術(shù)不僅提升了對(duì)中文復(fù)雜字符的渲染能力，還讓模型在中英文切換中保持流暢。

3.不靠AI圖訓(xùn)練，照樣超越對(duì)手

生成文字圖像的最大風(fēng)險(xiǎn)，在于訓(xùn)練數(shù)據(jù)的質(zhì)量。整個(gè)訓(xùn)練集共分為四類：55%為自然圖片、27%為設(shè)計(jì)類內(nèi)容（如海報(bào)和PPT）、13%為人物照片，剩下5%為受控合成數(shù)據(jù)。

所有圖像都必須通過多級(jí)篩選流程，亮度、飽和度、色彩熵、清晰度四項(xiàng)指標(biāo)全面把關(guān)，極端異常的圖像會(huì)被標(biāo)記并復(fù)查。

在此基礎(chǔ)上，Qwen-Image采用三種訓(xùn)練策略：純渲染策略，即在簡(jiǎn)單背景上顯示清晰文字；組合渲染策略，將文字置于真實(shí)場(chǎng)景中；復(fù)雜渲染策略，則處理多欄排版、手寫風(fēng)格、演示幻燈片等高難度格式。

這三種策略協(xié)同發(fā)力，覆蓋從基礎(chǔ)到高級(jí)的各種文本圖像組合，構(gòu)建出多層次、強(qiáng)魯棒性的訓(xùn)練數(shù)據(jù)集。。

在一項(xiàng)包含一萬多次匿名對(duì)比評(píng)估的測(cè)試中，Qwen-Image的表現(xiàn)優(yōu)于GPT-Image-1與Flux.1 Context等商業(yè)模型。

整體排名第三，僅次于少數(shù)研究性模型。在圖像生成、圖像編輯、中英文文字渲染這三項(xiàng)指標(biāo)上，Qwen-Image幾乎全面領(lǐng)先。

圖注：在與 Seedream 3.0、GPT-Image-1、Flux.1 和 Bagel 的正面測(cè)試中，Qwen-Image 在圖像生成與編輯方面表現(xiàn)領(lǐng)先。該模型在中文文本渲染方面也位居第一，并在英文表現(xiàn)上與競(jìng)爭(zhēng)對(duì)手持平。

在最關(guān)鍵的中文渲染測(cè)試中，它一騎絕塵，穩(wěn)居第一。在業(yè)界認(rèn)可的GenEval測(cè)試中，Qwen-Image在對(duì)象生成項(xiàng)目上得分高達(dá)0.91，遠(yuǎn)高于其他同類模型。

這說明，它不僅擅長(zhǎng)生成“看起來好”的圖像，更能處理結(jié)構(gòu)復(fù)雜、任務(wù)精細(xì)的圖文嵌合內(nèi)容。

阿里巴巴也在同步推進(jìn)一個(gè)名為Qwen VLo的模型，用于文字能力更強(qiáng)的圖文任務(wù)。

Qwen-Image現(xiàn)已在GitHub與Hugging Face平臺(tái)開放，可免費(fèi)試用，亦提供在線演示。

Github：https://github.com/QwenLM/Qwen-Image?tab=readme-ov-file

demo：https://huggingface.co/spaces/Qwen/Qwen-Image

paper：https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

責(zé)任編輯：武曉燕來源：大數(shù)據(jù)文摘

阿里巴巴 Qwen-Image 項(xiàng)目

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)