偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

字體控狂喜！Liblib AI 黑科技 RepText：無(wú)需理解文字，AI就能 1:1 復(fù)刻多國(guó)語(yǔ)言視覺(jué)效果

2025-05-09 09:12:00

人工智能新聞

論文從一個(gè)樸素的假設(shè)出發(fā)，即文本理解只是文本渲染的充分條件，而非必要條件。

Liblib AI提出了 RepText，可以使預(yù)訓(xùn)練的單語(yǔ)文本轉(zhuǎn)圖像生成模型能夠以用戶指定的字體準(zhǔn)確渲染，或者更準(zhǔn)確地說(shuō)，復(fù)制多語(yǔ)種視覺(jué)文本，而無(wú)需真正理解這些字體。這樣不管是中文、日文、韓文還是其他語(yǔ)言都可以精準(zhǔn)的生成！從某種意義上說(shuō)也算是打破了AI圖文生成語(yǔ)言的壁壘！

相關(guān)鏈接

文章：https://arxiv.org/abs/2504.19724
主頁(yè)：https://reptext.github.io/
代碼：https://github.com/Shakker-Labs/RepText
試用：https://huggingface.co/spaces/Shakker-Labs/RepText

論文介紹

R e p T e x t ：通過(guò)復(fù)制渲染視覺(jué)文本盡管當(dāng)代的文本到圖像生成模型在生成視覺(jué)吸引力方面取得了顯著突破，但它們生成精確靈活的排版元素（尤其是非拉丁字母）的能力仍然受到限制。這種固有限制主要源于文本編碼器無(wú)法有效處理多語(yǔ)言輸入或訓(xùn)練集中多語(yǔ)言數(shù)據(jù)分布的偏差。為了滿足特定語(yǔ)言需求的文本渲染，一些研究采用專用文本編碼器或多語(yǔ)言大型語(yǔ)言模型來(lái)替換現(xiàn)有的單語(yǔ)言編碼器，并從頭開(kāi)始重新訓(xùn)練模型，以增強(qiáng)基礎(chǔ)模型的原生渲染能力，但這不可避免地會(huì)造成高資源消耗。其他研究通常利用輔助模塊對(duì)文本和字形進(jìn)行編碼，同時(shí)保持基礎(chǔ)模型的完整性以實(shí)現(xiàn)可控的渲染。然而，現(xiàn)有研究大多基于 UNet 模型構(gòu)建，而非近期基于 DiT 模型（SD3.5、FLUX），這限制了它們的整體生成質(zhì)量。

為了解決這些限制，論文從一個(gè)樸素的假設(shè)出發(fā)，即文本理解只是文本渲染的充分條件，而非必要條件?；诖颂岢隽?RepText，旨在賦能預(yù)訓(xùn)練的單語(yǔ)文本轉(zhuǎn)圖像生成模型，使其能夠以用戶指定的字體精準(zhǔn)渲染（更準(zhǔn)確地說(shuō)，是復(fù)制）多語(yǔ)種視覺(jué)文本，而無(wú)需真正理解這些字體。具體而言，作者借鑒了 ControlNet 的設(shè)置，并額外集成了語(yǔ)言無(wú)關(guān)的字形和渲染文本位置，從而能夠生成協(xié)調(diào)一致的視覺(jué)文本，允許用戶根據(jù)自身需求自定義文本內(nèi)容、字體和位置。

為了提高準(zhǔn)確率，RepText結(jié)合了文本感知損失和擴(kuò)散損失。此外，為了穩(wěn)定渲染過(guò)程，在推理階段直接使用帶噪聲的字形潛在向量進(jìn)行初始化，而非隨機(jī)初始化，并采用區(qū)域掩碼將特征注入限制在文本區(qū)域，以避免其他區(qū)域的失真。大量的實(shí)驗(yàn)驗(yàn)證 RepText 相對(duì)于現(xiàn)有方法的有效性。

方法

RepText 旨在通過(guò)復(fù)制字形來(lái)實(shí)現(xiàn)基于最新單語(yǔ)基礎(chǔ)模型的文本渲染。并未使用額外的圖像或文本編碼器來(lái)理解單詞，而是通過(guò)使用以 Canny 和位置圖像為條件的文本控制網(wǎng)絡(luò) (ControlNet) 來(lái)訓(xùn)練模型復(fù)制字形。此外，作者創(chuàng)新性地在初始化過(guò)程中引入了字形潛在復(fù)制，以提高文本準(zhǔn)確性并支持色彩控制。最后采用區(qū)域遮罩方案來(lái)確保良好的生成質(zhì)量并防止背景區(qū)域受到干擾。論文的貢獻(xiàn)主要有三方面：

提出了 RepText，一個(gè)用于可控多語(yǔ)言可視化文本渲染的有效框架。
創(chuàng)新性地引入了字形潛在復(fù)制，以提高排版準(zhǔn)確性并實(shí)現(xiàn)色彩控制。此外還采用了區(qū)域遮罩，以獲得良好的視覺(jué)保真度且不受背景干擾。
定性實(shí)驗(yàn)表明，提出的方法優(yōu)于現(xiàn)有的開(kāi)源方法，并取得了與原生多語(yǔ)言閉源模型相當(dāng)?shù)慕Y(jié)果。

RepText 的推理框架及其突出策略：（1）從無(wú)噪聲字形潛在特征進(jìn)行復(fù)制，提高文本準(zhǔn)確率并實(shí)現(xiàn)色彩控制。（2）對(duì)文本區(qū)域采用區(qū)域遮罩，避免非文本區(qū)域的干擾，確保整體質(zhì)量。

與之前方法比較

與其他作品的兼容性

責(zé)任編輯：張燕妮來(lái)源： AIGC Studio

AI 語(yǔ)言模型視覺(jué)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)