偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字體控狂喜!Liblib AI 黑科技 RepText:無(wú)需理解文字,AI就能 1:1 復(fù)刻多國(guó)語(yǔ)言視覺(jué)效果

人工智能 新聞
論文從一個(gè)樸素的假設(shè)出發(fā),即文本理解只是文本渲染的充分條件,而非必要條件。

Liblib AI提出了 RepText,可以使預(yù)訓(xùn)練的單語(yǔ)文本轉(zhuǎn)圖像生成模型能夠以用戶指定的字體準(zhǔn)確渲染,或者更準(zhǔn)確地說(shuō),復(fù)制多語(yǔ)種視覺(jué)文本,而無(wú)需真正理解這些字體。這樣不管是中文、日文、韓文還是其他語(yǔ)言都可以精準(zhǔn)的生成!從某種意義上說(shuō)也算是打破了AI圖文生成語(yǔ)言的壁壘!

圖片

相關(guān)鏈接

  • 文章:https://arxiv.org/abs/2504.19724
  • 主頁(yè):https://reptext.github.io/
  • 代碼:https://github.com/Shakker-Labs/RepText
  • 試用:https://huggingface.co/spaces/Shakker-Labs/RepText

論文介紹

R e p T e x t :通過(guò)復(fù)制渲染視覺(jué)文本盡管當(dāng)代的文本到圖像生成模型在生成視覺(jué)吸引力方面取得了顯著突破,但它們生成精確靈活的排版元素(尤其是非拉丁字母)的能力仍然受到限制。這種固有限制主要源于文本編碼器無(wú)法有效處理多語(yǔ)言輸入或訓(xùn)練集中多語(yǔ)言數(shù)據(jù)分布的偏差。為了滿足特定語(yǔ)言需求的文本渲染,一些研究采用專用文本編碼器或多語(yǔ)言大型語(yǔ)言模型來(lái)替換現(xiàn)有的單語(yǔ)言編碼器,并從頭開(kāi)始重新訓(xùn)練模型,以增強(qiáng)基礎(chǔ)模型的原生渲染能力,但這不可避免地會(huì)造成高資源消耗。其他研究通常利用輔助模塊對(duì)文本和字形進(jìn)行編碼,同時(shí)保持基礎(chǔ)模型的完整性以實(shí)現(xiàn)可控的渲染。然而,現(xiàn)有研究大多基于 UNet 模型構(gòu)建,而非近期基于 DiT 模型(SD3.5、FLUX),這限制了它們的整體生成質(zhì)量。

為了解決這些限制,論文從一個(gè)樸素的假設(shè)出發(fā),即文本理解只是文本渲染的充分條件,而非必要條件?;诖颂岢隽?RepText,旨在賦能預(yù)訓(xùn)練的單語(yǔ)文本轉(zhuǎn)圖像生成模型,使其能夠以用戶指定的字體精準(zhǔn)渲染(更準(zhǔn)確地說(shuō),是復(fù)制)多語(yǔ)種視覺(jué)文本,而無(wú)需真正理解這些字體。具體而言,作者借鑒了 ControlNet 的設(shè)置,并額外集成了語(yǔ)言無(wú)關(guān)的字形和渲染文本位置,從而能夠生成協(xié)調(diào)一致的視覺(jué)文本,允許用戶根據(jù)自身需求自定義文本內(nèi)容、字體和位置。

為了提高準(zhǔn)確率,RepText結(jié)合了文本感知損失和擴(kuò)散損失。此外,為了穩(wěn)定渲染過(guò)程,在推理階段直接使用帶噪聲的字形潛在向量進(jìn)行初始化,而非隨機(jī)初始化,并采用區(qū)域掩碼將特征注入限制在文本區(qū)域,以避免其他區(qū)域的失真。大量的實(shí)驗(yàn)驗(yàn)證 RepText 相對(duì)于現(xiàn)有方法的有效性。

方法

圖片

RepText 旨在通過(guò)復(fù)制字形來(lái)實(shí)現(xiàn)基于最新單語(yǔ)基礎(chǔ)模型的文本渲染。并未使用額外的圖像或文本編碼器來(lái)理解單詞,而是通過(guò)使用以 Canny 和位置圖像為條件的文本控制網(wǎng)絡(luò) (ControlNet) 來(lái)訓(xùn)練模型復(fù)制字形。此外,作者創(chuàng)新性地在初始化過(guò)程中引入了字形潛在復(fù)制,以提高文本準(zhǔn)確性并支持色彩控制。最后采用區(qū)域遮罩方案來(lái)確保良好的生成質(zhì)量并防止背景區(qū)域受到干擾。論文的貢獻(xiàn)主要有三方面:

  1. 提出了 RepText,一個(gè)用于可控多語(yǔ)言可視化文本渲染的有效框架。
  2. 創(chuàng)新性地引入了字形潛在復(fù)制,以提高排版準(zhǔn)確性并實(shí)現(xiàn)色彩控制。此外還采用了區(qū)域遮罩,以獲得良好的視覺(jué)保真度且不受背景干擾。
  3. 定性實(shí)驗(yàn)表明,提出的方法優(yōu)于現(xiàn)有的開(kāi)源方法,并取得了與原生多語(yǔ)言閉源模型相當(dāng)?shù)慕Y(jié)果。

圖片

RepText 的推理框架及其突出策略:(1)從無(wú)噪聲字形潛在特征進(jìn)行復(fù)制,提高文本準(zhǔn)確率并實(shí)現(xiàn)色彩控制。(2)對(duì)文本區(qū)域采用區(qū)域遮罩,避免非文本區(qū)域的干擾,確保整體質(zhì)量。

與之前方法比較

圖片圖片

與其他作品的兼容性

圖片圖片圖片

責(zé)任編輯:張燕妮 來(lái)源: AIGC Studio
相關(guān)推薦

2018-07-23 06:38:40

AI芯片數(shù)據(jù)中心

2009-06-10 18:01:35

netbeans下載多國(guó)語(yǔ)言開(kāi)發(fā)版

2023-09-25 12:41:00

數(shù)據(jù)模型

2024-12-20 08:00:00

2025-02-28 08:30:00

2011-06-21 09:19:24

Qt 界面 多國(guó)語(yǔ)言

2021-05-12 09:00:00

AI 數(shù)據(jù)人工智能

2019-12-23 14:14:47

5GAI人工智能

2019-04-28 09:00:00

人工智能金融科技風(fēng)控

2009-03-02 09:45:45

2009-05-29 09:48:05

Sandboxie瀏覽器

2011-03-16 13:47:44

IE9

2024-03-21 10:35:59

AI人工智能

2021-05-21 09:49:56

數(shù)字化

2020-08-17 09:15:09

AI 數(shù)據(jù)人工智能

2021-12-28 10:18:16

微軟Windows 11Mica

2020-05-28 14:11:41

AI 黑科技人工智能

2023-09-23 12:52:57

模型淑娟

2023-09-27 07:39:57

大型語(yǔ)言模型MiniGPT-4
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)