偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICCV 2025 | 擴(kuò)散模型生成手寫體文本行的首次實(shí)戰(zhàn),效果驚艷還開源

人工智能 新聞
今天要介紹的是 DiffBrush,這是一個(gè)全新的擴(kuò)散模型,能夠輕松生成逼真的手寫體文本行。

本文中,來自華南理工大學(xué)、MiroMind AI、新加坡國立大學(xué)以及琶洲實(shí)驗(yàn)室的研究者們提出一種新的生成模型 Diffusion Brush,首次將擴(kuò)散模型用于文本行級的手寫體生成,在英文、中文等多語言場景下實(shí)現(xiàn)了風(fēng)格逼真、內(nèi)容準(zhǔn)確、排版自然的文本行生成。

研究背景

AI 會寫字嗎?在寫字機(jī)器人衍生換代的今天,你或許并不覺得 AI 寫字有多么困難。

那么,如果 AI 寫的字和你寫的字一模一樣,你會作何感想?是迫不及待地生成一套屬于自己的字體,還是擔(dān)心簽名信息不再可靠,抑或是可惜這項(xiàng)技術(shù)沒能早點(diǎn)出現(xiàn)幫你寫作業(yè)……

無論如何,這項(xiàng)筆跡模仿的技術(shù)的確已日臻成熟。現(xiàn)在,你只需要在紙上寫下幾個(gè)字,AI 就能準(zhǔn)確學(xué)習(xí)并模仿你的筆跡寫出任何字。使用 AI 模仿手寫文本,不僅能真實(shí)再現(xiàn)書寫者風(fēng)格,輕松創(chuàng)造屬于用戶個(gè)人的字體庫,也在字體設(shè)計(jì)、筆跡驗(yàn)證等諸多領(lǐng)域具有廣闊的應(yīng)用前景。今天要介紹的是 DiffBrush,這是一個(gè)全新的擴(kuò)散模型,能夠輕松生成逼真的手寫體文本行。

此前,相關(guān)研究團(tuán)隊(duì)已接連發(fā)表「SDT」(CVPR 2023) 和「One-DM」 (ECCV 2024) 兩項(xiàng)與手寫文本風(fēng)格化生成相關(guān)的研究成果,機(jī)器之心均進(jìn)行了相關(guān)報(bào)道。其中「One-DM」僅憑單張手寫樣本便能生成與樣本風(fēng)格相似度很高的任意文本。

然而,現(xiàn)有的手寫文本生成工作普遍關(guān)注「字符級」生成,也即只生成一個(gè)單詞或是漢字,如果要生成一整段文本行,則只能將若干個(gè)字符拼接合成在一起。這就像是你在不同紙上寫字,把每個(gè)字分別裁剪下來,再組合成一行字。這種做法很容易導(dǎo)致字符不對齊,或上或下,或大或小,看起來歪歪扭扭,并不符合人類的書寫習(xí)慣。

此外,生成字符再合成文本行的做法使得字符間距趨于一致,然而真實(shí)筆跡的字符間距往往是富于變化的,并且這些變化也可視為書寫者風(fēng)格的一部分。

現(xiàn)有的直接生成手寫體文本行的方法較為有限,這些方法忽略了風(fēng)格學(xué)習(xí)和內(nèi)容學(xué)習(xí)間發(fā)生的互相干擾,且難以保證長文本生成中大量字符的內(nèi)容準(zhǔn)確度,其在風(fēng)格保真度和內(nèi)容準(zhǔn)確性方面都存在不足。

經(jīng)過多方考慮和實(shí)驗(yàn)求證,研究者們提出了新穎的基于擴(kuò)散模型的手寫體文本行生成方法 DiffBrush,能夠生成風(fēng)格逼真、內(nèi)容準(zhǔn)確、排版自然的手寫體文本行。值得注意的是,這是擴(kuò)散模型首次被應(yīng)用于文本行生成任務(wù)。目前論文的代碼和數(shù)據(jù)已經(jīng)開源,歡迎大家關(guān)注!

  • 論文標(biāo)題:Beyond Isolated Words: Diffusion Brush for Handwritten Text-Line Generation
  • 論文地址:https://arxiv.org/abs/2508.03256
  • 代碼開源:https://github.com/dailenson/DiffBrush

關(guān)鍵問題

圍繞手寫體文本行生成這一目標(biāo),研究者們分析了以下兩個(gè)關(guān)鍵問題:

  1. 如何保證生成的文本行符合人類書寫習(xí)慣,即垂直方向?qū)R且字符間距存在變化?
  2. 如何使得生成的文本行既在字體風(fēng)格上貼近書寫者,又能有較高的整體內(nèi)容可讀性和局部內(nèi)容準(zhǔn)確性?

接下來看研究者如何解決上述問題。

技術(shù)方案

研究動機(jī)

研究者發(fā)現(xiàn),現(xiàn)有的手寫體文本行生成模型的內(nèi)容學(xué)習(xí)和風(fēng)格學(xué)習(xí)之間存在干擾。例如,最小化內(nèi)容識別損失函數(shù)促使模型生成更容易被 OCR 識別的「標(biāo)準(zhǔn)」字形,然而這會影響其對真實(shí)風(fēng)格的提取,也即模型為了生成的內(nèi)容更準(zhǔn)確,可能會使生成的風(fēng)格不那么準(zhǔn)確。

另一方面,研究者發(fā)現(xiàn)應(yīng)用于文本行級的方法優(yōu)先考慮全局準(zhǔn)確性,但通常無法確保字符級別的準(zhǔn)確性。

受啟發(fā)于上述觀察,研究者考慮將風(fēng)格和內(nèi)容解耦,在風(fēng)格學(xué)習(xí)過程中動態(tài)破壞內(nèi)容信息,使其專注于文本風(fēng)格模式的提??;此外,研究者構(gòu)建了一個(gè)多尺度判別器,從行級和字符級提供更細(xì)粒度的內(nèi)容監(jiān)督,以兼顧內(nèi)容的全局和局部準(zhǔn)確性。

方法框架

DiffBrush 的整體框架如下圖所示,主要包括內(nèi)容解耦的風(fēng)格模塊、風(fēng)格 - 內(nèi)容融合模塊、條件擴(kuò)散生成器和多尺度內(nèi)容判別模塊。

首先,將手寫樣本送入 CNN-Transformer 風(fēng)格編碼器,通過列向掩碼與行向掩碼分別增強(qiáng)垂直方向和水平方向的風(fēng)格學(xué)習(xí),經(jīng) Proxy-NCA 對比學(xué)習(xí)后輸出垂直增強(qiáng)特征與水平增強(qiáng)特征。

其次,內(nèi)容編碼器把目標(biāo)文本渲染成 Unifont 圖像并提取內(nèi)容特征,并在風(fēng)格 - 內(nèi)容融合模塊分別獲取上述風(fēng)格特征,進(jìn)而得到條件向量。之后,條件向量引導(dǎo)條件擴(kuò)散生成器執(zhí)行去噪過程,合成整行手寫圖像。

最后,多尺度內(nèi)容判別器在行級監(jiān)督字符順序和基線連貫性,在詞級判別字符結(jié)構(gòu)真?zhèn)?,最終生成風(fēng)格一致、基線齊整、詞距自然的手寫體文本行。

(a) 內(nèi)容解耦的風(fēng)格模塊。為避免內(nèi)容學(xué)習(xí)對風(fēng)格學(xué)習(xí)造成干擾,DiffBrush 提出內(nèi)容解耦的風(fēng)格模塊,讓模型僅關(guān)注字符風(fēng)格。一個(gè)較為直接的解耦方法是對圖像進(jìn)行掩碼破壞,那么如何設(shè)置掩碼比較好呢?

DiffBrush 采用「列掩碼 + 行掩碼」的內(nèi)容解耦策略,分別從垂直方向和水平方向?qū)ψ址麅?nèi)容進(jìn)行掩蔽。在破壞字符內(nèi)容的同時(shí),列掩碼保留了字高、傾斜度等信息,行掩碼保留了字符寬度、間距等信息,從而有效保真風(fēng)格。掩碼后的特征經(jīng)平均池化分別得到列向量與行向量,分別在 Proxy-NCA 損失函數(shù)的引導(dǎo)下聚集同一書寫者的風(fēng)格特征,同時(shí)推開不同書寫者的風(fēng)格特征。最終由訓(xùn)練得到垂直風(fēng)格增強(qiáng)特征 S_ver 和水平風(fēng)格增強(qiáng)特征 S_hor。值得注意的是,模型在內(nèi)容掩蔽之前就已經(jīng)提取了字符的完整風(fēng)格特征。

(b) 多尺度內(nèi)容判別模塊。長文本生成容易在局部字符中出現(xiàn)錯(cuò)誤,為兼顧全局字符順序與局部字符結(jié)構(gòu)的準(zhǔn)確性,DiffBrush 構(gòu)建了一個(gè)多尺度內(nèi)容判別模塊,包括行級判別模塊 D_line 和詞級判別模塊 D_word。

D_line 模塊將生成的文本行圖像與標(biāo)準(zhǔn)的內(nèi)容引導(dǎo)圖 I_line 沿通道維度進(jìn)行連接,并將結(jié)果分割成 n 個(gè)片段,每個(gè)片段約一個(gè)字符寬度,隨后使用 3D-CNN 在「段 - 高 - 寬」三維滑動,判斷每一個(gè)分割片段是否正確,從而確保字符順序與詞間空白部分準(zhǔn)確。 D_word 模塊使用了預(yù)訓(xùn)練 CNN-LSTM 注意力模塊獲取單詞位置,逐一分離出文本行中的單詞。通過對生成圖像和標(biāo)準(zhǔn)內(nèi)容引導(dǎo)圖 I_word 中對應(yīng)的單詞內(nèi)容進(jìn)行對比,來確保生成單詞的內(nèi)容準(zhǔn)確性。由于 I_line 和 I_word 都是無風(fēng)格字樣,判別模塊僅對不正確的內(nèi)容進(jìn)行懲罰,并不約束風(fēng)格,因而能夠在不削弱風(fēng)格模仿的前提下,有效降低字符錯(cuò)誤率。

(c) 風(fēng)格 - 內(nèi)容融合模塊。在得到風(fēng)格特征后,DiffBrush 并未直接將風(fēng)格與內(nèi)容分別注入擴(kuò)散網(wǎng)絡(luò),而是先將風(fēng)格和內(nèi)容進(jìn)行融合,再統(tǒng)一輸入到 U-Net 中,這里采用了與 One-DM 類似的方法。

具體而言,內(nèi)容編碼器先將目標(biāo)文本的 Unifont 渲染圖編碼為內(nèi)容查詢矩陣 Q,在 6 層 Transformer Decoder 組成的 Blender 中,前三層以 Q 為 Query,S_ver 為 Key/Value,進(jìn)行垂直風(fēng)格融合;上述輸出作為新的 Query,S_hor 為 Key/Value,進(jìn)行水平風(fēng)格融合。最終得到的融合向量 C 引導(dǎo)后續(xù)擴(kuò)散去噪過程。

實(shí)驗(yàn)評估

定量評估

Diffrush 在英文、中文等數(shù)據(jù)集上都取得了超過現(xiàn)有方法的優(yōu)越性能。值得注意的是,在同樣使用一張參考樣本的情況下,DiffBrush 在各項(xiàng)指標(biāo)上相較于 One-DM 均有較大提升,且顯著優(yōu)于其他使用多張參考樣本的方法。

定性評估

在英文文本行生成任務(wù)中,相比之前的各種方法, DiffBrush 生成的文本行在字符傾斜度、墨跡深淺、筆畫寬度等方面更接近參考樣本。對于同樣使用了擴(kuò)散方法的 DiffusionPen 和 One-DM,紅圈部分顯示了其生成結(jié)果的缺失字符或結(jié)構(gòu)錯(cuò)誤。

而在字符結(jié)構(gòu)更復(fù)雜的中文文本行生成任務(wù)中,與 One-DM 方法相比, DiffBrush 生成的手寫體文本行也表現(xiàn)出與參考樣本最相似的樣式,尤其在字符間距和墨水顏色方面。同時(shí) DiffBrush 能生成更加準(zhǔn)確的字符結(jié)構(gòu)。

消融實(shí)驗(yàn)

核心模塊對算法性能的影響

如下表所示,DiffBrush 的內(nèi)容解耦的風(fēng)格模塊與多尺度內(nèi)容判別模塊存在協(xié)同效應(yīng)。相較于無掩碼和隨機(jī)掩碼,論文提出的「列掩碼 + 行掩碼」的方法更佳。尤其重要的是,多尺度內(nèi)容判別模塊在不影響 HWD 風(fēng)格指標(biāo)(甚至更好)的情況下,顯著降低了字符錯(cuò)誤率。

內(nèi)容解耦風(fēng)格學(xué)習(xí)的分析

實(shí)驗(yàn)結(jié)果顯示,添加垂直風(fēng)格增強(qiáng) S_ver 或水平風(fēng)格增強(qiáng) S_hor 均可提高文本行生成的樣式質(zhì)量。其中,S_ver 增強(qiáng)了風(fēng)格模仿能力,特別是在保持單詞的垂直對齊方面;同時(shí),S_hor 也改善了風(fēng)格學(xué)習(xí),如字符水平間距。這些發(fā)現(xiàn)支持了論文作者的動機(jī),即不同方向的內(nèi)容屏蔽策略有助于風(fēng)格學(xué)習(xí)。

直接生成文本行和組裝文本行的分析

論文應(yīng)用 DiffusionPen 中的字符拼接策略,使其他字符級生成方法能夠合成文本行。相比于這些拼接出的文本行,專注于文本行生成的 DiffBrush 展現(xiàn)出了較為顯著的優(yōu)越性。

總結(jié)與展望

當(dāng)數(shù)字文檔的效率與手寫文本的溫度交織,AI 也可承載溫情。只需一行參考文字,便可生成風(fēng)格高度相似且任意指定內(nèi)容的文本行,這就是 DiffBrush。展望未來,DiffBrush 在個(gè)性化字體定制、歷史筆跡復(fù)原、魯棒文本行識別器訓(xùn)練等方面具有廣闊應(yīng)用前景。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-02-21 09:25:41

開源技術(shù) 工具

2023-10-11 12:32:26

模型訓(xùn)練

2025-07-07 08:56:00

2025-07-14 08:42:00

開發(fā)模型圖像生成

2025-08-14 18:11:01

自動駕駛3DAI

2025-02-25 09:30:00

2025-08-04 09:12:00

2021-12-30 10:11:38

模型人工智能深度學(xué)習(xí)

2025-03-03 11:16:18

2025-08-25 08:53:00

2024-05-24 08:42:29

智能體訓(xùn)練

2024-07-17 13:40:01

2025-03-17 11:35:36

LLaDALLM大型語言模型

2022-09-13 15:40:56

模型分析

2018-12-28 10:45:08

Linux文本行命令

2025-04-08 09:30:00

模型AI機(jī)器人

2022-10-08 12:38:23

模型開源

2024-01-06 17:19:16

模型AI

2021-02-06 12:25:42

微軟Chromium瀏覽器

2024-12-23 13:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號