OCR-Omni來了,字節(jié)&華師統(tǒng)一多模態(tài)文字理解與生成 | NeurIPS2024
多模態(tài)生成新突破,字節(jié)&華師團隊打造TextHarmony,在單一模型架構中實現(xiàn)模態(tài)生成的統(tǒng)一,并入選NeurIPS 2024。
過去,視覺文字領域的大模型研究聚焦于單模態(tài)生成,雖然在個別任務上實現(xiàn)了模型的統(tǒng)一,但很難在OCR領域的多數(shù)任務上做到全面整合。
例如,Monkey等視覺語言模型(VLM)擅長文字檢測、識別和視覺問答(VQA)等文本模態(tài)生成任務,卻無法勝任文字圖像的生成、抹除和編輯等圖像模態(tài)生成任務。反之,以 AnyText 為代表的基于擴散模型的圖像生成模型則專注于圖像創(chuàng)建。因此,OCR領域亟需一個能夠統(tǒng)一多模態(tài)生成的大模型。

為解決這一難題,字節(jié)跳動與華東師范大學的聯(lián)合研究團隊提出了創(chuàng)新性的多模態(tài)生成模型TextHarmony,不僅精通視覺文本的感知、理解和生成,還在單一模型架構中實現(xiàn)了視覺與語言模態(tài)生成的和諧統(tǒng)一。
目前論文已經(jīng)上傳arXiv,代碼也即將開源,鏈接可在文末領取。

TextHarmony: 核心貢獻
TextHarmony的核心優(yōu)勢在于其成功整合了視覺文本的理解和生成能力。傳統(tǒng)研究中,這兩類任務通常由獨立模型處理。TextHarmony 通過融合這兩大類生成模型,實現(xiàn)了視覺文字理解和生成的同步進行,從而統(tǒng)籌了 OCR 領域的多數(shù)任務。
研究表明,視覺理解和生成之間存在顯著差異,直接整合可能導致嚴重的模態(tài)不一致問題。具體而言,多模態(tài)生成模型在文本生成(視覺感知、理解)和圖像生成方面,相較于專門的單模態(tài)模型,性能出現(xiàn)明顯退化。

數(shù)據(jù)顯示,多模態(tài)生成模型在文本生成任務上較單模態(tài)模型效果降低 5%,圖像生成任務上最高降低8%。而 TextHarmony 成功緩解了這一問題,其在兩類任務上的表現(xiàn)均接近單模態(tài)專家模型水平。
技術創(chuàng)新
TextHarmony 采用了 ViT、MLLM 和 Diffusion Model 的組合架構:
- ViT 負責圖像到視覺 token 序列的轉換。
- MLLM 處理視覺 token 和文本 token 的交叉序列,輸出兩類 token:
- 文本 token 經(jīng)文本解碼器轉化為文本輸出。
- 視覺 token 與文本 token 結合,作為 Diffusion Model 的條件指引,生成目標圖像。
這種結構實現(xiàn)了多模態(tài)內容的全面理解與生成。
Slide-LoRA:解決方案
為克服訓練過程中的模態(tài)不一致問題,研究者提出了 Slide-LoRA 技術。該方法通過動態(tài)整合模態(tài)特定和模態(tài)無關的 LoRA(Low-Rank Adaptation)專家,在單一模型中實現(xiàn)了圖像和文本生成空間的部分解耦。
Slide-LoRA 包含一個動態(tài)門控網(wǎng)絡和三個低秩分解模塊:
- 模態(tài)特定 LoRA 專家聚焦于特定模態(tài)(視覺或語言)的生成任務。
- 模態(tài)無關 LoRA 專家處理跨模態(tài)的通用特征。
- 動態(tài)門控網(wǎng)絡根據(jù)輸入特征,靈活調度不同專家的參與度。

DetailedTextCaps-100K: 高質量數(shù)據(jù)集
為提升視覺文本生成性能,研究團隊開發(fā)了 DetailedTextCaps-100K 數(shù)據(jù)集。該集利用閉源 MLLM(Gemini Pro)生成詳盡的圖像描述,為模型提供了更豐富、更聚焦于視覺和文本元素的訓練資源。

訓練策略
TextHarmony 采用兩階段訓練方法:
- 首階段利用 MARIO-LAION 和 DocStruct4M 等圖文對預訓練對齊模塊和圖像解碼器,構建基礎的文本生成與圖像生成能力。
- 次階段運用視覺文本的生成、編輯、理解、感知四類數(shù)據(jù)進行統(tǒng)一微調。此階段開放 ViT、對齊模塊、圖像解碼器和 Slide-LoRA 的參數(shù)更新,以獲得統(tǒng)一的多模態(tài)理解與生成能力。
實驗評估
研究者對 TextHarmony 在視覺文本場景下進行了全面評估,涵蓋理解、感知、生成與編輯四個維度:
視覺文本理解:TextHarmony 顯著優(yōu)于多模態(tài)生成模型,性能接近 Monkey 等專業(yè)文字理解模型。

視覺文本感知:在OCR定位任務上,TextHarmony超過了TGDoc、DocOwl1.5等知名模型。

視覺文本編輯與生成:TextHarmony 大幅領先于現(xiàn)有多模態(tài)生成模型,且與 TextDiffuser2 等專業(yè)模型相當。

文字生成效果對比

文字編輯效果對比

文字圖像感知與理解可視化

總結與展望
TextHarmony 作為 OCR 領域的多功能多模態(tài)生成模型,成功統(tǒng)一了視覺文本理解和生成任務。通過創(chuàng)新的 Slide-LoRA 技術,它有效解決了多模態(tài)生成中的模態(tài)不一致問題,在單一模型中實現(xiàn)了視覺與語言模態(tài)的和諧統(tǒng)一。TextHarmony 在視覺文字感知、理解、生成和編輯方面展現(xiàn)出卓越性能,為復雜的視覺文本交互任務開辟了新的可能性。
這項研究不僅推動了 OCR 技術的進步,也為人工智能在理解和創(chuàng)造方面的發(fā)展提供了重要參考。未來,TextHarmony 有望在自動文檔處理、智能內容創(chuàng)作、教育輔助等多個領域發(fā)揮重要作用,進一步推動人工智能的應用。
論文鏈接: https://arxiv.org/abs/2407.16364
代碼開源: https://github.com/bytedance/TextHarmony(即將開源)




































