偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OCR-Omni來(lái)了,字節(jié)&華師統(tǒng)一多模態(tài)文字理解與生成 | NeurIPS2024

人工智能 新聞
TextHarmony 作為 OCR 領(lǐng)域的多功能多模態(tài)生成模型,成功統(tǒng)一了視覺(jué)文本理解和生成任務(wù)。

多模態(tài)生成新突破,字節(jié)&華師團(tuán)隊(duì)打造TextHarmony,在單一模型架構(gòu)中實(shí)現(xiàn)模態(tài)生成的統(tǒng)一,并入選NeurIPS 2024。

過(guò)去,視覺(jué)文字領(lǐng)域的大模型研究聚焦于單模態(tài)生成,雖然在個(gè)別任務(wù)上實(shí)現(xiàn)了模型的統(tǒng)一,但很難在OCR領(lǐng)域的多數(shù)任務(wù)上做到全面整合。

例如,Monkey等視覺(jué)語(yǔ)言模型(VLM)擅長(zhǎng)文字檢測(cè)、識(shí)別和視覺(jué)問(wèn)答(VQA)等文本模態(tài)生成任務(wù),卻無(wú)法勝任文字圖像的生成、抹除和編輯等圖像模態(tài)生成任務(wù)。反之,以 AnyText 為代表的基于擴(kuò)散模型的圖像生成模型則專(zhuān)注于圖像創(chuàng)建。因此,OCR領(lǐng)域亟需一個(gè)能夠統(tǒng)一多模態(tài)生成的大模型。

圖片

為解決這一難題,字節(jié)跳動(dòng)與華東師范大學(xué)的聯(lián)合研究團(tuán)隊(duì)提出了創(chuàng)新性的多模態(tài)生成模型TextHarmony,不僅精通視覺(jué)文本的感知、理解和生成,還在單一模型架構(gòu)中實(shí)現(xiàn)了視覺(jué)與語(yǔ)言模態(tài)生成的和諧統(tǒng)一。

目前論文已經(jīng)上傳arXiv,代碼也即將開(kāi)源,鏈接可在文末領(lǐng)取。

圖片

TextHarmony: 核心貢獻(xiàn)

TextHarmony的核心優(yōu)勢(shì)在于其成功整合了視覺(jué)文本的理解和生成能力。傳統(tǒng)研究中,這兩類(lèi)任務(wù)通常由獨(dú)立模型處理。TextHarmony 通過(guò)融合這兩大類(lèi)生成模型,實(shí)現(xiàn)了視覺(jué)文字理解和生成的同步進(jìn)行,從而統(tǒng)籌了 OCR 領(lǐng)域的多數(shù)任務(wù)。

研究表明,視覺(jué)理解和生成之間存在顯著差異,直接整合可能導(dǎo)致嚴(yán)重的模態(tài)不一致問(wèn)題。具體而言,多模態(tài)生成模型在文本生成(視覺(jué)感知、理解)和圖像生成方面,相較于專(zhuān)門(mén)的單模態(tài)模型,性能出現(xiàn)明顯退化。

圖片

數(shù)據(jù)顯示,多模態(tài)生成模型在文本生成任務(wù)上較單模態(tài)模型效果降低 5%,圖像生成任務(wù)上最高降低8%。而 TextHarmony 成功緩解了這一問(wèn)題,其在兩類(lèi)任務(wù)上的表現(xiàn)均接近單模態(tài)專(zhuān)家模型水平。

技術(shù)創(chuàng)新

TextHarmony 采用了 ViT、MLLM 和 Diffusion Model 的組合架構(gòu):

  • ViT 負(fù)責(zé)圖像到視覺(jué) token 序列的轉(zhuǎn)換。
  • MLLM 處理視覺(jué) token 和文本 token 的交叉序列,輸出兩類(lèi) token:
  • 文本 token 經(jīng)文本解碼器轉(zhuǎn)化為文本輸出。
  • 視覺(jué) token 與文本 token 結(jié)合,作為 Diffusion Model 的條件指引,生成目標(biāo)圖像。

這種結(jié)構(gòu)實(shí)現(xiàn)了多模態(tài)內(nèi)容的全面理解與生成。

Slide-LoRA:解決方案

為克服訓(xùn)練過(guò)程中的模態(tài)不一致問(wèn)題,研究者提出了 Slide-LoRA 技術(shù)。該方法通過(guò)動(dòng)態(tài)整合模態(tài)特定和模態(tài)無(wú)關(guān)的 LoRA(Low-Rank Adaptation)專(zhuān)家,在單一模型中實(shí)現(xiàn)了圖像和文本生成空間的部分解耦。

Slide-LoRA 包含一個(gè)動(dòng)態(tài)門(mén)控網(wǎng)絡(luò)和三個(gè)低秩分解模塊:

  • 模態(tài)特定 LoRA 專(zhuān)家聚焦于特定模態(tài)(視覺(jué)或語(yǔ)言)的生成任務(wù)。
  • 模態(tài)無(wú)關(guān) LoRA 專(zhuān)家處理跨模態(tài)的通用特征。
  • 動(dòng)態(tài)門(mén)控網(wǎng)絡(luò)根據(jù)輸入特征,靈活調(diào)度不同專(zhuān)家的參與度。

圖片

DetailedTextCaps-100K: 高質(zhì)量數(shù)據(jù)集

為提升視覺(jué)文本生成性能,研究團(tuán)隊(duì)開(kāi)發(fā)了 DetailedTextCaps-100K 數(shù)據(jù)集。該集利用閉源 MLLM(Gemini Pro)生成詳盡的圖像描述,為模型提供了更豐富、更聚焦于視覺(jué)和文本元素的訓(xùn)練資源。

圖片

訓(xùn)練策略

TextHarmony 采用兩階段訓(xùn)練方法:

  1. 首階段利用 MARIO-LAION 和 DocStruct4M 等圖文對(duì)預(yù)訓(xùn)練對(duì)齊模塊和圖像解碼器,構(gòu)建基礎(chǔ)的文本生成與圖像生成能力。
  2. 次階段運(yùn)用視覺(jué)文本的生成、編輯、理解、感知四類(lèi)數(shù)據(jù)進(jìn)行統(tǒng)一微調(diào)。此階段開(kāi)放 ViT、對(duì)齊模塊、圖像解碼器和 Slide-LoRA 的參數(shù)更新,以獲得統(tǒng)一的多模態(tài)理解與生成能力。

實(shí)驗(yàn)評(píng)估

研究者對(duì) TextHarmony 在視覺(jué)文本場(chǎng)景下進(jìn)行了全面評(píng)估,涵蓋理解、感知、生成與編輯四個(gè)維度:

視覺(jué)文本理解:TextHarmony 顯著優(yōu)于多模態(tài)生成模型,性能接近 Monkey 等專(zhuān)業(yè)文字理解模型。

圖片

視覺(jué)文本感知:在OCR定位任務(wù)上,TextHarmony超過(guò)了TGDoc、DocOwl1.5等知名模型。

圖片

視覺(jué)文本編輯與生成:TextHarmony 大幅領(lǐng)先于現(xiàn)有多模態(tài)生成模型,且與 TextDiffuser2 等專(zhuān)業(yè)模型相當(dāng)。

圖片

文字生成效果對(duì)比

圖片

文字編輯效果對(duì)比

圖片

文字圖像感知與理解可視化

圖片

總結(jié)與展望

TextHarmony 作為 OCR 領(lǐng)域的多功能多模態(tài)生成模型,成功統(tǒng)一了視覺(jué)文本理解和生成任務(wù)。通過(guò)創(chuàng)新的 Slide-LoRA 技術(shù),它有效解決了多模態(tài)生成中的模態(tài)不一致問(wèn)題,在單一模型中實(shí)現(xiàn)了視覺(jué)與語(yǔ)言模態(tài)的和諧統(tǒng)一。TextHarmony 在視覺(jué)文字感知、理解、生成和編輯方面展現(xiàn)出卓越性能,為復(fù)雜的視覺(jué)文本交互任務(wù)開(kāi)辟了新的可能性。

這項(xiàng)研究不僅推動(dòng)了 OCR 技術(shù)的進(jìn)步,也為人工智能在理解和創(chuàng)造方面的發(fā)展提供了重要參考。未來(lái),TextHarmony 有望在自動(dòng)文檔處理、智能內(nèi)容創(chuàng)作、教育輔助等多個(gè)領(lǐng)域發(fā)揮重要作用,進(jìn)一步推動(dòng)人工智能的應(yīng)用。

論文鏈接: https://arxiv.org/abs/2407.16364
代碼開(kāi)源: https://github.com/bytedance/TextHarmony(即將開(kāi)源)

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-01-06 10:00:00

模型視覺(jué)生成

2025-03-04 09:50:00

2025-05-27 15:59:41

AI工具模型

2023-06-06 14:09:32

模型開(kāi)源

2024-12-18 09:34:13

2025-06-09 08:50:00

2024-10-22 13:33:48

2024-12-11 15:00:00

2025-04-14 00:20:00

2024-12-31 14:00:00

模型訓(xùn)練數(shù)據(jù)

2025-05-20 09:08:59

2025-06-30 13:57:59

開(kāi)源模型AI

2023-07-17 11:02:36

模型開(kāi)源

2025-04-10 09:15:00

模型AI數(shù)據(jù)

2024-03-25 12:40:19

訓(xùn)練模型

2025-02-12 10:20:00

2025-05-14 08:51:00

2025-06-13 08:45:00

數(shù)據(jù)模型可視化

2023-07-30 16:05:44

多模態(tài)學(xué)習(xí)框架自然語(yǔ)言
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)