OCR小模型仍有機(jī)會(huì)!華科等提出VIMTS:零樣本視頻端到端識別新SOTA
文本端到端識別是一項(xiàng)從圖像或視頻序列中提取文本信息的任務(wù),雖然取得了一些進(jìn)展,但跨領(lǐng)域文本端到端識別仍然是一個(gè)難題,面臨著圖像到圖像和圖像到視頻泛化等跨域自適應(yīng)的挑戰(zhàn)。
圖1 圖(a)和圖(b)是兩種跨域文本端到端識別,包括圖像到圖像和圖像到視頻。TT表示TotalText,IC15代表ICDAR2015,IC13代表視頻ICDAR2013。
圖像級跨域文本端到端識別面臨樣式、字體、背景等差異挑戰(zhàn),模型需要具備極強(qiáng)的泛化能力。
不同數(shù)據(jù)集間的格式差異也是跨域文本端到端識別重要的問題,如Total-Text和ICDAR2015使用詞級注釋,CTW1500使用行級注釋。視頻級跨域文本端到端識別中,由于視頻文本中存在著如遮擋、場景變化和文本快速運(yùn)動(dòng)等因素,現(xiàn)有靜態(tài)圖像的方法在視頻環(huán)境通常表現(xiàn)不佳,如圖2所示。
圖2 將靜態(tài)文本識別方法應(yīng)用于視頻,即使是那些運(yùn)動(dòng)最小的視頻,也會(huì)導(dǎo)致邊界框召回和識別準(zhǔn)確性方面的性能不足。T_n表示視頻的第n_th幀。
另外,視頻文本端到端識別中非常缺乏數(shù)據(jù)。一些研究者嘗試使用光流估計(jì)進(jìn)行數(shù)據(jù)合成,但這種方法存在扭曲、標(biāo)簽錯(cuò)誤和偏見等挑戰(zhàn),且無開源合成數(shù)據(jù)供公眾使用。
針對上述問題,華中科技大學(xué)、華南理工大學(xué)及浙江大學(xué)的研究人員提出了一種新的方法VimTS,通過實(shí)現(xiàn)不同任務(wù)之間更好的協(xié)同來增強(qiáng)模型的泛化能力,包括一個(gè)提示查詢生成模塊和一個(gè)任務(wù)感知適配器,僅使用較少參數(shù)便可有效地將原始的單任務(wù)模型轉(zhuǎn)換為適合圖像和視頻場景的多任務(wù)模型。
論文鏈接:https://arxiv.org/pdf/2404.19652
代碼地址:https://vimtextspotter.github.io
提示查詢生成模塊促進(jìn)不同任務(wù)之間的顯式交互,而任務(wù)感知適配器幫助模型動(dòng)態(tài)地學(xué)習(xí)適合每個(gè)任務(wù)的特性。
此外,為了進(jìn)一步使模型能夠以更低的成本學(xué)習(xí)時(shí)間信息,研究人員提出了一個(gè)利用內(nèi)容變形場(CoDeF)算法的合成視頻文本數(shù)據(jù)集(VTD-368k)。
實(shí)驗(yàn)結(jié)果顯示,該方法在六個(gè)跨域基準(zhǔn)測試(如TT-to-IC15、CTW1500-to-TT和TT-to-CTW1500)中比最先進(jìn)的方法平均高出2.6%
對于視頻級跨域自適應(yīng),該方法甚至超過了ICDAR2015視頻和DSText v2中之前的端到端視頻識別方法,在MOTA指標(biāo)上平均高出5.5 %,僅使用圖像級數(shù)據(jù)。
通過進(jìn)一步實(shí)驗(yàn)證明,與文中提出的VimTS模型相比,現(xiàn)有的大型多模態(tài)模型在生成跨域場景文本識別方面存在局限性,Vim模型需要的參數(shù)和數(shù)據(jù)要少得多。
方法原理簡述
圖3 網(wǎng)絡(luò)整體框架圖
總體結(jié)構(gòu)
VimTS是一個(gè)旨在利用各種任務(wù)之間的協(xié)同作用的統(tǒng)一框架,以提高文本端到端識別的泛化能力,其整體架構(gòu)如圖3所示,使用一組任務(wù)感知查詢表示各種任務(wù)。
首先,通過特征提取過程獲得圖像特征。
然后,使用Query Initialization模塊生成任務(wù)感知查詢,包括檢測和識別查詢。
隨后,這些查詢被饋送到任務(wù)感知解碼器中,以顯式捕獲判別和交互特性,同時(shí)進(jìn)行文本檢測、識別和跟蹤。
接著,使用提示查詢生成模塊(PQGM)和任務(wù)感知適配器實(shí)現(xiàn)分層任務(wù)之間的交互,包括單詞級和行級文本端到端識別,以及視頻級文本端到端識別。
在訓(xùn)練階段,大多數(shù)參數(shù)被凍結(jié)。然后,任務(wù)感知適配器和PQGM學(xué)習(xí)多任務(wù)特性。首先,將要執(zhí)行的任務(wù)提示輸入到PQGM中。
然后,PQGM生成提示查詢,并將其發(fā)送給Transformer編碼器和任務(wù)感知解碼器,以指導(dǎo)模型完成相應(yīng)的任務(wù)。
我們的方法不僅適用于圖像級的跨域,還可以學(xué)習(xí)視頻級的跨域自適應(yīng)。
提示查詢生成模塊
為了提高模型處理多任務(wù)的能力,我們引入了提示查詢生成模塊(PQGM),用于生成指導(dǎo)模型運(yùn)行的提示查詢。該模塊的結(jié)構(gòu)如圖4所示。
圖4 提示查詢生成模塊
我們使用可學(xué)習(xí)的嵌入作為每個(gè)任務(wù)的提示查詢,其維度與Transformer隱藏特征的維度相匹配。在將這些提示查詢輸入模型之前,我們使用注意機(jī)制促進(jìn)不同任務(wù)之間的信息交換。隨后,我們將提示查詢輸入模型,以指導(dǎo)其學(xué)習(xí)特定于任務(wù)的特征。使用PQGM,VimTS可以同時(shí)處理多個(gè)任務(wù),并促進(jìn)它們之間的顯式交互,從而促進(jìn)不同任務(wù)之間的協(xié)同作用。
在交互之后,我們將提示查詢傳輸?shù)絋ransformer編碼器,使其能夠?qū)W習(xí)任務(wù)特定的特性。然后,利用這些特性來協(xié)助查詢初始化,并指導(dǎo)解碼器輸出相應(yīng)任務(wù)的結(jié)果。
為了進(jìn)一步增強(qiáng)對任務(wù)特定特性的學(xué)習(xí),我們將提示查詢與任務(wù)感知查詢集成在一起。我們通過向任務(wù)感知查詢添加提示查詢來實(shí)現(xiàn)這種融合,從而引導(dǎo)模型更有效地完成相應(yīng)的任務(wù)。
任務(wù)感知適配器
受Adapter的啟發(fā),我們提出了一個(gè)任務(wù)感知適配器來動(dòng)態(tài)地為不同的任務(wù)選擇合適的特性。帶有PQGM的任務(wù)感知適配器有效地將原始的單任務(wù)模型轉(zhuǎn)換為適合圖像和視頻場景的多任務(wù)模型,所需的額外參數(shù)最少。
任務(wù)感知適配器采用級聯(lián)適配器結(jié)構(gòu),其中一個(gè)適配器編碼檢測信息,另一個(gè)適配器編碼識別信息。
為了實(shí)現(xiàn)這一點(diǎn),我們首先凍結(jié)預(yù)訓(xùn)練文本觀測者的大多數(shù)參數(shù)。接下來,我們將適配器集成到神經(jīng)網(wǎng)絡(luò)中,例如一個(gè)Transformer層。
在多任務(wù)訓(xùn)練過程中,適配器學(xué)習(xí)不同任務(wù)的特征。值得注意的是,任務(wù)感知適配器不僅可以應(yīng)用于圖像級場景,還可以學(xué)習(xí)時(shí)間信息,從而幫助預(yù)訓(xùn)練模型過渡到涉及視頻文本端到端識別的任務(wù)。
總體結(jié)構(gòu)如圖5所示。
圖5 任務(wù)感知適配器結(jié)構(gòu)圖
最初,我們使用兩個(gè)線性層將組查詢的維數(shù)降為原本的四分之一,從而降低了后續(xù)模塊的參數(shù)。然后,任務(wù)感知查詢通過注意機(jī)制聚合檢測信息。
在對檢測特征進(jìn)行聚合后,對圖像級文本端到端識別采用注意機(jī)制學(xué)習(xí)不同文本實(shí)例之間的關(guān)系,對視頻級文本端到端識別采用注意機(jī)制對時(shí)間信息進(jìn)行建模。
第二個(gè)適配器遵循類似的過程,但側(cè)重于聚合識別信息。使用任務(wù)感知適配器,可以有效地學(xué)習(xí)交互和判別特征,所需的額外參數(shù)最少。
跟蹤查詢
受MOTR啟發(fā),我們采用跟蹤查詢使模型支持文本跟蹤,從而使VimTS能夠動(dòng)態(tài)適應(yīng)圖像和視頻等不同輸入。
由于同一文本實(shí)例在前后幀之間表現(xiàn)出很強(qiáng)的相關(guān)性,我們利用前一幀的檢測和識別查詢作為跟蹤查詢,對當(dāng)前幀中的文本實(shí)例進(jìn)行定位、識別和跟蹤。對于新生文本實(shí)例,我們繼續(xù)使用檢測和識別查詢來定位和識別。
不同的查詢在單個(gè)解碼器中顯式地建模不同任務(wù)的判別和交互特征,并同時(shí)輸出檢測、識別和跟蹤結(jié)果。
相比之前的視頻文本端到端識別方法,我們的方法通過統(tǒng)一框架和組合查詢,在跟蹤過程中更有效地利用不同幀的識別信息。這樣,我們可以利用前一幀的識別信息來幫助后一幀中的文本實(shí)例識別,實(shí)現(xiàn)之前方法無法做到的效果。
視頻數(shù)據(jù)合成方法
視頻文本識別數(shù)據(jù)是非常昂貴的。BOVText報(bào)告說,注釋2,021個(gè)視頻需要30名工作人員在三個(gè)月的時(shí)間內(nèi)全力以赴。
此外,數(shù)據(jù)集版權(quán)也僅限于視頻文本端到端識別數(shù)據(jù)的大規(guī)模構(gòu)建。因此,采用低成本的合成數(shù)據(jù)是緩解視頻文本識別模型數(shù)據(jù)需求的有效方法。數(shù)據(jù)合成的一個(gè)解決方案是使用光流估計(jì),但它帶來了幾個(gè)挑戰(zhàn),包括失真、標(biāo)記錯(cuò)誤和對靜態(tài)對象的偏見。
為了應(yīng)對這些挑戰(zhàn),我們引入了一種新的方法,該方法利用CoDeF來促進(jìn)實(shí)現(xiàn)真實(shí)和穩(wěn)定的文本流傳播,以構(gòu)建合成視頻文本數(shù)據(jù)集。
我們從NExT-QA, Charades-Ego, Breakfast, A2D, MPI-Cooking, ActorShif和Hollywood手動(dòng)收集和過濾無文本,開源和無限制的視頻。
然后,我們將它們按優(yōu)先順序排列,這是由過渡的穩(wěn)定性,高分辨率和視頻中廣泛的平面區(qū)域的流行所決定的。每個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息顯示在表1。
為了實(shí)現(xiàn)分布式處理和減少GPU內(nèi)存,我們將視頻分成包含368K幀的片段進(jìn)行數(shù)據(jù)合成。合成數(shù)據(jù)稱為VTD-368K。
表1 VTD-368k的源視頻數(shù)據(jù)集統(tǒng)計(jì)。時(shí)長表示視頻的平均時(shí)長。Remaining表示所選幀的比例
在介紹合成方法以前,我們先簡單介紹一下CoDef。CoDeF是使用扁平規(guī)范圖像C和變形場D表示由幀
組成的視頻V的有效方法。總體過程可以秒速為:
式中, 為隱式模型的擬合過程。通過使用ControlNet、SAM或R-ESRGAN等特定的工具,將規(guī)范圖像C轉(zhuǎn)換為C',并將此轉(zhuǎn)換與變形場 同時(shí)集成,可以實(shí)現(xiàn)視頻風(fēng)格轉(zhuǎn)換、視頻對象跟蹤和視頻超分辨率。視頻V’的重構(gòu)過程可表述為
式中,C為隱式模型的重構(gòu)過程,V′為重構(gòu)后的視頻。
我們提出了一種新的合成方法。具體如圖6所示,我們首先使用SAM-Track和RAFT分別獲得所有幀的光流圖和分割圖。然后,CoDeF用于有效地重建視頻中的剛性和非剛性對象,同時(shí)精心恢復(fù)運(yùn)動(dòng)細(xì)節(jié)的微妙復(fù)雜性。
經(jīng)CoDeF處理后,輸入視頻被表示為規(guī)范圖像C和變形場D
其中,C作為通過Synthtext放置文本的基礎(chǔ),而D封裝了從觀察到每個(gè)幀的規(guī)范化表示的轉(zhuǎn)換。隨后,可以生成嵌入文本地圖Tc,如下所示:
式中,Sc和Dc分別為規(guī)范圖像 的分割圖和深度圖。然后,將Tc作為公式五的輸入,與D結(jié)合,重構(gòu)視頻文本映射Tt,使用下式:
訓(xùn)練的隱式可變形模型生成文本幾何形狀,但不保留其共線性和筆畫順序。為了解決這一問題,在隱式可變形模型重建后引入了投影變換。具體來說,我們收集一組點(diǎn)對(pc, pt)
其中pc是規(guī)范圖像中形成文本幾何圖形的點(diǎn),pt是它們在重構(gòu)幀中的對應(yīng)點(diǎn)。然后,我們用RANSAC估計(jì)投影矩陣H_{c, t}以魯棒擬合這些點(diǎn)對。
最后,我們應(yīng)用該投影矩陣來轉(zhuǎn)換文本映射中的每個(gè)文本幾何形狀。
圖6 基于CoDef的合成方法總體框架。
圖7 合成數(shù)據(jù)的樣例。
主要實(shí)驗(yàn)結(jié)果及可視化結(jié)果
圖片級別跨域端到端識別的實(shí)驗(yàn)結(jié)果
為了更好的評估我們方法的有效性,我們對TotalText和CTW1500進(jìn)行了新的標(biāo)注。對TotalText的測試集重標(biāo)注行級別文本的標(biāo)注。對CTW1500的測試集重標(biāo)注單詞級別文本的標(biāo)注。
表2 跨域文本檢測的性能。 表示單詞級別的TotalText。 表示行級TotalText。 表示字級CTW1500。 表示行級CTW1500。加粗表示SOTA。
表3 跨域文本端到端識別的性能。
消融實(shí)驗(yàn)
表4 消融實(shí)驗(yàn)結(jié)果
在場景文本識別方法上進(jìn)行了實(shí)景自適應(yīng)測試。表中接結(jié)果是端到端識別在“None”字典下的結(jié)果。Full-Tuning表示對模型的所有參數(shù)進(jìn)行調(diào)優(yōu)。PQGM表示提示查詢生成模塊。
視頻級別跨域端到端識別的實(shí)驗(yàn)結(jié)果
表5 視頻文本識別結(jié)果,' M-Tracked '和' M-Lost '分別表示' most Tracked '和' most Lost '。
表6 在ICDAR2013上的視頻文本檢測結(jié)果。
表7 在DSText v2上的視頻文本檢測結(jié)果。
表8 在ICDAR2013上零樣本視頻端到端識別的結(jié)果。所有方法都使用相同的圖片級別的訓(xùn)練集,并對視頻的每一幀評估端到端識別的結(jié)果。
圖8 通過t-SNE在不同幀中文本實(shí)例的分布。
可以看出,在本文提出的方法中,同一文本在不同幀間的特征相似度更高。因此,在我們的方法中,使用前一幀的特征作為當(dāng)前幀的輸入查詢,即使只使用圖像級訓(xùn)練數(shù)據(jù),也可以有效地定位、識別和跟蹤相同的文本實(shí)例。
可視化
圖9 與其他方法在文字視頻上的對比
討論
近年來,大型多模態(tài)模型因其強(qiáng)大的泛化能力而備受關(guān)注。為了進(jìn)一步證明我們的方法的有效性,我們在ICDAR2015上進(jìn)行了跨域?qū)嶒?yàn),與大型多模態(tài)模型進(jìn)行了比較。評估過程參考GPT-4V_OCR[2]。
結(jié)果顯示在表9中。研究結(jié)果表明,為特定任務(wù)開發(fā)場景文本識別方法的重要性。與大型多模態(tài)模型的廣泛應(yīng)用相比,這種專門的方法不僅在需要更少的參數(shù)方面更有效,而且需要更少的訓(xùn)練數(shù)據(jù)。
表9 ICDAR2015上的跨域文本識別與mlms的比較。所有結(jié)果都在“None”詞典上進(jìn)行測試。OCR相關(guān)數(shù)據(jù)表示與OCR相關(guān)的訓(xùn)練數(shù)據(jù)。S.、N.、D.和T.分別代表合成、自然、文檔和表格數(shù)據(jù)。
圖10 與多模態(tài)大模型的可視化分析
總結(jié)
在本文中,我們介紹了VimTS,它通過發(fā)揮不同粒度文本識別任務(wù)(包括詞級,行級和視頻級文本識別)之間的協(xié)同作用來提高跨域文本識別性能。VimTS通過聯(lián)合優(yōu)化不同場景下的不同任務(wù)來增強(qiáng)模型的泛化能力。
在廣泛的跨領(lǐng)域基準(zhǔn)測試上進(jìn)行的廣泛實(shí)驗(yàn)一致表明,我們的方法比以前的最先進(jìn)的方法性能要好得多。值得一提的是,我們的方法證明了靜態(tài)文本圖像可以很好地轉(zhuǎn)化為視頻文本圖像是可行的。
由于與視頻圖像相比,靜態(tài)圖像需要的注釋工作要少得多,因此探索彌合領(lǐng)域差距的方法將是非常有價(jià)值的。
此外,我們證明了當(dāng)前的大型多模態(tài)模型在跨域文本識別方面仍然存在局限性,利用更少的參數(shù)和更少的數(shù)據(jù)來提高大型多模態(tài)模型在文本識別中的泛化,值得進(jìn)一步探索。
本文轉(zhuǎn)自 新智元,作者:新智元
