偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了

發(fā)布于 2024-6-28 11:00
瀏覽
0收藏

皮仁杰:香港科技大學(xué)博士三年級(jí)學(xué)生,師從張潼教授和周曉方教授。于 2024 年獲得蘋果獎(jiǎng)學(xué)金。目前主要研究方向是多模態(tài)大語言模型和數(shù)據(jù)為中心的 AI。

?

張鑒殊:武漢大學(xué)本科三年級(jí)學(xué)生,目前在張潼教授的指導(dǎo)下?lián)窝芯繉?shí)習(xí)生,主要研究方向是大語言模型,多模態(tài)大語言模型以及持續(xù)學(xué)習(xí)。當(dāng)下在尋找 2025 fall 博士入學(xué)機(jī)會(huì)。


在當(dāng)今的多模態(tài)大模型的發(fā)展中,模型的性能和訓(xùn)練數(shù)據(jù)的質(zhì)量關(guān)系十分緊密,可以說是 “數(shù)據(jù)賦予了模型的絕大多數(shù)能力”。


在這其中,圖像 - 文本數(shù)據(jù)集發(fā)揮著至關(guān)重要的作用,在圖像理解、文本生成和圖像檢索等多個(gè)領(lǐng)域發(fā)揮著關(guān)鍵作用。


然而,現(xiàn)有的圖像描述數(shù)據(jù)集主要來源于網(wǎng)絡(luò)抓取和人工標(biāo)注,存在著質(zhì)量參差不齊、細(xì)節(jié)缺失、描述噪音多等問題。盡管人類可以為圖像提供詳細(xì)的描述,但高昂的標(biāo)注成本限制了其規(guī)模和可行性。因此,迫切需要一種高效、可擴(kuò)展的方法來生成準(zhǔn)確且詳細(xì)的圖像描述。


為了應(yīng)對(duì)上述挑戰(zhàn),來自香港科技大學(xué)、武漢大學(xué)、浙江大學(xué)、UIUC的研究者聯(lián)合提出了一種創(chuàng)新的自動(dòng)化框架 ——Image-Textualization(IT),該框架通過整合多模態(tài)大語言模型(MLLMs)和多種視覺專家模型的協(xié)作,將圖片信息進(jìn)行文本化,最后利用擁有強(qiáng)大的推理能力的純文本大語言模型將這些文本化的信息轉(zhuǎn)化為高質(zhì)量的圖像描述。


將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

  • 論文:Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions
  • 論文地址:https://arxiv.org/pdf/2406.07502v1
  • 項(xiàng)目地址:https://github.com/sterzhang/image-textualization/


將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

利用多模態(tài)模型造的圖片描述 vs 利用 IT 生成的圖片描述


總的來說,本文貢獻(xiàn)包括:


  • 創(chuàng)新框架:我們提出了圖像文本化框架,利用多模態(tài)大模型的的粗粒度圖像理解能力,視覺專家模型的精細(xì)感知能力,以及純文本大語言的模型的推理能力去自動(dòng)生成細(xì)節(jié)豐富且語言表達(dá)清晰的圖像描述。
  • 評(píng)估基準(zhǔn)與實(shí)驗(yàn):提出了多個(gè)評(píng)估細(xì)節(jié)豐富的圖片描述的基準(zhǔn),通過廣泛的實(shí)驗(yàn)驗(yàn)證了框架的有效性。
  • 數(shù)據(jù)集與代碼發(fā)布:利用我們的圖像文本化框架,我們生成了一個(gè)大規(guī)模高質(zhì)量的圖像描述數(shù)據(jù)集(IT-170K)。為了促進(jìn)未來的研究,我們已將所有源代碼和生成的數(shù)據(jù)集公開發(fā)布。


將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

Image Textualization 方法


Image-Textualization(IT)框架包括以下三個(gè)階段:


1. 粗粒度的圖片文本化(Holistic Textualization):首先利用多模態(tài)大語言模型對(duì)圖片生成參考描述,盡管這些描述可能存在細(xì)節(jié)缺失和幻覺,但它們?yōu)閳D像的視覺信息和語言表達(dá)提供了基本結(jié)構(gòu)。這里視覺的結(jié)構(gòu)主要體現(xiàn)在參考描述中往往會(huì)包含一些大的,核心的物體,這個(gè)可以為后續(xù)的細(xì)節(jié)提供類似 “錨點(diǎn)” 的作用,能夠使得最后的文本化重述(Textualized Recaptioning)更好的添加細(xì)節(jié)。另外,語言表達(dá)上的結(jié)構(gòu)主要體現(xiàn)在多模態(tài)大模型包含的純文本大語言模型使得其擁有較強(qiáng)的語言能力,這使得這里生成的參考描述能夠在語言上有良好的組織,比如會(huì)先說出這個(gè)圖片大概描述了些什么,然后展開細(xì)節(jié),最后總結(jié),這種描述風(fēng)格較為偏向人類的偏好。這也能夠使得最后的文本化重述(Textualized Recaptioning)能夠在一個(gè)語言能力較好的模板上進(jìn)行加工。


2. 視覺細(xì)節(jié)文本化(Visual Detail Textualization):這個(gè)階段我們同時(shí)從圖片端和文本端進(jìn)行細(xì)節(jié)的提取。


首先是文本端,由于在上一階段中我們利用多模態(tài)大模型生成的參考描述可能含有幻覺,所以這里首先做的是 “幻覺檢測(cè)”。我們首先利用 LLM 去抓取參考描述中含有的實(shí)體,再利用了一個(gè)開集檢測(cè)器去圖片里對(duì)這個(gè)實(shí)體進(jìn)行匹配,如果沒有被檢測(cè)出來,則將這個(gè)實(shí)體判斷為幻覺。這里我們把檢測(cè)出來的幻覺也進(jìn)行了文本化,在最后的文本化重述(Textualized Recaptioning)進(jìn)行刪除。


將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

在視覺端,我們利用在高分辨率圖片上訓(xùn)練出來的各個(gè)任務(wù)上的視覺專家模型提取圖像中的細(xì)節(jié)信息。想要將一個(gè)圖片上的物體的細(xì)節(jié)信息利用文本表達(dá)出來僅僅用物體的 caption 是不夠的,我們首先利用提取這些物體的 bounding box 來把這些物體的左右關(guān)系給用文本的方式體現(xiàn)出來。但圖片中的物體不僅僅有左右信息,還有前后信息。對(duì)此,我們首先利用分割模型將這些物體的 mask 給提取出來,再將原本的圖片轉(zhuǎn)化為深度圖,通過計(jì)算深度圖中特定物體 mask 對(duì)應(yīng)的深度分?jǐn)?shù)來將深度信息由文本體現(xiàn)出來。至此,我們能利用文本還原出圖片中各個(gè)物體的大小,左右位置,前后關(guān)系等細(xì)節(jié)信息。

將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

3. 文本化重述(Textualized Recaptioning):結(jié)合前兩個(gè)階段的圖片信息文本化的結(jié)果,加上我們通過精心設(shè)計(jì)的改寫 prompt,純文本的大語言模型能夠很好的通過純文本還原出圖片的信息,并通過強(qiáng)大理解和推理能力生成詳細(xì)且準(zhǔn)確的圖像描述。


全面評(píng)估與實(shí)驗(yàn)驗(yàn)證


為了驗(yàn)證我們框架的有效性,我們構(gòu)建了三個(gè)評(píng)估基準(zhǔn),分別是 DID-Bench(詳細(xì)圖像描述基準(zhǔn))、D2I-Bench(描述到圖像基準(zhǔn))和 LIN-Bench(語言基準(zhǔn))。我們進(jìn)行了廣泛的實(shí)驗(yàn),結(jié)果表明 IT 框架生成的圖像描述在細(xì)節(jié)豐富度和準(zhǔn)確性方面顯著優(yōu)于現(xiàn)有方法。尤其是,通過我們的 IT 框架生成的數(shù)據(jù)集訓(xùn)練的 MLLMs,如 LLaVA-7B,展現(xiàn)出了更強(qiáng)的圖像描述能力,減少了幻覺現(xiàn)象。


DID-Bench(詳細(xì)圖像描述基準(zhǔn)):用于評(píng)估圖片描述和人類手動(dòng)標(biāo)的詳細(xì)的圖片描述的相似性。可以看到我們的修改后的 IT-{LLaVA} 和 IT-{GPT4-V} 圖片描述都比修改前的要更詳細(xì)和準(zhǔn)確,更貼合人類標(biāo)注出來的描述。

將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

D2I-Bench(描述到圖像基準(zhǔn)):利用文生圖模型將生成的描述轉(zhuǎn)化為圖片,和原圖進(jìn)行相似度的對(duì)比,這里我們選取了 CLIP-score 和 DINO-score 進(jìn)行評(píng)估,都能達(dá)到更高的分?jǐn)?shù)。

將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

另外我們還在 POPE 和 LIN-Bench 上驗(yàn)證了利用我們框架生成數(shù)據(jù)進(jìn)行訓(xùn)練的 LLaVA-7B 能夠在生成描述更詳細(xì)更復(fù)雜的情況下(表右側(cè) LIN-Bench),還能降低幻覺(表左側(cè) POPE 基準(zhǔn))。

將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

最后,我們對(duì)生成出的數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)上的對(duì)比,可以看到我們修改后的描述中各個(gè)詞性的數(shù)量上都能有較大的提升。


將圖像自動(dòng)文本化,圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

未來展望


我們的工作不僅解決了現(xiàn)有圖像描述數(shù)據(jù)集的局限性,也為設(shè)計(jì)更高效、可擴(kuò)展的方法提供了靈感。我們期待 IT 框架在更多應(yīng)用領(lǐng)域中展示其潛力,推動(dòng)圖像理解和生成技術(shù)的進(jìn)一步發(fā)展。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/0Xo9IbVq6-muRjTpexhOeA??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦