偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tt id="xa78p"><mark id="xa78p"></mark></tt>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

將圖像自動(dòng)文本化，圖像描述質(zhì)量更高、更準(zhǔn)確了

輕薄滴假象

發(fā)布于 2024-6-28 11:00

瀏覽

0收藏

皮仁杰：香港科技大學(xué)博士三年級(jí)學(xué)生，師從張潼教授和周曉方教授。于 2024 年獲得蘋果獎(jiǎng)學(xué)金。目前主要研究方向是多模態(tài)大語言模型和數(shù)據(jù)為中心的 AI。

?

張鑒殊：武漢大學(xué)本科三年級(jí)學(xué)生，目前在張潼教授的指導(dǎo)下?lián)窝芯繉?shí)習(xí)生，主要研究方向是大語言模型，多模態(tài)大語言模型以及持續(xù)學(xué)習(xí)。當(dāng)下在尋找 2025 fall 博士入學(xué)機(jī)會(huì)。

在當(dāng)今的多模態(tài)大模型的發(fā)展中，模型的性能和訓(xùn)練數(shù)據(jù)的質(zhì)量關(guān)系十分緊密，可以說是 “數(shù)據(jù)賦予了模型的絕大多數(shù)能力”。

在這其中，圖像 - 文本數(shù)據(jù)集發(fā)揮著至關(guān)重要的作用，在圖像理解、文本生成和圖像檢索等多個(gè)領(lǐng)域發(fā)揮著關(guān)鍵作用。

然而，現(xiàn)有的圖像描述數(shù)據(jù)集主要來源于網(wǎng)絡(luò)抓取和人工標(biāo)注，存在著質(zhì)量參差不齊、細(xì)節(jié)缺失、描述噪音多等問題。盡管人類可以為圖像提供詳細(xì)的描述，但高昂的標(biāo)注成本限制了其規(guī)模和可行性。因此，迫切需要一種高效、可擴(kuò)展的方法來生成準(zhǔn)確且詳細(xì)的圖像描述。

為了應(yīng)對(duì)上述挑戰(zhàn)，來自香港科技大學(xué)、武漢大學(xué)、浙江大學(xué)、UIUC的研究者聯(lián)合提出了一種創(chuàng)新的自動(dòng)化框架 ——Image-Textualization（IT），該框架通過整合多模態(tài)大語言模型（MLLMs）和多種視覺專家模型的協(xié)作，將圖片信息進(jìn)行文本化，最后利用擁有強(qiáng)大的推理能力的純文本大語言模型將這些文本化的信息轉(zhuǎn)化為高質(zhì)量的圖像描述。

將圖像自動(dòng)文本化，圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

論文：Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions
論文地址：https://arxiv.org/pdf/2406.07502v1
項(xiàng)目地址：https://github.com/sterzhang/image-textualization/

將圖像自動(dòng)文本化，圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

利用多模態(tài)模型造的圖片描述 vs 利用 IT 生成的圖片描述

總的來說，本文貢獻(xiàn)包括：

創(chuàng)新框架：我們提出了圖像文本化框架，利用多模態(tài)大模型的的粗粒度圖像理解能力，視覺專家模型的精細(xì)感知能力，以及純文本大語言的模型的推理能力去自動(dòng)生成細(xì)節(jié)豐富且語言表達(dá)清晰的圖像描述。
評(píng)估基準(zhǔn)與實(shí)驗(yàn)：提出了多個(gè)評(píng)估細(xì)節(jié)豐富的圖片描述的基準(zhǔn)，通過廣泛的實(shí)驗(yàn)驗(yàn)證了框架的有效性。
數(shù)據(jù)集與代碼發(fā)布：利用我們的圖像文本化框架，我們生成了一個(gè)大規(guī)模高質(zhì)量的圖像描述數(shù)據(jù)集（IT-170K）。為了促進(jìn)未來的研究，我們已將所有源代碼和生成的數(shù)據(jù)集公開發(fā)布。

將圖像自動(dòng)文本化，圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

Image Textualization 方法

Image-Textualization（IT）框架包括以下三個(gè)階段：

1. 粗粒度的圖片文本化（Holistic Textualization）：首先利用多模態(tài)大語言模型對(duì)圖片生成參考描述，盡管這些描述可能存在細(xì)節(jié)缺失和幻覺，但它們?yōu)閳D像的視覺信息和語言表達(dá)提供了基本結(jié)構(gòu)。這里視覺的結(jié)構(gòu)主要體現(xiàn)在參考描述中往往會(huì)包含一些大的，核心的物體，這個(gè)可以為后續(xù)的細(xì)節(jié)提供類似 “錨點(diǎn)” 的作用，能夠使得最后的文本化重述（Textualized Recaptioning）更好的添加細(xì)節(jié)。另外，語言表達(dá)上的結(jié)構(gòu)主要體現(xiàn)在多模態(tài)大模型包含的純文本大語言模型使得其擁有較強(qiáng)的語言能力，這使得這里生成的參考描述能夠在語言上有良好的組織，比如會(huì)先說出這個(gè)圖片大概描述了些什么，然后展開細(xì)節(jié)，最后總結(jié)，這種描述風(fēng)格較為偏向人類的偏好。這也能夠使得最后的文本化重述（Textualized Recaptioning）能夠在一個(gè)語言能力較好的模板上進(jìn)行加工。

2. 視覺細(xì)節(jié)文本化（Visual Detail Textualization）：這個(gè)階段我們同時(shí)從圖片端和文本端進(jìn)行細(xì)節(jié)的提取。

首先是文本端，由于在上一階段中我們利用多模態(tài)大模型生成的參考描述可能含有幻覺，所以這里首先做的是 “幻覺檢測(cè)”。我們首先利用 LLM 去抓取參考描述中含有的實(shí)體，再利用了一個(gè)開集檢測(cè)器去圖片里對(duì)這個(gè)實(shí)體進(jìn)行匹配，如果沒有被檢測(cè)出來，則將這個(gè)實(shí)體判斷為幻覺。這里我們把檢測(cè)出來的幻覺也進(jìn)行了文本化，在最后的文本化重述（Textualized Recaptioning）進(jìn)行刪除。

將圖像自動(dòng)文本化，圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

在視覺端，我們利用在高分辨率圖片上訓(xùn)練出來的各個(gè)任務(wù)上的視覺專家模型提取圖像中的細(xì)節(jié)信息。想要將一個(gè)圖片上的物體的細(xì)節(jié)信息利用文本表達(dá)出來僅僅用物體的 caption 是不夠的，我們首先利用提取這些物體的 bounding box 來把這些物體的左右關(guān)系給用文本的方式體現(xiàn)出來。但圖片中的物體不僅僅有左右信息，還有前后信息。對(duì)此，我們首先利用分割模型將這些物體的 mask 給提取出來，再將原本的圖片轉(zhuǎn)化為深度圖，通過計(jì)算深度圖中特定物體 mask 對(duì)應(yīng)的深度分?jǐn)?shù)來將深度信息由文本體現(xiàn)出來。至此，我們能利用文本還原出圖片中各個(gè)物體的大小，左右位置，前后關(guān)系等細(xì)節(jié)信息。

將圖像自動(dòng)文本化，圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

3. 文本化重述（Textualized Recaptioning）：結(jié)合前兩個(gè)階段的圖片信息文本化的結(jié)果，加上我們通過精心設(shè)計(jì)的改寫 prompt，純文本的大語言模型能夠很好的通過純文本還原出圖片的信息，并通過強(qiáng)大理解和推理能力生成詳細(xì)且準(zhǔn)確的圖像描述。

全面評(píng)估與實(shí)驗(yàn)驗(yàn)證

為了驗(yàn)證我們框架的有效性，我們構(gòu)建了三個(gè)評(píng)估基準(zhǔn)，分別是 DID-Bench（詳細(xì)圖像描述基準(zhǔn)）、D2I-Bench（描述到圖像基準(zhǔn)）和 LIN-Bench（語言基準(zhǔn)）。我們進(jìn)行了廣泛的實(shí)驗(yàn)，結(jié)果表明 IT 框架生成的圖像描述在細(xì)節(jié)豐富度和準(zhǔn)確性方面顯著優(yōu)于現(xiàn)有方法。尤其是，通過我們的 IT 框架生成的數(shù)據(jù)集訓(xùn)練的 MLLMs，如 LLaVA-7B，展現(xiàn)出了更強(qiáng)的圖像描述能力，減少了幻覺現(xiàn)象。

DID-Bench（詳細(xì)圖像描述基準(zhǔn)）：用于評(píng)估圖片描述和人類手動(dòng)標(biāo)的詳細(xì)的圖片描述的相似性。可以看到我們的修改后的 IT-{LLaVA} 和 IT-{GPT4-V} 圖片描述都比修改前的要更詳細(xì)和準(zhǔn)確，更貼合人類標(biāo)注出來的描述。

將圖像自動(dòng)文本化，圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

D2I-Bench（描述到圖像基準(zhǔn)）：利用文生圖模型將生成的描述轉(zhuǎn)化為圖片，和原圖進(jìn)行相似度的對(duì)比，這里我們選取了 CLIP-score 和 DINO-score 進(jìn)行評(píng)估，都能達(dá)到更高的分?jǐn)?shù)。

將圖像自動(dòng)文本化，圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

將圖像自動(dòng)文本化，圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

另外我們還在 POPE 和 LIN-Bench 上驗(yàn)證了利用我們框架生成數(shù)據(jù)進(jìn)行訓(xùn)練的 LLaVA-7B 能夠在生成描述更詳細(xì)更復(fù)雜的情況下（表右側(cè) LIN-Bench），還能降低幻覺（表左側(cè) POPE 基準(zhǔn)）。

將圖像自動(dòng)文本化，圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

最后，我們對(duì)生成出的數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)上的對(duì)比，可以看到我們修改后的描述中各個(gè)詞性的數(shù)量上都能有較大的提升。

將圖像自動(dòng)文本化，圖像描述質(zhì)量更高、更準(zhǔn)確了-AI.x社區(qū)

未來展望

我們的工作不僅解決了現(xiàn)有圖像描述數(shù)據(jù)集的局限性，也為設(shè)計(jì)更高效、可擴(kuò)展的方法提供了靈感。我們期待 IT 框架在更多應(yīng)用領(lǐng)域中展示其潛力，推動(dòng)圖像理解和生成技術(shù)的進(jìn)一步發(fā)展。

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/0Xo9IbVq6-muRjTpexhOeA??

標(biāo)簽

數(shù)據(jù)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

谷歌將免費(fèi)提供3款，生成式AI圖像編輯工具

Aceryt ? 3408瀏覽 ? 0回復(fù)
曾爆火的 InstantID又有了新玩法：風(fēng)格化圖像生成，已開源

輕薄滴假象 ? 3335瀏覽 ? 0回復(fù)
文本直接生成多視角3D圖像，Meta推出創(chuàng)新模型

Aceryt ? 2878瀏覽 ? 0回復(fù)
文本到圖像擴(kuò)散模型中記憶化實(shí)用分析（浙大）

angel ? 3761瀏覽 ? 0回復(fù)
TextCoT：放大增強(qiáng)型多模態(tài)富文本圖像理解

AIRoobt ? 3665瀏覽 ? 0回復(fù)
?TextCoT：放大增強(qiáng)型多模態(tài)富文本圖像理解

AIRoobt ? 3369瀏覽 ? 0回復(fù)
圖像文本擦除無痕跡！復(fù)旦提出EAFormer：最新場(chǎng)景文本分割新SOTA！(ECCV`24)

angel ? 2855瀏覽 ? 0回復(fù)
MUMU：用文本、圖像引導(dǎo)，多模態(tài)圖像生成模型

Aceryt ? 2873瀏覽 ? 0回復(fù)
Stable Diffusion這樣的文本-圖像生成模型有記憶嗎？

angel ? 2517瀏覽 ? 0回復(fù)
視頻生成更高質(zhì)量，更連貫！關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源

angel ? 3676瀏覽 ? 0回復(fù)
UIUC提出InstructG2I：從多模態(tài)屬性圖合成圖像?，結(jié)合文本和圖信息生成內(nèi)容更豐富有趣！

angel ? 2684瀏覽 ? 0回復(fù)
突破個(gè)性化圖像生成局限！MagicTailor：組件可控個(gè)性化圖像生成創(chuàng)新框架！

angel ? 3214瀏覽 ? 0回復(fù)
首次實(shí)現(xiàn)8K圖像生成！FreeScale讓擴(kuò)散模型解鎖更高分辨率！

angel ? 2516瀏覽 ? 0回復(fù)
如何將動(dòng)效描述自動(dòng)轉(zhuǎn)化為動(dòng)效代碼

快手技術(shù) ? 2277瀏覽 ? 0回復(fù)
時(shí)序+圖像+文本，多模態(tài)增強(qiáng)的時(shí)序預(yù)測(cè)模型

海因斯DK ? 6322瀏覽 ? 0回復(fù)
FlexVAR一模型通吃圖像生成/修補(bǔ)，推理速度與質(zhì)量自由調(diào)節(jié)

angel ? 2162瀏覽 ? 0回復(fù)
IBM提出多模式圖像文本到文本模型SmolDocling，可實(shí)現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標(biāo)題高效轉(zhuǎn)換！

AIGCStudio ? 1912瀏覽 ? 0回復(fù)
新加坡國立開源Conceptrol：讓個(gè)性化圖像生成更懂你的文字提示

angel ? 1810瀏覽 ? 0回復(fù)
NVIDIA發(fā)布DAM-3B：讓圖像和視頻的局部描述“有模有樣”！

Halo咯咯 ? 1591瀏覽 ? 0回復(fù)

輕薄滴假象

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開源3個(gè)項(xiàng)目，還有梁文鋒親自參與，昨晚API大降價(jià) 2025-02-27 12:40:06發(fā)布
全球首個(gè)AI CUDA工程師來了！將PyTorch原生實(shí)現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇： ICML 2024 | 揭示非線形Transformer在上下文學(xué)習(xí)中學(xué)習(xí)和泛化的機(jī)制

下一篇：看張手繪草圖就能合成圖形程序，加州伯克利讓擴(kuò)散模型掌握新技能

社區(qū)精華內(nèi)容

目錄