英偉達(dá)提出最強(qiáng)「描述一切」模型 (DAM),可生成圖像或視頻特定區(qū)域的詳細(xì)描述,拿下7個(gè)基準(zhǔn)SOTA!
英偉達(dá)提出「描述一切」模型 (DAM),這是一個(gè)強(qiáng)大的多模態(tài)大型語言模型,可以生成圖像或視頻中特定區(qū)域的詳細(xì)描述。用戶可以使用點(diǎn)、框、涂鴉或蒙版來指定區(qū)域,DAM 將提供這些區(qū)域的豐富且符合上下文的描述。
相關(guān)鏈接
- 論文:https://arxiv.org/pdf/2504.16072
- 主頁:https://describe-anything.github.io
- 試用:https://huggingface.co/spaces/nvidia/describe-anything-model-demo
論文介紹
描述任何事物:詳細(xì)的本地化圖像和視頻字幕
詳細(xì)本地化字幕 (DLC)
詳細(xì)局部字幕 (DLC) 的任務(wù)是生成圖像中特定區(qū)域的全面且情境感知的描述。與傳統(tǒng)的圖像字幕(僅粗略概括整個(gè)場(chǎng)景)不同,DLC 會(huì)深入挖掘用戶指定區(qū)域的更精細(xì)細(xì)節(jié)。其目標(biāo)不僅在于捕捉物體的名稱或類別,還在于捕捉細(xì)微的屬性,例如紋理、顏色模式、形狀、顯著部分以及任何視覺上獨(dú)特的特征。DLC 可以自然地?cái)U(kuò)展到視頻,描述特定區(qū)域的外觀和上下文如何隨時(shí)間變化。模型必須跨幀跟蹤目標(biāo),捕捉不斷變化的屬性、交互和細(xì)微的變化。
高度詳細(xì)的圖像和視頻字幕
該方法擅長(zhǎng)生成圖像和視頻中物體的詳細(xì)描述。通過平衡焦點(diǎn)區(qū)域的清晰度和全局上下文,該模型可以突出細(xì)微的特征(例如復(fù)雜的圖案或變化的紋理),這遠(yuǎn)遠(yuǎn)超出了一般圖像級(jí)字幕所能提供的范圍。
指令控制的字幕
用戶可以引導(dǎo)我們的模型生成不同細(xì)節(jié)和風(fēng)格的描述。無論是簡(jiǎn)短的摘要,還是冗長(zhǎng)復(fù)雜的敘述,模型都能調(diào)整輸出。這種靈活性使其適用于各種用例,從快速標(biāo)記任務(wù)到深入的專家分析。
零樣本區(qū)域 QA
除了描述之外,我們的模型無需額外的訓(xùn)練數(shù)據(jù)即可回答有關(guān)特定區(qū)域的問題。用戶可以詢問該區(qū)域的屬性,模型會(huì)利用其對(duì)本地區(qū)域的理解,提供準(zhǔn)確的、基于情境的答案。此功能增強(qiáng)了自然、交互式的用例。
描述任何事物模型 (DAM) 的架構(gòu)
架構(gòu)采用“焦點(diǎn)提示”技術(shù),提供完整圖像和目標(biāo)區(qū)域的放大視圖。這種方法確保模型能夠捕捉精細(xì)細(xì)節(jié),同時(shí)保留全局背景。最終呈現(xiàn)的字幕細(xì)致準(zhǔn)確,既能反映全局,又能捕捉細(xì)微之處。
該方法引入了一個(gè)集成全局特征和焦點(diǎn)特征的局部視覺主干網(wǎng)絡(luò)。圖像和掩碼在空間上對(duì)齊,門控交叉注意力層將局部細(xì)節(jié)線索與全局上下文融合。新參數(shù)初始化為零,保留預(yù)先訓(xùn)練的能力。這種設(shè)計(jì)能夠產(chǎn)生更豐富、更具有上下文感知能力的描述。
用于詳細(xì)本地化字幕的半監(jiān)督數(shù)據(jù)管道(DLC-SDP)
由于現(xiàn)有數(shù)據(jù)集缺乏詳細(xì)的局部描述,我們?cè)O(shè)計(jì)了一個(gè)兩階段流程。首先,我們使用可變長(zhǎng)度語言 (VLM) 將分割數(shù)據(jù)集中的短類標(biāo)簽擴(kuò)展為豐富的描述。其次,我們將自訓(xùn)練作為一種半監(jiān)督學(xué)習(xí)的形式應(yīng)用于未標(biāo)記圖像,使用我們的模型生成和優(yōu)化新的標(biāo)題。這種可擴(kuò)展的方法無需依賴大量的人工注釋即可構(gòu)建大量高質(zhì)量的訓(xùn)練數(shù)據(jù)。
DLC-Bench:詳細(xì)本地化字幕的基準(zhǔn)
我們推出了 DLC-Bench,這是一個(gè)使用基于 LLM 的判斷器來評(píng)估模型區(qū)域描述的基準(zhǔn)測(cè)試。DLC-Bench 不再依賴簡(jiǎn)單的文本重疊,而是檢查細(xì)節(jié)是否正確以及是否存在錯(cuò)誤。這為衡量 DLC 性能提供了一個(gè)更準(zhǔn)確、更人性化的指標(biāo)。
DAM、DLC-SDP 和 DLC-Bench 的優(yōu)勢(shì)
比較
在 DLC-Bench 上,我們的模型能夠生成更詳細(xì)、更準(zhǔn)確的局部描述,并減少幻覺,從而超越現(xiàn)有解決方案。它超越了針對(duì)一般圖像級(jí)任務(wù)訓(xùn)練的模型以及專為局部推理設(shè)計(jì)的模型,為詳細(xì)且語境豐富的字幕生成樹立了新的標(biāo)準(zhǔn)。
結(jié)論
“描述任何內(nèi)容”模型 (DAM)能夠?yàn)閳D像和視頻中的特定區(qū)域生成詳細(xì)的描述,可用于各種應(yīng)用,從數(shù)據(jù)標(biāo)注到作為下游任務(wù)的中間組件。