英偉達提出最強「描述一切」模型 (DAM),可生成圖像或視頻特定區(qū)域的詳細描述,拿下7個基準SOTA!
英偉達提出「描述一切」模型 (DAM),這是一個強大的多模態(tài)大型語言模型,可以生成圖像或視頻中特定區(qū)域的詳細描述。用戶可以使用點、框、涂鴉或蒙版來指定區(qū)域,DAM 將提供這些區(qū)域的豐富且符合上下文的描述。


相關(guān)鏈接
- 論文:https://arxiv.org/pdf/2504.16072
- 主頁:https://describe-anything.github.io
- 試用:https://huggingface.co/spaces/nvidia/describe-anything-model-demo
論文介紹
描述任何事物:詳細的本地化圖像和視頻字幕
詳細本地化字幕 (DLC)
詳細局部字幕 (DLC) 的任務是生成圖像中特定區(qū)域的全面且情境感知的描述。與傳統(tǒng)的圖像字幕(僅粗略概括整個場景)不同,DLC 會深入挖掘用戶指定區(qū)域的更精細細節(jié)。其目標不僅在于捕捉物體的名稱或類別,還在于捕捉細微的屬性,例如紋理、顏色模式、形狀、顯著部分以及任何視覺上獨特的特征。
DLC 可以自然地擴展到視頻,描述特定區(qū)域的外觀和上下文如何隨時間變化。模型必須跨幀跟蹤目標,捕捉不斷變化的屬性、交互和細微的變化。

高度詳細的圖像和視頻字幕
該方法擅長生成圖像和視頻中物體的詳細描述。通過平衡焦點區(qū)域的清晰度和全局上下文,該模型可以突出細微的特征(例如復雜的圖案或變化的紋理),這遠遠超出了一般圖像級字幕所能提供的范圍。
指令控制的字幕
用戶可以引導我們的模型生成不同細節(jié)和風格的描述。無論是簡短的摘要,還是冗長復雜的敘述,模型都能調(diào)整輸出。這種靈活性使其適用于各種用例,從快速標記任務到深入的專家分析。

零樣本區(qū)域 QA
除了描述之外,我們的模型無需額外的訓練數(shù)據(jù)即可回答有關(guān)特定區(qū)域的問題。用戶可以詢問該區(qū)域的屬性,模型會利用其對本地區(qū)域的理解,提供準確的、基于情境的答案。此功能增強了自然、交互式的用例。

描述任何事物模型 (DAM) 的架構(gòu)
架構(gòu)采用“焦點提示”技術(shù),提供完整圖像和目標區(qū)域的放大視圖。這種方法確保模型能夠捕捉精細細節(jié),同時保留全局背景。最終呈現(xiàn)的字幕細致準確,既能反映全局,又能捕捉細微之處。
該方法引入了一個集成全局特征和焦點特征的局部視覺主干網(wǎng)絡。圖像和掩碼在空間上對齊,門控交叉注意力層將局部細節(jié)線索與全局上下文融合。新參數(shù)初始化為零,保留預先訓練的能力。這種設計能夠產(chǎn)生更豐富、更具有上下文感知能力的描述。

用于詳細本地化字幕的半監(jiān)督數(shù)據(jù)管道(DLC-SDP)
由于現(xiàn)有數(shù)據(jù)集缺乏詳細的局部描述,我們設計了一個兩階段流程。首先,我們使用可變長度語言 (VLM) 將分割數(shù)據(jù)集中的短類標簽擴展為豐富的描述。其次,我們將自訓練作為一種半監(jiān)督學習的形式應用于未標記圖像,使用我們的模型生成和優(yōu)化新的標題。這種可擴展的方法無需依賴大量的人工注釋即可構(gòu)建大量高質(zhì)量的訓練數(shù)據(jù)。
DLC-Bench:詳細本地化字幕的基準
我們推出了 DLC-Bench,這是一個使用基于 LLM 的判斷器來評估模型區(qū)域描述的基準測試。DLC-Bench 不再依賴簡單的文本重疊,而是檢查細節(jié)是否正確以及是否存在錯誤。這為衡量 DLC 性能提供了一個更準確、更人性化的指標。
DAM、DLC-SDP 和 DLC-Bench 的優(yōu)勢

比較
在 DLC-Bench 上,我們的模型能夠生成更詳細、更準確的局部描述,并減少幻覺,從而超越現(xiàn)有解決方案。它超越了針對一般圖像級任務訓練的模型以及專為局部推理設計的模型,為詳細且語境豐富的字幕生成樹立了新的標準。


結(jié)論
“描述任何內(nèi)容”模型 (DAM)能夠為圖像和視頻中的特定區(qū)域生成詳細的描述,可用于各種應用,從數(shù)據(jù)標注到作為下游任務的中間組件。


















