NVIDIA發(fā)布DAM-3B:讓圖像和視頻的局部描述“有模有樣”! 原創(chuàng)
在人工智能飛速發(fā)展的今天,多模態(tài)學(xué)習(xí)正逐漸成為研究的熱點領(lǐng)域。視覺-語言模型(VLMs)作為其中的重要分支,已經(jīng)在圖像和視頻的整體描述生成方面取得了令人矚目的成就。然而,當(dāng)我們試圖讓這些模型對圖像或視頻中的特定區(qū)域進行詳細(xì)描述時,卻常常發(fā)現(xiàn)它們的表現(xiàn)不盡如人意。這種局限性在視頻數(shù)據(jù)中尤為明顯,因為視頻不僅需要處理空間信息,還要考慮時間動態(tài)。幸運的是,NVIDIA最新發(fā)布的Describe Anything 3B(DAM-3B)模型,為我們帶來了新的希望。
一、局部描述的難題
在視覺-語言建模中,描述圖像或視頻中的特定區(qū)域一直是一個棘手的問題?,F(xiàn)有的通用視覺-語言模型雖然能夠很好地生成全局描述,但在生成詳細(xì)且針對特定區(qū)域的描述時往往力不從心。這主要是因為:
- 細(xì)節(jié)丟失:在視覺特征提取過程中,模型往往會丟失一些細(xì)粒度的細(xì)節(jié),導(dǎo)致生成的描述不夠具體。
- 數(shù)據(jù)稀缺:缺乏專門針對區(qū)域描述的標(biāo)注數(shù)據(jù)集,使得模型難以學(xué)習(xí)到準(zhǔn)確的局部描述能力。
- 評估標(biāo)準(zhǔn)的局限性:現(xiàn)有的評估基準(zhǔn)通常依賴于與參考字幕的簡單文本相似度,這可能會對正確但未出現(xiàn)在參考字幕中的描述進行懲罰。
二、DAM-3B:為局部描述而生
DAM-3B是NVIDIA推出的一款專門用于圖像和視頻局部描述的多模態(tài)大語言模型。它能夠接受用戶通過點、框、涂鴉或掩碼指定的區(qū)域,并生成具有上下文關(guān)聯(lián)的詳細(xì)描述。DAM-3B的核心創(chuàng)新包括:
(一)焦點提示(Focal Prompt)
DAM-3B引入了“焦點提示”機制,將完整的圖像與目標(biāo)區(qū)域的高分辨率裁剪相結(jié)合。這種雙視圖輸入方式既保留了區(qū)域的細(xì)節(jié),又保留了更廣泛的上下文信息。通過這種方式,模型能夠更好地理解目標(biāo)區(qū)域在整個圖像中的位置和作用。
(二)局部視覺主干網(wǎng)絡(luò)(Localized Vision Backbone)
DAM-3B的另一個創(chuàng)新是其增強的局部視覺主干網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過嵌入圖像和掩碼輸入,并應(yīng)用門控交叉注意力(gated cross-attention)層,將全局特征和局部特征融合在一起。這種設(shè)計不僅保留了計算效率,還能夠生成更豐富、更具上下文感知能力的描述。
(三)視頻擴展能力
DAM-3B-Video進一步將這種架構(gòu)擴展到時間序列,通過編碼逐幀的區(qū)域掩碼并將它們在時間上進行整合,模型能夠為視頻生成區(qū)域特定的描述,即使在存在遮擋或運動的情況下也能準(zhǔn)確描述。
三、數(shù)據(jù)策略與評估基準(zhǔn)
為了克服數(shù)據(jù)稀缺的問題,NVIDIA開發(fā)了DLC-SDP半監(jiān)督數(shù)據(jù)生成策略。這一兩階段的過程利用分割數(shù)據(jù)集和未標(biāo)注的網(wǎng)絡(luò)圖像,生成了150萬局部描述樣本。通過自訓(xùn)練方法,模型能夠生成高質(zhì)量的描述。
在評估方面,團隊引入了DLC-Bench基準(zhǔn)測試。與傳統(tǒng)的基于文本相似度的評估方法不同,DLC-Bench使用基于屬性的正確性評估描述質(zhì)量。這種方法更接近人類的評估方式,能夠更準(zhǔn)確地衡量模型的性能。DAM-3B在DLC-Bench上的平均準(zhǔn)確率達(dá)到了67.3%,超越了GPT-4o和VideoRefer等基線模型。
四、DAM-3B的“十八般武藝”
(一)高度詳細(xì)的圖像和視頻描述
DAM-3B在生成圖像和視頻的詳細(xì)描述方面表現(xiàn)出色。它不僅能夠描述目標(biāo)對象的名稱或類別,還能捕捉到紋理、顏色模式、形狀、顯著部分以及任何視覺上的獨特特征。例如,在描述一幅包含復(fù)雜圖案的圖像時,DAM-3B能夠詳細(xì)描述圖案的細(xì)節(jié),而不僅僅是簡單地提到圖案的存在。
(二)指令控制的描述生成
DAM-3B的靈活性在于它能夠根據(jù)用戶的指令生成不同詳細(xì)程度和風(fēng)格的描述。無論是需要一個簡潔的總結(jié),還是一個長篇大論的詳細(xì)描述,模型都能根據(jù)用戶的需求進行調(diào)整。這種能力使其在多種應(yīng)用場景中都具有廣泛的適用性,比如快速標(biāo)注任務(wù)和深入的專業(yè)分析。
(三)零樣本區(qū)域問答
除了生成描述之外,DAM-3B還能夠回答關(guān)于指定區(qū)域的問題,而無需額外的訓(xùn)練數(shù)據(jù)。用戶可以詢問區(qū)域的屬性,模型會基于其局部理解提供準(zhǔn)確且具有上下文驅(qū)動的答案。這種能力大大增強了模型在自然交互場景中的實用性。
五、DAM-3B的架構(gòu)設(shè)計
DAM-3B的架構(gòu)設(shè)計巧妙地解決了傳統(tǒng)模型在局部描述方面的不足。通過“焦點提示”,模型能夠同時看到全局圖像和目標(biāo)區(qū)域的細(xì)節(jié)。局部視覺主干網(wǎng)絡(luò)則通過門控交叉注意力層將全局和局部特征融合在一起,生成更豐富、更具上下文感知能力的描述。
(一)局部視覺主干網(wǎng)絡(luò)的細(xì)節(jié)
局部視覺主干網(wǎng)絡(luò)的設(shè)計是DAM-3B的關(guān)鍵。它將圖像和掩碼輸入進行空間對齊,并通過門控交叉注意力層將詳細(xì)的局部線索與全局上下文融合在一起。新參數(shù)初始化為零,保留了預(yù)訓(xùn)練的能力。這種設(shè)計不僅提高了描述的豐富性,還保持了計算效率。
(二)半監(jiān)督數(shù)據(jù)生成策略
由于現(xiàn)有的數(shù)據(jù)集缺乏詳細(xì)的局部描述,DAM-3B采用了半監(jiān)督數(shù)據(jù)生成策略。首先,利用分割數(shù)據(jù)集中的短類別標(biāo)簽生成豐富的描述;其次,通過自訓(xùn)練方法在未標(biāo)注的圖像上生成和優(yōu)化新的描述。這種方法不僅能夠生成大規(guī)模的高質(zhì)量訓(xùn)練數(shù)據(jù),還避免了對大量人工標(biāo)注的依賴。
六、DLC-Bench:更準(zhǔn)確的評估基準(zhǔn)
DLC-Bench是DAM-3B團隊引入的一個新的評估基準(zhǔn)。它使用基于語言模型的評估器來檢查模型生成的描述是否正確,而不是簡單地與參考字幕進行文本相似度比較。這種方法能夠更準(zhǔn)確地評估模型的性能,避免了因參考字幕不完整而導(dǎo)致的錯誤懲罰。
(一)DLC-Bench的優(yōu)勢
DLC-Bench的優(yōu)勢在于它能夠更準(zhǔn)確地評估模型在細(xì)節(jié)描述和幻覺(hallucination)方面的表現(xiàn)。通過查詢語言模型評估器,DLC-Bench能夠判斷生成的描述是否包含正確的細(xì)節(jié),并且是否避免了錯誤的幻覺。這種方法更接近人類的評估方式,能夠更真實地反映模型的性能。
七、DAM-3B的性能表現(xiàn)
DAM-3B在多個基準(zhǔn)測試中都取得了領(lǐng)先的成績。它在關(guān)鍵詞級(LVIS、PACO)、短語級(Flickr30k Entities)和多句局部描述(Ref-L4、HC-STVG)任務(wù)中都表現(xiàn)出色。在DLC-Bench上,DAM-3B的平均準(zhǔn)確率達(dá)到了67.3%,超越了其他模型。
(一)性能對比
與現(xiàn)有的模型相比,DAM-3B在生成更詳細(xì)、更準(zhǔn)確的局部描述方面具有明顯優(yōu)勢。它不僅能夠生成高質(zhì)量的描述,還能在零樣本問答任務(wù)中表現(xiàn)出色。例如,在Flickr30k Entities數(shù)據(jù)集上,DAM-3B的性能比之前的最佳模型提高了7.34%;在Ref-L4數(shù)據(jù)集上,DAM-3B在短描述和長描述任務(wù)上分別提高了39.5%和13.1%。
八、DAM-3B的未來展望
DAM-3B的發(fā)布為多模態(tài)AI系統(tǒng)的發(fā)展提供了新的技術(shù)方向。它不僅在圖像和視頻的局部描述方面表現(xiàn)出色,還為未來的研究提供了可復(fù)現(xiàn)的基準(zhǔn)。NVIDIA計劃公開發(fā)布DAM-3B的代碼、模型、數(shù)據(jù)和基準(zhǔn)測試,以支持未來的研究工作。
(一)應(yīng)用場景
DAM-3B的廣泛應(yīng)用前景令人期待。它可以在數(shù)據(jù)標(biāo)注、視頻內(nèi)容分析、機器人視覺等領(lǐng)域發(fā)揮重要作用。例如,在視頻內(nèi)容分析中,DAM-3B能夠為視頻中的特定區(qū)域生成詳細(xì)描述,幫助用戶更好地理解視頻內(nèi)容。
(二)社區(qū)探索
隨著DAM-3B的發(fā)布,我們期待看到社區(qū)對詳細(xì)局部描述的潛力進行探索。希望這個模型和基準(zhǔn)測試能夠成為未來研究的有用資源,推動多模態(tài)AI系統(tǒng)的發(fā)展。
九、總結(jié)
NVIDIA的Describe Anything 3B模型為我們帶來了多模態(tài)局部描述的新突破。它通過創(chuàng)新的架構(gòu)設(shè)計和半監(jiān)督數(shù)據(jù)生成策略,解決了傳統(tǒng)模型在局部描述方面的不足。DAM-3B不僅在多個基準(zhǔn)測試中表現(xiàn)出色,還為未來的研究提供了可復(fù)現(xiàn)的基準(zhǔn)。我們相信,DAM-3B將在多模態(tài)AI系統(tǒng)的發(fā)展中發(fā)揮重要作用,為圖像和視頻的局部描述帶來新的可能。
本文轉(zhuǎn)載自公眾號Halo咯咯 作者:基咯咯
