偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

英偉達(dá)提出最強(qiáng)「描述一切」模型 (DAM),可生成圖像或視頻特定區(qū)域的詳細(xì)描述,拿下7個(gè)基準(zhǔn)SOTA!

人工智能 新聞
“描述任何內(nèi)容”模型 (DAM)能夠?yàn)閳D像和視頻中的特定區(qū)域生成詳細(xì)的描述,可用于各種應(yīng)用,從數(shù)據(jù)標(biāo)注到作為下游任務(wù)的中間組件。

英偉達(dá)提出「描述一切」模型 (DAM),這是一個(gè)強(qiáng)大的多模態(tài)大型語言模型,可以生成圖像或視頻中特定區(qū)域的詳細(xì)描述。用戶可以使用點(diǎn)、框、涂鴉或蒙版來指定區(qū)域,DAM 將提供這些區(qū)域的豐富且符合上下文的描述。

圖片圖片

相關(guān)鏈接

  • 論文:https://arxiv.org/pdf/2504.16072
  • 主頁:https://describe-anything.github.io
  • 試用:https://huggingface.co/spaces/nvidia/describe-anything-model-demo

論文介紹

描述任何事物:詳細(xì)的本地化圖像和視頻字幕描述任何事物:詳細(xì)的本地化圖像和視頻字幕

詳細(xì)本地化字幕 (DLC)

詳細(xì)局部字幕 (DLC) 的任務(wù)是生成圖像中特定區(qū)域的全面且情境感知的描述。與傳統(tǒng)的圖像字幕(僅粗略概括整個(gè)場(chǎng)景)不同,DLC 會(huì)深入挖掘用戶指定區(qū)域的更精細(xì)細(xì)節(jié)。其目標(biāo)不僅在于捕捉物體的名稱或類別,還在于捕捉細(xì)微的屬性,例如紋理、顏色模式、形狀、顯著部分以及任何視覺上獨(dú)特的特征。圖片DLC 可以自然地?cái)U(kuò)展到視頻,描述特定區(qū)域的外觀和上下文如何隨時(shí)間變化。模型必須跨幀跟蹤目標(biāo),捕捉不斷變化的屬性、交互和細(xì)微的變化。

圖片

高度詳細(xì)的圖像和視頻字幕

該方法擅長(zhǎng)生成圖像和視頻中物體的詳細(xì)描述。通過平衡焦點(diǎn)區(qū)域的清晰度和全局上下文,該模型可以突出細(xì)微的特征(例如復(fù)雜的圖案或變化的紋理),這遠(yuǎn)遠(yuǎn)超出了一般圖像級(jí)字幕所能提供的范圍。圖片

指令控制的字幕

用戶可以引導(dǎo)我們的模型生成不同細(xì)節(jié)和風(fēng)格的描述。無論是簡(jiǎn)短的摘要,還是冗長(zhǎng)復(fù)雜的敘述,模型都能調(diào)整輸出。這種靈活性使其適用于各種用例,從快速標(biāo)記任務(wù)到深入的專家分析。

圖片

零樣本區(qū)域 QA

除了描述之外,我們的模型無需額外的訓(xùn)練數(shù)據(jù)即可回答有關(guān)特定區(qū)域的問題。用戶可以詢問該區(qū)域的屬性,模型會(huì)利用其對(duì)本地區(qū)域的理解,提供準(zhǔn)確的、基于情境的答案。此功能增強(qiáng)了自然、交互式的用例。

圖片

描述任何事物模型 (DAM) 的架構(gòu)

架構(gòu)采用“焦點(diǎn)提示”技術(shù),提供完整圖像和目標(biāo)區(qū)域的放大視圖。這種方法確保模型能夠捕捉精細(xì)細(xì)節(jié),同時(shí)保留全局背景。最終呈現(xiàn)的字幕細(xì)致準(zhǔn)確,既能反映全局,又能捕捉細(xì)微之處。

圖片該方法引入了一個(gè)集成全局特征和焦點(diǎn)特征的局部視覺主干網(wǎng)絡(luò)。圖像和掩碼在空間上對(duì)齊,門控交叉注意力層將局部細(xì)節(jié)線索與全局上下文融合。新參數(shù)初始化為零,保留預(yù)先訓(xùn)練的能力。這種設(shè)計(jì)能夠產(chǎn)生更豐富、更具有上下文感知能力的描述。

圖片

用于詳細(xì)本地化字幕的半監(jiān)督數(shù)據(jù)管道(DLC-SDP)

由于現(xiàn)有數(shù)據(jù)集缺乏詳細(xì)的局部描述,我們?cè)O(shè)計(jì)了一個(gè)兩階段流程。首先,我們使用可變長(zhǎng)度語言 (VLM) 將分割數(shù)據(jù)集中的短類標(biāo)簽擴(kuò)展為豐富的描述。其次,我們將自訓(xùn)練作為一種半監(jiān)督學(xué)習(xí)的形式應(yīng)用于未標(biāo)記圖像,使用我們的模型生成和優(yōu)化新的標(biāo)題。這種可擴(kuò)展的方法無需依賴大量的人工注釋即可構(gòu)建大量高質(zhì)量的訓(xùn)練數(shù)據(jù)。圖片

DLC-Bench:詳細(xì)本地化字幕的基準(zhǔn)

我們推出了 DLC-Bench,這是一個(gè)使用基于 LLM 的判斷器來評(píng)估模型區(qū)域描述的基準(zhǔn)測(cè)試。DLC-Bench 不再依賴簡(jiǎn)單的文本重疊,而是檢查細(xì)節(jié)是否正確以及是否存在錯(cuò)誤。這為衡量 DLC 性能提供了一個(gè)更準(zhǔn)確、更人性化的指標(biāo)。圖片

DAM、DLC-SDP 和 DLC-Bench 的優(yōu)勢(shì)

圖片

比較

在 DLC-Bench 上,我們的模型能夠生成更詳細(xì)、更準(zhǔn)確的局部描述,并減少幻覺,從而超越現(xiàn)有解決方案。它超越了針對(duì)一般圖像級(jí)任務(wù)訓(xùn)練的模型以及專為局部推理設(shè)計(jì)的模型,為詳細(xì)且語境豐富的字幕生成樹立了新的標(biāo)準(zhǔn)。

圖片圖片

結(jié)論

“描述任何內(nèi)容”模型 (DAM)能夠?yàn)閳D像和視頻中的特定區(qū)域生成詳細(xì)的描述,可用于各種應(yīng)用,從數(shù)據(jù)標(biāo)注到作為下游任務(wù)的中間組件。

責(zé)任編輯:張燕妮 來源: AIGC Studio
相關(guān)推薦

2025-04-27 08:30:00

2009-09-14 16:33:55

LINQ To XML

2009-09-24 16:19:53

Hibernate應(yīng)用

2009-09-25 14:28:40

Hibernate S

2009-09-14 13:14:49

LINQ序列

2009-09-14 14:58:52

LINQ to XML

2009-11-18 11:14:49

2010-02-05 16:58:18

Android服務(wù)

2009-10-10 10:04:50

RHEL合法使用

2010-04-09 17:45:06

Oracle索引

2009-08-26 15:53:48

C#擴(kuò)展方法

2009-08-27 15:17:40

C# const變量

2009-09-07 15:15:43

2009-08-10 16:40:03

C#索引器

2009-09-08 11:09:39

LINQ數(shù)據(jù)源

2009-10-15 14:59:45

網(wǎng)絡(luò)布線光纖技術(shù)

2009-09-25 11:04:32

Hibernate3實(shí)

2010-09-08 15:10:48

2010-06-23 14:40:57

2009-09-03 17:59:18

C#調(diào)用事件
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)