偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="octrw"></tfoot>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

英偉達(dá)提出最強(qiáng)「描述一切」模型 (DAM)，可生成圖像或視頻特定區(qū)域的詳細(xì)描述，拿下7個(gè)基準(zhǔn)SOTA！

2025-05-07 10:10:36

人工智能新聞

“描述任何內(nèi)容”模型 (DAM)能夠?yàn)閳D像和視頻中的特定區(qū)域生成詳細(xì)的描述，可用于各種應(yīng)用，從數(shù)據(jù)標(biāo)注到作為下游任務(wù)的中間組件。

英偉達(dá)提出「描述一切」模型 (DAM)，這是一個(gè)強(qiáng)大的多模態(tài)大型語言模型，可以生成圖像或視頻中特定區(qū)域的詳細(xì)描述。用戶可以使用點(diǎn)、框、涂鴉或蒙版來指定區(qū)域，DAM 將提供這些區(qū)域的豐富且符合上下文的描述。

相關(guān)鏈接

論文：https://arxiv.org/pdf/2504.16072
主頁：https://describe-anything.github.io
試用：https://huggingface.co/spaces/nvidia/describe-anything-model-demo

論文介紹

描述任何事物：詳細(xì)的本地化圖像和視頻字幕

詳細(xì)本地化字幕 (DLC)

詳細(xì)局部字幕 (DLC) 的任務(wù)是生成圖像中特定區(qū)域的全面且情境感知的描述。與傳統(tǒng)的圖像字幕（僅粗略概括整個(gè)場(chǎng)景）不同，DLC 會(huì)深入挖掘用戶指定區(qū)域的更精細(xì)細(xì)節(jié)。其目標(biāo)不僅在于捕捉物體的名稱或類別，還在于捕捉細(xì)微的屬性，例如紋理、顏色模式、形狀、顯著部分以及任何視覺上獨(dú)特的特征。DLC 可以自然地?cái)U(kuò)展到視頻，描述特定區(qū)域的外觀和上下文如何隨時(shí)間變化。模型必須跨幀跟蹤目標(biāo)，捕捉不斷變化的屬性、交互和細(xì)微的變化。

高度詳細(xì)的圖像和視頻字幕

該方法擅長(zhǎng)生成圖像和視頻中物體的詳細(xì)描述。通過平衡焦點(diǎn)區(qū)域的清晰度和全局上下文，該模型可以突出細(xì)微的特征（例如復(fù)雜的圖案或變化的紋理），這遠(yuǎn)遠(yuǎn)超出了一般圖像級(jí)字幕所能提供的范圍。

指令控制的字幕

用戶可以引導(dǎo)我們的模型生成不同細(xì)節(jié)和風(fēng)格的描述。無論是簡(jiǎn)短的摘要，還是冗長(zhǎng)復(fù)雜的敘述，模型都能調(diào)整輸出。這種靈活性使其適用于各種用例，從快速標(biāo)記任務(wù)到深入的專家分析。

零樣本區(qū)域 QA

除了描述之外，我們的模型無需額外的訓(xùn)練數(shù)據(jù)即可回答有關(guān)特定區(qū)域的問題。用戶可以詢問該區(qū)域的屬性，模型會(huì)利用其對(duì)本地區(qū)域的理解，提供準(zhǔn)確的、基于情境的答案。此功能增強(qiáng)了自然、交互式的用例。

描述任何事物模型 (DAM) 的架構(gòu)

架構(gòu)采用“焦點(diǎn)提示”技術(shù)，提供完整圖像和目標(biāo)區(qū)域的放大視圖。這種方法確保模型能夠捕捉精細(xì)細(xì)節(jié)，同時(shí)保留全局背景。最終呈現(xiàn)的字幕細(xì)致準(zhǔn)確，既能反映全局，又能捕捉細(xì)微之處。

該方法引入了一個(gè)集成全局特征和焦點(diǎn)特征的局部視覺主干網(wǎng)絡(luò)。圖像和掩碼在空間上對(duì)齊，門控交叉注意力層將局部細(xì)節(jié)線索與全局上下文融合。新參數(shù)初始化為零，保留預(yù)先訓(xùn)練的能力。這種設(shè)計(jì)能夠產(chǎn)生更豐富、更具有上下文感知能力的描述。

用于詳細(xì)本地化字幕的半監(jiān)督數(shù)據(jù)管道（DLC-SDP）

由于現(xiàn)有數(shù)據(jù)集缺乏詳細(xì)的局部描述，我們?cè)O(shè)計(jì)了一個(gè)兩階段流程。首先，我們使用可變長(zhǎng)度語言 (VLM) 將分割數(shù)據(jù)集中的短類標(biāo)簽擴(kuò)展為豐富的描述。其次，我們將自訓(xùn)練作為一種半監(jiān)督學(xué)習(xí)的形式應(yīng)用于未標(biāo)記圖像，使用我們的模型生成和優(yōu)化新的標(biāo)題。這種可擴(kuò)展的方法無需依賴大量的人工注釋即可構(gòu)建大量高質(zhì)量的訓(xùn)練數(shù)據(jù)。

DLC-Bench：詳細(xì)本地化字幕的基準(zhǔn)

我們推出了 DLC-Bench，這是一個(gè)使用基于 LLM 的判斷器來評(píng)估模型區(qū)域描述的基準(zhǔn)測(cè)試。DLC-Bench 不再依賴簡(jiǎn)單的文本重疊，而是檢查細(xì)節(jié)是否正確以及是否存在錯(cuò)誤。這為衡量 DLC 性能提供了一個(gè)更準(zhǔn)確、更人性化的指標(biāo)。

DAM、DLC-SDP 和 DLC-Bench 的優(yōu)勢(shì)

比較

在 DLC-Bench 上，我們的模型能夠生成更詳細(xì)、更準(zhǔn)確的局部描述，并減少幻覺，從而超越現(xiàn)有解決方案。它超越了針對(duì)一般圖像級(jí)任務(wù)訓(xùn)練的模型以及專為局部推理設(shè)計(jì)的模型，為詳細(xì)且語境豐富的字幕生成樹立了新的標(biāo)準(zhǔn)。

結(jié)論

“描述任何內(nèi)容”模型 (DAM)能夠?yàn)閳D像和視頻中的特定區(qū)域生成詳細(xì)的描述，可用于各種應(yīng)用，從數(shù)據(jù)標(biāo)注到作為下游任務(wù)的中間組件。

責(zé)任編輯：張燕妮來源： AIGC Studio

模型生成 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<kbd id="69w0t"></kbd>

<pre id="69w0t"><source id="69w0t"><input id="69w0t"></input></source></pre>

<tfoot id="69w0t"></tfoot>