偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

ICCV 2025 | 跨越視覺與語言邊界，打開人機(jī)交互感知的新篇章：北大團(tuán)隊提出INP-CC模型重塑開放詞匯HOI檢測

2025-08-20 09:13:00

人工智能新聞

INP-CC 不僅打破了預(yù)訓(xùn)練視覺語言模型（VLM）在區(qū)域感知與概念理解上的瓶頸，還展現(xiàn)出將語言模型（LLM）知識引入計算機(jī)視覺任務(wù)的巨大潛力。

本文的第一作者為北京大學(xué)王選計算機(jī)研究所博士生雷廷，通訊作者為博士生導(dǎo)師劉洋。團(tuán)隊近年來在 TPAMI、CVPR、ICCV、ICML 等頂會上有多項代表性成果發(fā)表，多次榮獲多模態(tài)感知和生成競賽冠軍，和國內(nèi)外知名高校、科研機(jī)構(gòu)廣泛開展合作。

目前的 HOI 檢測方法普遍依賴視覺語言模型（VLM），但受限于圖像編碼器的表現(xiàn)，難以有效捕捉細(xì)粒度的區(qū)域級交互信息。本文介紹了一種全新的開集人類-物體交互（HOI）檢測方法——交互感知提示與概念校準(zhǔn)（INP-CC）。

為了解決這些問題，INP-CC 提出了一種動態(tài)生成交互感知提示的策略，并通過優(yōu)化語言模型引導(dǎo)的概念校準(zhǔn)，提升了模型對開放世界中的交互關(guān)系理解，本方法在 HICO-DET 和 SWIG-HOI 等主流數(shù)據(jù)集上取得了當(dāng)前最佳性能。

論文標(biāo)題： Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration
論文鏈接：https://arxiv.org/pdf/2508.03207
代碼鏈接：https://github.com/ltttpku/INP-CC
項目主頁：https://sites.google.com/view/inp-cc/%E9%A6%96%E9%A1%B5

目前該研究已被 ICCV 2025 正式接收，相關(guān)代碼與模型已全部開源。

HOI 檢測進(jìn)入「開放詞匯」時代

在我們的日常生活中，人與物體之間的互動無處不在。然而，目前大多數(shù)研究主要集中在封閉環(huán)境下的人物交互檢測，這些方法通常無法識別新的交互類型，因此在實際應(yīng)用中受到限制。

近年來，多模態(tài)大模型得到了快速發(fā)展，并在開放環(huán)境中展現(xiàn)出巨大的應(yīng)用潛力。如何將這些模型應(yīng)用于開放場景中的人物交互檢測，已經(jīng)成為一個備受關(guān)注的研究方向。

傳統(tǒng)的 HOI（人體-物體交互）檢測方法通常依賴于固定類別的訓(xùn)練數(shù)據(jù)，難以應(yīng)對現(xiàn)實中不斷變化的交互組合。盡管像 CLIP 這樣的視覺語言模型（VLM）為開放詞匯的建模提供了新機(jī)會，但由于這些模型通常是基于圖像級別的預(yù)訓(xùn)練，它們在捕捉人物與物體之間細(xì)微的局部交互語義時存在困難。另外，如何更有效地編碼交互的文本描述，也限制了模型對復(fù)雜 HOI 關(guān)系的理解。

為了解決這些問題，研究團(tuán)隊提出了 INP-CC 模型，并在其中提出了兩項核心創(chuàng)新：交互感知式提示生成（Interaction-aware Prompting）和概念校準(zhǔn)（Concept Calibration）。

下圖 1 中，展示了交互感知提示詞融合機(jī)制。該機(jī)制使得模型可以在具有相似語義或功能模式的交互之間，選擇性地共享提示。例如，「騎摩托車」和「騎馬」這兩種交互在人體和物體接觸動態(tài)上非常相似，因此共享提示有助于更高效地學(xué)習(xí)這些交互的表示。

圖 2 則展示了現(xiàn)有基于 CLIP 的方法在處理細(xì)粒度、多樣化的交互類型時的局限性。例如，圖中展示了「hurling」（猛擲）對應(yīng)的視覺編碼（用三角形表示）和「pitching」（拋投）的文本編碼（用橙色圓圈表示）?？梢钥闯觯缱髨D所示，CLIP 模型的視覺編碼和文本編碼在這兩者之間過于接近，導(dǎo)致模型難以區(qū)分它們。而與此對比，如右圖所示，我們的方法通過調(diào)整語義編碼空間，幫助模型有效區(qū)分視覺上相似的概念，從而更加高效地建模模態(tài)內(nèi)和模態(tài)間的關(guān)系。

圖 1 交互感知提示詞融合

圖 2 在 CLIP 原始空間（左側(cè)）和我們修正后的空間（右側(cè)）中模態(tài)內(nèi)和模態(tài)間相似度。

模型架構(gòu)：從「看圖說話」到「聚焦交互」

圖 3 INP-CC 方法框架

INP-CC 模型首先通過一個交互適應(yīng)式提示生成器（圖 3 灰色區(qū)域），結(jié)合輸入圖片特性，動態(tài)構(gòu)造與場景相關(guān)的提示集合。這些提示被分為通用提示和可共享的交互提示，使得像「抱貓」和「撫摸貓」這樣的相似動作可以共享同一個提示，從而提升模型對局部區(qū)域的感知能力。

在語言建模方面（圖 3 淺藍(lán)色區(qū)域），INP-CC 利用 GPT 生成各種交互的詳細(xì)視覺描述，同時結(jié)合 T5 構(gòu)建的 Instructor Embedding（指導(dǎo)嵌入）對交互語義進(jìn)行嵌入和聚類，從而形成一個更細(xì)粒度的概念結(jié)構(gòu)空間。這種方式幫助模型更好地理解復(fù)雜的交互語義，并將其映射到合適的語義空間中。

此外，INP-CC 在訓(xùn)練過程中引入了「困難負(fù)樣本采樣」策略，這一策略使得模型能夠?qū)W會區(qū)分那些視覺上相似但語義不同的動作，例如「猛擲」和「拋投」。這一方法有效提升了模型在細(xì)粒度交互類型上的識別能力，幫助其更準(zhǔn)確地理解和處理復(fù)雜的人物交互場景。

交互感知提示生成（Interaction-aware Prompt Generation）

為了彌合圖像級預(yù)訓(xùn)練和細(xì)粒度區(qū)域交互檢測之間的差距，INP-CC 提出了交互感知提示生成機(jī)制，通過動態(tài)生成適應(yīng)不同交互模式的提示，指導(dǎo)視覺編碼器更好地聚焦于關(guān)鍵的交互區(qū)域。具體來說，模型通過以下兩個核心組成部分來實現(xiàn)這一目標(biāo)：

通用提示： 該提示捕獲所有交互類別共享的基本知識，適用于所有交互類型。
交互特定提示： 這些提示專門針對某些交互類型，采用低秩分解技術(shù)高效編碼交互特征，從而在不增加計算負(fù)擔(dān)的前提下增強模型的泛化能力。

通過將這些交互提示與通用提示結(jié)合，INP-CC 能夠有效捕捉多種交互的共同特征，并通過自適應(yīng)選擇機(jī)制動態(tài)調(diào)整每張輸入圖像所需的提示，優(yōu)化交互區(qū)域的聚焦能力。

交互概念校準(zhǔn)（HOI Concept Calibration）

面對現(xiàn)有視覺-語言模型（VLM）在處理多樣交互概念時的局限性，INP-CC 進(jìn)一步引入了交互概念校準(zhǔn)機(jī)制。該機(jī)制通過結(jié)合大規(guī)模語言模型對視覺描述進(jìn)行生成與校準(zhǔn)，提升了模型對語義細(xì)節(jié)的捕捉能力。

內(nèi)模關(guān)系建模（Intra-modal Relation Modeling）： INP-CC 首先為每種交互類型生成細(xì)粒度的視覺描述，并利用 T5 語言模型將這些描述轉(zhuǎn)化為嵌入向量。通過這一過程，模型能夠精確區(qū)分視覺上相似但語義不同的動作類別。
負(fù)類別采樣（Negative Category Sampling）： 為了解決視覺上相似但概念上不同的動作難以區(qū)分的問題，INP-CC 引入了基于語義相似度的負(fù)樣本采樣策略，在訓(xùn)練過程中從視覺描述相似的類別中采樣負(fù)樣本，幫助模型更好地分辨細(xì)粒度的動作差異。

實驗表現(xiàn)：全面超越 SOTA

在 HICO-DET 和 SWIG-HOI 兩大開放詞匯 HOI 數(shù)據(jù)集上，INP-CC 在所有指標(biāo)上均優(yōu)于現(xiàn)有主流方法。其中，在 SWIG-HOI 全量測試集上取得了 16.74% 的 mAP，相較前一方法 CMD-SE 相對提升了近 10%，在「閱讀」、「瀏覽」等細(xì)粒度交互中亦展現(xiàn)出較強的識別能力。

圖 4 HICO-DET 實驗結(jié)果

圖 5 SWIG-HOI 實驗結(jié)果

此外，可視化分析結(jié)果表明我們的模型表現(xiàn)出了強大的注意力集中能力，能夠聚焦于關(guān)鍵的交互區(qū)域，以下是幾個例子。例如，在圖 6(a) 中，它準(zhǔn)確地突出了閱讀時的眼部區(qū)域。同樣，在圖 6(b) 中，模型強調(diào)了沖浪時人伸展的雙臂。此外，我們的模型還能夠檢測到與相對較小物體的交互，比如在圖 6(d) 中的相機(jī)和在圖 6(a) 中部分遮擋的書籍。

圖 6 可視化結(jié)果

總結(jié)：VLM + LLM 的深度融合路徑

INP-CC 不僅打破了預(yù)訓(xùn)練視覺語言模型（VLM）在區(qū)域感知與概念理解上的瓶頸，還展現(xiàn)出將語言模型（LLM）知識引入計算機(jī)視覺任務(wù)的巨大潛力。通過構(gòu)建「交互感知」與「語義修正」的雙重引導(dǎo)機(jī)制，INP-CC 精準(zhǔn)引導(dǎo)了 CLIP 的感知能力，為開放詞匯場景下的 HOI 檢測開辟了新路徑。

責(zé)任編輯：張燕妮來源：機(jī)器之心

語言模型 LLM AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<u id="fu0hq"><table id="fu0hq"></table></u>

<pre id="fu0hq"></pre>