偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

精度超越Transformer,MIT、港大提出基于物理模型的視覺(jué)推理框架

新聞 人工智能
來(lái)自香港大學(xué),麻省理工大學(xué)和 MIT-IBM 沃森人工智能實(shí)驗(yàn)室的研究者提出了基于可微物理模型的神經(jīng)符號(hào)推理框架,在精度上超過(guò)了基于 Transformer 的模型

 [[437809]]

動(dòng)態(tài)視覺(jué)推理(Dynamic Visual Reasoning),尤其是涉及到物體間物理關(guān)系的推理,是計(jì)算機(jī)視覺(jué)中一個(gè)重要且困難的問(wèn)題。給定一個(gè)觀測(cè)視頻,它不僅要求模型根據(jù)視頻推理出視頻中物體的交互過(guò)程,還要求對(duì)視頻的長(zhǎng)期未來(lái)(Long-term)以及反事實(shí)(Counterfactual)情形進(jìn)行預(yù)測(cè),而這兩項(xiàng)預(yù)測(cè)恰好是現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型的弱點(diǎn)。

現(xiàn)有方法可以大致被分為兩類(lèi):使用端到端神經(jīng)網(wǎng)絡(luò)(如 Vision Transformer)來(lái)對(duì)物體間關(guān)系進(jìn)行建模的方法 [3],和基于神經(jīng)符號(hào)(Neuro-Symbolic)的推理模型 [2, 4];前者受益于 Transformer 等的強(qiáng)大表征有著不錯(cuò)的性能,但是其依賴大量數(shù)據(jù),且推理過(guò)程不透明且難以解釋?zhuān)欢笳呋谏窠?jīng)符號(hào)逐步進(jìn)行推理,模型具有良好的解釋性,但是精度受限;此外,現(xiàn)有方案都難以解決長(zhǎng)期和反事實(shí)預(yù)測(cè)的難題。

本文提出的基于可微物理模型的神經(jīng)符號(hào)推理框架很好的解決了這個(gè)問(wèn)題,它通過(guò)從視頻和問(wèn)題對(duì)中學(xué)習(xí)物理模型,并利用顯式的物理模型對(duì)物體動(dòng)力學(xué)進(jìn)行建模,基于準(zhǔn)確的動(dòng)力學(xué)預(yù)測(cè)來(lái)回答長(zhǎng)期和反事實(shí)預(yù)測(cè)問(wèn)題。本文的框架透明可解釋?zhuān)⒃?strong>精度上超過(guò)了基于 Transformer 的模型。此外,它顯示了良好的數(shù)據(jù)效率,在只使用 20% 甚至更少的數(shù)據(jù)即可取得不錯(cuò)的效果。本文作者來(lái)自香港大學(xué) (HKU),麻省理工大學(xué) (MIT) 和 MIT-IBM 沃森人工智能實(shí)驗(yàn)室,論文已被 NeurIPS 2021 接收。

精度超越Transformer,MIT、港大提出基于物理模型的視覺(jué)推理框架

圖 1. [NeurIPS 2021] VRDP 作者介紹

  • 項(xiàng)目主頁(yè):http://vrdp.csail.mit.edu/
  • 論文鏈接:http://vrdp.csail.mit.edu/assets/NeurIPS21_VRDP/vrdp.pdf
  • 代碼鏈接:https://github.com/dingmyu/NCP

背景和數(shù)據(jù)介紹

本文使用最多的數(shù)據(jù)集是 CLEVRER 數(shù)據(jù)集 [2]。如下圖所示,它使用簡(jiǎn)化的物體(圓球,圓柱,正方體等)來(lái)學(xué)習(xí)動(dòng)力學(xué)相關(guān)的推理問(wèn)題:1. 發(fā)生了什么 ?(Descriptive question); 2. 為什么發(fā)生?(Explanatory question); 3. 將會(huì)發(fā)生什么?(Predictive question); 4. 如果… 會(huì)發(fā)生什么 (Counterfactual question)。人類(lèi)可以比較輕松地利用物理直覺(jué)和常識(shí)來(lái)推斷這些問(wèn)題,然而這對(duì)于機(jī)器來(lái)說(shuō)就有些困難了,尤其是 Counterfactual 的問(wèn)題,例如,假設(shè)沒(méi)有黃色的金屬圓柱,會(huì)是怎樣的情形?這很考驗(yàn)物理建模和空間想象的能力。即使基于 Transformer 的模型可以很好的解決 Descriptive 和 Explanatory 問(wèn)題,它們也總是會(huì)在 Counterfactual 的情形中失敗。

精度超越Transformer,MIT、港大提出基于物理模型的視覺(jué)推理框架

圖 2. CLEVRER 推理數(shù)據(jù)集示例

方法介紹

本文作者發(fā)現(xiàn),現(xiàn)有方案的弊端是沒(méi)有顯式的使用物理模型,而是過(guò)于依賴神經(jīng)網(wǎng)絡(luò)或 GNN 的隱式推理,這導(dǎo)致他們?cè)陂L(zhǎng)期預(yù)測(cè)和反事實(shí)推理中無(wú)法很好的捕捉視頻中的邏輯。基于此,作者引入了一個(gè)可微的物理引擎,并通過(guò)從視頻中捕捉到的物體軌跡和屬性來(lái)還原視頻中物體和場(chǎng)景的物理參數(shù)(速度,加速度,質(zhì)量,彈性系數(shù),摩擦力等)。一旦所有的相對(duì)物理參數(shù)被推理出來(lái),即得到了顯式的物理模型后,作者使用物理模型進(jìn)行基于預(yù)測(cè)的和反事實(shí)的物理模擬,并根據(jù)模擬后的軌跡和特征來(lái)回答相關(guān)問(wèn)題。具體流程如下圖所示。

精度超越Transformer,MIT、港大提出基于物理模型的視覺(jué)推理框架

圖 3. 基于物理模型的推理示例。(1)使用一個(gè)感知模塊從視頻中獲取每個(gè)物體及其對(duì)應(yīng)的軌跡和屬性;(2)利用上述視頻觀測(cè)通過(guò)可微物理模擬來(lái)學(xué)習(xí)相關(guān)物理參數(shù);(3)通過(guò)物理模擬進(jìn)行預(yù)測(cè)并回答相關(guān)問(wèn)題。

然而上述框架仍然存在一個(gè)難點(diǎn),現(xiàn)實(shí)世界中往往沒(méi)有對(duì)物體的屬性標(biāo)注,在這種情況下,難以通過(guò)一個(gè)感知模塊得到物體的相關(guān)屬性(如顏色,形狀),而沒(méi)有這些先驗(yàn)信息就無(wú)法進(jìn)行可微物理模擬,更無(wú)法學(xué)到一個(gè)準(zhǔn)確的物理模型。因此,作者提出 VRDP 框架,將視覺(jué)感知模塊、概念學(xué)習(xí)器和物理模型結(jié)合,使用三個(gè)無(wú)縫銜接的模塊來(lái)解決上述問(wèn)題。其中,視覺(jué)感知模塊用于對(duì)每幀圖片進(jìn)行分割,得到每個(gè)物體和對(duì)應(yīng)的軌跡;概念學(xué)習(xí)器負(fù)責(zé)從物體的軌跡信息和問(wèn)題對(duì)中學(xué)習(xí)物體的屬性;在物體的軌跡和屬性都得到后,通過(guò)可微物理模擬學(xué)到較為準(zhǔn)確的物理模型;基于物理模型完成長(zhǎng)時(shí)和反直覺(jué)的推理。整體框架如下:

精度超越Transformer,MIT、港大提出基于物理模型的視覺(jué)推理框架

圖 4. VRDP 框架。由三部分組成:視覺(jué)感知模塊、概念學(xué)習(xí)器和可微物理模型

具體來(lái)說(shuō),框架中的物理引擎為一個(gè)基于動(dòng)量和動(dòng)能守恒的碰撞模型,它從單個(gè)視頻軌跡中估計(jì)物體的實(shí)時(shí)速度和加速度,并以此估計(jì)場(chǎng)景的摩擦力等參數(shù)。此外,它通過(guò)碰撞事件來(lái)估計(jì)碰撞物體的相對(duì)質(zhì)量和彈性系數(shù),一旦這些參數(shù)學(xué)習(xí)完成,它便可以自由地進(jìn)行各種模擬和推理。本文的概念學(xué)習(xí)器為問(wèn)題中的每個(gè)概念詞分配一個(gè)編碼(embedding),并從視頻軌跡中學(xué)習(xí)物體感知的特征,通過(guò)講視覺(jué)特征和語(yǔ)義編碼投影到同一空間下并檢索來(lái)得到每個(gè)物體對(duì)應(yīng)的屬性,參考 NS-CL [1]。如下圖所示。

精度超越Transformer,MIT、港大提出基于物理模型的視覺(jué)推理框架

圖 5. 概念學(xué)習(xí)器

本文的神經(jīng)符號(hào)執(zhí)行器利用了 NS-DR [2] 和 DCL [4] 中的方案,通過(guò)預(yù)測(cè)出的物體軌跡和碰撞事件進(jìn)行顯式的符號(hào)推理,如 filter(Green) 代表得到所有的綠色物體,filter(Collision, filter(Green), filter(Cube)) 則代表找出綠色物體和方塊的碰撞事件。通過(guò)顯式的物理模型以及神經(jīng)符號(hào)執(zhí)行器,本文框架的每一步都是可解釋且完全透明的,整個(gè)推理過(guò)程和人類(lèi)的逐步推理類(lèi)似。

Demo 展示

精度超越Transformer,MIT、港大提出基于物理模型的視覺(jué)推理框架

圖 6. 物理模擬示例,左側(cè)為原視頻,右側(cè)為模擬結(jié)果

精度超越Transformer,MIT、港大提出基于物理模型的視覺(jué)推理框架

圖 7. 預(yù)測(cè)問(wèn)題推理示例

精度超越Transformer,MIT、港大提出基于物理模型的視覺(jué)推理框架

圖 8. 反事實(shí)問(wèn)題推理示例

實(shí)驗(yàn)部分

本文提出的 VRDP 框架具有優(yōu)越的性能,在全部 CLEVRER 數(shù)據(jù)集上測(cè)試,它在更加困難的 Predictive 和 Counterfactual 兩類(lèi)問(wèn)題上都取得了最高的性能,在 Descriptive 和 Explanatory 問(wèn)題上也得到了有競(jìng)爭(zhēng)力的結(jié)果,如下表所示。

精度超越Transformer,MIT、港大提出基于物理模型的視覺(jué)推理框架

圖 9. 實(shí)驗(yàn)結(jié)果(全部數(shù)據(jù))

此外,它具有極高的數(shù)據(jù)利用效率,僅使用 20% 的數(shù)據(jù)就可以得到相當(dāng)不錯(cuò)的結(jié)果,遠(yuǎn)超現(xiàn)有的其他方案,如下圖所示。

精度超越Transformer,MIT、港大提出基于物理模型的視覺(jué)推理框架

圖 10. 數(shù)據(jù)效率評(píng)估(部分?jǐn)?shù)據(jù))

作者還證明了,通過(guò)使用可微物理模型,VRDP 可以輕易擴(kuò)展到數(shù)據(jù)集中不存在的新的概念中,如概念 “更重”,VRDP 成功進(jìn)行物理模擬并準(zhǔn)確預(yù)測(cè)了當(dāng)藍(lán)色圓柱更重時(shí)的情況,這是更加復(fù)雜的反事實(shí)情形。

精度超越Transformer,MIT、港大提出基于物理模型的視覺(jué)推理框架

圖 11. 擴(kuò)展到新的反事實(shí)概念 “更重”

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2022-07-17 13:07:26

模型開(kāi)源

2020-06-09 10:15:21

模型人工智能自然語(yǔ)言

2025-02-10 13:00:00

模型訓(xùn)練AI

2024-09-14 14:15:00

數(shù)據(jù)訓(xùn)練

2024-03-04 13:36:00

模型訓(xùn)練

2021-12-14 15:59:38

數(shù)據(jù)模型推理

2024-09-02 14:30:00

數(shù)據(jù)訓(xùn)練

2025-01-22 13:15:10

2025-02-05 10:15:00

2021-08-10 16:01:18

模型人工智能深度學(xué)習(xí)

2025-03-05 00:15:00

2020-10-18 18:02:32

AI機(jī)器學(xué)習(xí)微軟

2024-07-15 09:00:00

2023-03-09 14:04:00

谷歌研究

2024-04-01 08:40:00

AI框架

2025-05-19 08:37:00

2025-01-03 11:38:34

2025-03-10 08:47:00

模型AI訓(xùn)練

2024-11-21 16:06:02

2023-01-05 09:33:37

視覺(jué)模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)