偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<legend id="26kne"></legend><cite id="26kne"><track id="26kne"></track></cite>

<style id="26kne"></style>

<p id="26kne"><li id="26kne"></li></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

精度超越Transformer，MIT、港大提出基于物理模型的視覺推理框架

作者：機器之心專欄 2021-12-01 10:05:12

新聞人工智能

來自香港大學(xué)，麻省理工大學(xué)和 MIT-IBM 沃森人工智能實驗室的研究者提出了基于可微物理模型的神經(jīng)符號推理框架，在精度上超過了基于 Transformer 的模型

動態(tài)視覺推理（Dynamic Visual Reasoning），尤其是涉及到物體間物理關(guān)系的推理，是計算機視覺中一個重要且困難的問題。給定一個觀測視頻，它不僅要求模型根據(jù)視頻推理出視頻中物體的交互過程，還要求對視頻的長期未來（Long-term）以及反事實（Counterfactual）情形進行預(yù)測，而這兩項預(yù)測恰好是現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型的弱點。

現(xiàn)有方法可以大致被分為兩類：使用端到端神經(jīng)網(wǎng)絡(luò)（如 Vision Transformer）來對物體間關(guān)系進行建模的方法 [3]，和基于神經(jīng)符號（Neuro-Symbolic）的推理模型 [2, 4]；前者受益于 Transformer 等的強大表征有著不錯的性能，但是其依賴大量數(shù)據(jù)，且推理過程不透明且難以解釋；而后者基于神經(jīng)符號逐步進行推理，模型具有良好的解釋性，但是精度受限；此外，現(xiàn)有方案都難以解決長期和反事實預(yù)測的難題。

本文提出的基于可微物理模型的神經(jīng)符號推理框架很好的解決了這個問題，它通過從視頻和問題對中學(xué)習物理模型，并利用顯式的物理模型對物體動力學(xué)進行建模，基于準確的動力學(xué)預(yù)測來回答長期和反事實預(yù)測問題。本文的框架透明可解釋，并在精度上超過了基于 Transformer 的模型。此外，它顯示了良好的數(shù)據(jù)效率，在只使用 20% 甚至更少的數(shù)據(jù)即可取得不錯的效果。本文作者來自香港大學(xué) (HKU)，麻省理工大學(xué) (MIT) 和 MIT-IBM 沃森人工智能實驗室，論文已被 NeurIPS 2021 接收。

精度超越Transformer，MIT、港大提出基于物理模型的視覺推理框架

圖 1. [NeurIPS 2021] VRDP 作者介紹

項目主頁：http://vrdp.csail.mit.edu/
論文鏈接：http://vrdp.csail.mit.edu/assets/NeurIPS21_VRDP/vrdp.pdf
代碼鏈接：https://github.com/dingmyu/NCP

背景和數(shù)據(jù)介紹

本文使用最多的數(shù)據(jù)集是 CLEVRER 數(shù)據(jù)集 [2]。如下圖所示，它使用簡化的物體（圓球，圓柱，正方體等）來學(xué)習動力學(xué)相關(guān)的推理問題：1. 發(fā)生了什么？(Descriptive question); 2. 為什么發(fā)生？(Explanatory question); 3. 將會發(fā)生什么？(Predictive question); 4. 如果… 會發(fā)生什么 (Counterfactual question)。人類可以比較輕松地利用物理直覺和常識來推斷這些問題，然而這對于機器來說就有些困難了，尤其是 Counterfactual 的問題，例如，假設(shè)沒有黃色的金屬圓柱，會是怎樣的情形？這很考驗物理建模和空間想象的能力。即使基于 Transformer 的模型可以很好的解決 Descriptive 和 Explanatory 問題，它們也總是會在 Counterfactual 的情形中失敗。

精度超越Transformer，MIT、港大提出基于物理模型的視覺推理框架

圖 2. CLEVRER 推理數(shù)據(jù)集示例

方法介紹

本文作者發(fā)現(xiàn)，現(xiàn)有方案的弊端是沒有顯式的使用物理模型，而是過于依賴神經(jīng)網(wǎng)絡(luò)或 GNN 的隱式推理，這導(dǎo)致他們在長期預(yù)測和反事實推理中無法很好的捕捉視頻中的邏輯?；诖耍髡咭肓艘粋€可微的物理引擎，并通過從視頻中捕捉到的物體軌跡和屬性來還原視頻中物體和場景的物理參數(shù)（速度，加速度，質(zhì)量，彈性系數(shù)，摩擦力等）。一旦所有的相對物理參數(shù)被推理出來，即得到了顯式的物理模型后，作者使用物理模型進行基于預(yù)測的和反事實的物理模擬，并根據(jù)模擬后的軌跡和特征來回答相關(guān)問題。具體流程如下圖所示。

精度超越Transformer，MIT、港大提出基于物理模型的視覺推理框架

圖 3. 基于物理模型的推理示例。（1）使用一個感知模塊從視頻中獲取每個物體及其對應(yīng)的軌跡和屬性；（2）利用上述視頻觀測通過可微物理模擬來學(xué)習相關(guān)物理參數(shù)；（3）通過物理模擬進行預(yù)測并回答相關(guān)問題。

然而上述框架仍然存在一個難點，現(xiàn)實世界中往往沒有對物體的屬性標注，在這種情況下，難以通過一個感知模塊得到物體的相關(guān)屬性（如顏色，形狀），而沒有這些先驗信息就無法進行可微物理模擬，更無法學(xué)到一個準確的物理模型。因此，作者提出 VRDP 框架，將視覺感知模塊、概念學(xué)習器和物理模型結(jié)合，使用三個無縫銜接的模塊來解決上述問題。其中，視覺感知模塊用于對每幀圖片進行分割，得到每個物體和對應(yīng)的軌跡；概念學(xué)習器負責從物體的軌跡信息和問題對中學(xué)習物體的屬性；在物體的軌跡和屬性都得到后，通過可微物理模擬學(xué)到較為準確的物理模型；基于物理模型完成長時和反直覺的推理。整體框架如下：

精度超越Transformer，MIT、港大提出基于物理模型的視覺推理框架

圖 4. VRDP 框架。由三部分組成：視覺感知模塊、概念學(xué)習器和可微物理模型

具體來說，框架中的物理引擎為一個基于動量和動能守恒的碰撞模型，它從單個視頻軌跡中估計物體的實時速度和加速度，并以此估計場景的摩擦力等參數(shù)。此外，它通過碰撞事件來估計碰撞物體的相對質(zhì)量和彈性系數(shù)，一旦這些參數(shù)學(xué)習完成，它便可以自由地進行各種模擬和推理。本文的概念學(xué)習器為問題中的每個概念詞分配一個編碼（embedding），并從視頻軌跡中學(xué)習物體感知的特征，通過講視覺特征和語義編碼投影到同一空間下并檢索來得到每個物體對應(yīng)的屬性，參考 NS-CL [1]。如下圖所示。

精度超越Transformer，MIT、港大提出基于物理模型的視覺推理框架

圖 5. 概念學(xué)習器

本文的神經(jīng)符號執(zhí)行器利用了 NS-DR [2] 和 DCL [4] 中的方案，通過預(yù)測出的物體軌跡和碰撞事件進行顯式的符號推理，如 filter(Green) 代表得到所有的綠色物體，filter(Collision, filter(Green), filter(Cube)) 則代表找出綠色物體和方塊的碰撞事件。通過顯式的物理模型以及神經(jīng)符號執(zhí)行器，本文框架的每一步都是可解釋且完全透明的，整個推理過程和人類的逐步推理類似。

Demo 展示

精度超越Transformer，MIT、港大提出基于物理模型的視覺推理框架

圖 6. 物理模擬示例，左側(cè)為原視頻，右側(cè)為模擬結(jié)果

精度超越Transformer，MIT、港大提出基于物理模型的視覺推理框架

圖 7. 預(yù)測問題推理示例

精度超越Transformer，MIT、港大提出基于物理模型的視覺推理框架

圖 8. 反事實問題推理示例

實驗部分

本文提出的 VRDP 框架具有優(yōu)越的性能，在全部 CLEVRER 數(shù)據(jù)集上測試，它在更加困難的 Predictive 和 Counterfactual 兩類問題上都取得了最高的性能，在 Descriptive 和 Explanatory 問題上也得到了有競爭力的結(jié)果，如下表所示。

精度超越Transformer，MIT、港大提出基于物理模型的視覺推理框架

圖 9. 實驗結(jié)果（全部數(shù)據(jù)）

此外，它具有極高的數(shù)據(jù)利用效率，僅使用 20% 的數(shù)據(jù)就可以得到相當不錯的結(jié)果，遠超現(xiàn)有的其他方案，如下圖所示。

精度超越Transformer，MIT、港大提出基于物理模型的視覺推理框架

圖 10. 數(shù)據(jù)效率評估（部分數(shù)據(jù)）

作者還證明了，通過使用可微物理模型，VRDP 可以輕易擴展到數(shù)據(jù)集中不存在的新的概念中，如概念 “更重”，VRDP 成功進行物理模擬并準確預(yù)測了當藍色圓柱更重時的情況，這是更加復(fù)雜的反事實情形。

精度超越Transformer，MIT、港大提出基于物理模型的視覺推理框架

圖 11. 擴展到新的反事實概念 “更重”

責任編輯：張燕妮來源：機器之心Pro

模型人工智能計算

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<em id="hssbe"></em>