精度超越Transformer，MIT、港大提出基于物理模型的Neuro-Symbolic視覺推理框架

發(fā)布人：機器之心時間：2021-12-02 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

來自香港大學，麻省理工大學和 MIT-IBM 沃森人工智能實驗室的研究者提出了基于可微物理模型的神經符號推理框架，在精度上超過了基于 Transformer 的模型。

動態(tài)視覺推理（Dynamic Visual Reasoning），尤其是涉及到物體間物理關系的推理，是計算機視覺中一個重要且困難的問題。給定一個觀測視頻，它不僅要求模型根據視頻推理出視頻中物體的交互過程，還要求對視頻的長期未來（Long-term）以及反事實（Counterfactual）情形進行預測，而這兩項預測恰好是現有神經網絡模型的弱點。

現有方法可以大致被分為兩類：使用端到端神經網絡（如 Vision Transformer）來對物體間關系進行建模的方法 [3]，和基于神經符號（Neuro-Symbolic）的推理模型 [2, 4]；前者受益于 Transformer 等的強大表征有著不錯的性能，但是其依賴大量數據，且推理過程不透明且難以解釋；而后者基于神經符號逐步進行推理，模型具有良好的解釋性，但是精度受限；此外，現有方案都難以解決長期和反事實預測的難題。

本文提出的基于可微物理模型的神經符號推理框架很好的解決了這個問題，它通過從視頻和問題對中學習物理模型，并利用顯式的物理模型對物體動力學進行建模，基于準確的動力學預測來回答長期和反事實預測問題。本文的框架透明可解釋，并在精度上超過了基于 Transformer 的模型。此外，它顯示了良好的數據效率，在只使用 20% 甚至更少的數據即可取得不錯的效果。本文作者來自香港大學 (HKU)，麻省理工大學 (MIT) 和 MIT-IBM 沃森人工智能實驗室，論文已被 NeurIPS 2021 接收。

圖 1. [NeurIPS 2021] VRDP 作者介紹

項目主頁：http://vrdp.csail.mit.edu/

論文鏈接：http://vrdp.csail.mit.edu/assets/NeurIPS21_VRDP/vrdp.pdf

代碼鏈接：https://github.com/dingmyu/NCP

背景和數據介紹

本文使用最多的數據集是 CLEVRER 數據集 [2]。如下圖所示，它使用簡化的物體（圓球，圓柱，正方體等）來學習動力學相關的推理問題：1. 發(fā)生了什么？(Descriptive question); 2. 為什么發(fā)生？(Explanatory question); 3. 將會發(fā)生什么？(Predictive question); 4. 如果… 會發(fā)生什么 (Counterfactual question)。人類可以比較輕松地利用物理直覺和常識來推斷這些問題，然而這對于機器來說就有些困難了，尤其是 Counterfactual 的問題，例如，假設沒有黃色的金屬圓柱，會是怎樣的情形？這很考驗物理建模和空間想象的能力。即使基于 Transformer 的模型可以很好的解決 Descriptive 和 Explanatory 問題，它們也總是會在 Counterfactual 的情形中失敗。

圖 2. CLEVRER 推理數據集示例

方法介紹

本文作者發(fā)現，現有方案的弊端是沒有顯式的使用物理模型，而是過于依賴神經網絡或 GNN 的隱式推理，這導致他們在長期預測和反事實推理中無法很好的捕捉視頻中的邏輯?；诖耍髡咭肓艘粋€可微的物理引擎，并通過從視頻中捕捉到的物體軌跡和屬性來還原視頻中物體和場景的物理參數（速度，加速度，質量，彈性系數，摩擦力等）。一旦所有的相對物理參數被推理出來，即得到了顯式的物理模型后，作者使用物理模型進行基于預測的和反事實的物理模擬，并根據模擬后的軌跡和特征來回答相關問題。具體流程如下圖所示。

圖 3. 基于物理模型的推理示例。（1）使用一個感知模塊從視頻中獲取每個物體及其對應的軌跡和屬性；（2）利用上述視頻觀測通過可微物理模擬來學習相關物理參數；（3）通過物理模擬進行預測并回答相關問題。

然而上述框架仍然存在一個難點，現實世界中往往沒有對物體的屬性標注，在這種情況下，難以通過一個感知模塊得到物體的相關屬性（如顏色，形狀），而沒有這些先驗信息就無法進行可微物理模擬，更無法學到一個準確的物理模型。因此，作者提出 VRDP 框架，將視覺感知模塊、概念學習器和物理模型結合，使用三個無縫銜接的模塊來解決上述問題。其中，視覺感知模塊用于對每幀圖片進行分割，得到每個物體和對應的軌跡；概念學習器負責從物體的軌跡信息和問題對中學習物體的屬性；在物體的軌跡和屬性都得到后，通過可微物理模擬學到較為準確的物理模型；基于物理模型完成長時和反直覺的推理。整體框架如下：

圖 4. VRDP 框架。由三部分組成：視覺感知模塊、概念學習器和可微物理模型

具體來說，框架中的物理引擎為一個基于動量和動能守恒的碰撞模型，它從單個視頻軌跡中估計物體的實時速度和加速度，并以此估計場景的摩擦力等參數。此外，它通過碰撞事件來估計碰撞物體的相對質量和彈性系數，一旦這些參數學習完成，它便可以自由地進行各種模擬和推理。本文的概念學習器為問題中的每個概念詞分配一個編碼（embedding），并從視頻軌跡中學習物體感知的特征，通過講視覺特征和語義編碼投影到同一空間下并檢索來得到每個物體對應的屬性，參考 NS-CL [1]。如下圖所示。

圖 5. 概念學習器

本文的神經符號執(zhí)行器利用了 NS-DR [2] 和 DCL [4] 中的方案，通過預測出的物體軌跡和碰撞事件進行顯式的符號推理，如 filter(Green) 代表得到所有的綠色物體，filter(Collision, filter(Green), filter(Cube)) 則代表找出綠色物體和方塊的碰撞事件。通過顯式的物理模型以及神經符號執(zhí)行器，本文框架的每一步都是可解釋且完全透明的，整個推理過程和人類的逐步推理類似。

Demo 展示

圖 6. 物理模擬示例，左側為原視頻，右側為模擬結果

圖 7. 預測問題推理示例

圖 8. 反事實問題推理示例

實驗部分

本文提出的 VRDP 框架具有優(yōu)越的性能，在全部 CLEVRER 數據集上測試，它在更加困難的 Predictive 和 Counterfactual 兩類問題上都取得了最高的性能，在 Descriptive 和 Explanatory 問題上也得到了有競爭力的結果，如下表所示。

圖 9. 實驗結果（全部數據）

此外，它具有極高的數據利用效率，僅使用 20% 的數據就可以得到相當不錯的結果，遠超現有的其他方案，如下圖所示。

圖 10. 數據效率評估（部分數據）

作者還證明了，通過使用可微物理模型，VRDP 可以輕易擴展到數據集中不存在的新的概念中，如概念 “更重”，VRDP 成功進行物理模擬并準確預測了當藍色圓柱更重時的情況，這是更加復雜的反事實情形。

圖 11. 擴展到新的反事實概念 “更重”

參考文獻

[1] The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision. Jiayuan Mao, Chuang Gan, Pushmeet Kohli, Joshua B. Tenenbaum, and Jiajun Wu. ICLR 2019.

[2] CLEVRER: CoLlision Events for Video REpresentation and Reasoning. Kexin Yi, Chuang Gan, Yunzhu Li, Pushmeet Kohli, Jiajun Wu, Antonio Torralba, and Joshua B. Tenenbaum. ICLR 2020.

[3] Object-based attention for spatio-temporal reasoning: Outperforming neuro-symbolic models with flexible distributed architectures. David Ding, Hill Felix, Santoro Adam, and Botvinick Matt. arXiv 2020.

[4] Grounding Physical Concepts of Objects and Events Through Dynamic Visual Reasoning. Zhenfang Chen, Jiayuan Mao, Jiajun Wu, Kwan-Yee K. Wong, Joshua B. Tenenbaum, and Chuang Gan. ICLR 2021.

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

超聲波清洗機相關文章:超聲波清洗機原理

博客專欄

精度超越Transformer，MIT、港大提出基于物理模型的Neuro-Symbolic視覺推理框架

相關推薦

技術專區(qū)

博客專欄

精度超越Transformer，MIT、港大提出基于物理模型的Neuro-Symbolic視覺推理框架

相關推薦

技術專區(qū)

精度超越Transformer，MIT、港大提出基于物理模型的Neuro-Symbolic視覺推理框架