AI從System 1邁向System 2重要一步，中科院自動(dòng)化所探索物體動(dòng)靜態(tài)物理屬性，入選AAAI和ICLR

發(fā)布人：機(jī)器之心時(shí)間：2022-03-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

研究者開發(fā)的框架可以根據(jù)視頻輸入發(fā)現(xiàn)物體的動(dòng)態(tài)和靜態(tài)物理屬性，進(jìn)而推理時(shí)序物理事件以及預(yù)測(cè)未來視頻幀。

人類感知和理解周圍環(huán)境通常要借助于物理常識(shí)：直覺物理 (Intuitive Physics)，這種常識(shí)的建立從嬰兒時(shí)期就已開始，依托于對(duì)物體物理屬性 (object-centric representation) 的探索和理解，比如物體的大小、形狀、質(zhì)量、材料、運(yùn)動(dòng)速度等。
對(duì)于深度神經(jīng)網(wǎng)絡(luò)而言，模型缺乏像人類一樣以自監(jiān)督的方式去將場(chǎng)景里的物體拆分表示以更好地理解場(chǎng)景的能力：無法將紅色、綠色、黃色等屬性正確地分配給所屬物體，缺少屬性與物體之間的對(duì)應(yīng)關(guān)系，而這種理解場(chǎng)景的方式對(duì)于抽象常識(shí)的建立以及因果關(guān)系的發(fā)現(xiàn)十分重要。

通過對(duì)輸入的觀測(cè)分離表示場(chǎng)景中各個(gè)物體的靜態(tài)屬性，進(jìn)一步借助物理事件推斷物體的動(dòng)態(tài)物理屬性可以賦予模型類人的物理常識(shí)，從而更好地理解場(chǎng)景以處理更為上層的任務(wù)：因果推理、決策、規(guī)劃等。
中科院自動(dòng)化所 2035 創(chuàng)新團(tuán)隊(duì)基于不同的視角提出兩種因果關(guān)系與物理屬性發(fā)現(xiàn)框架，在視頻預(yù)測(cè)、反事實(shí)預(yù)測(cè)、視頻推理多個(gè)基準(zhǔn)數(shù)據(jù)集取得優(yōu)異的性能。相關(guān)工作先后被 AAAI2022 及 ICLR2022 接收。
用于反事實(shí)預(yù)測(cè)的物理動(dòng)力學(xué)解混雜（AAAI 2022）

研究背景
發(fā)現(xiàn)潛在的因果關(guān)系是推理周圍環(huán)境和預(yù)測(cè)物理世界未來狀態(tài)的基礎(chǔ)能力?；谝曈X輸入的反事實(shí)預(yù)測(cè)根據(jù)過去未出現(xiàn)的情況推斷未來狀態(tài)，是因果關(guān)系任務(wù)中的重要組成部分。現(xiàn)有研究方法缺乏對(duì)因果鏈的深入挖掘，致使不能夠有效建模物體之間的關(guān)聯(lián)并估測(cè)動(dòng)力學(xué)系統(tǒng)中的物理屬性。
方法概述
對(duì)此，團(tuán)隊(duì)研究了物理動(dòng)力學(xué)中的混雜影響因子，包括質(zhì)量、摩擦系數(shù)等，建立干預(yù)變量和未來狀態(tài)可能改變變量之間的關(guān)聯(lián)關(guān)系，提出了一種包含全局因果關(guān)系注意力（GCRA）和混雜因子傳輸結(jié)構(gòu)（CTS）的神經(jīng)網(wǎng)絡(luò)框架。

圖 1：整體網(wǎng)絡(luò)架構(gòu)。
GCRA 尋找不同變量之間的潛在因果關(guān)系，通過捕獲空域和時(shí)序信息來估計(jì)混雜因子，確保模型能夠有效建模長(zhǎng)距離跨幀物體之間的關(guān)聯(lián)。CTS 以殘差的方式整合和傳輸學(xué)習(xí)到的混雜因子，利用空序信息加強(qiáng)層，時(shí)序信息聚合層以及時(shí)空信息傳輸層來高效編碼和利用混雜因子信息和物體狀態(tài)信息，進(jìn)而加強(qiáng)反事實(shí)預(yù)測(cè)的能力。
實(shí)驗(yàn)證明，在混雜因子真實(shí)值未知的情況下，本文的方法能夠充分學(xué)習(xí)并利用混雜因子形成的約束，在相關(guān)數(shù)據(jù)集的預(yù)測(cè)任務(wù)上取得了目前最優(yōu)的性能，并可以較好地泛化到新的環(huán)境，實(shí)現(xiàn)良好的預(yù)測(cè)精度。

圖 2：在不同數(shù)據(jù)集上的反事實(shí)預(yù)測(cè)效果。

基于物體動(dòng)態(tài)特征蒸餾的場(chǎng)景分解與表示（ICLR 2022）

論文地址：https://openreview.net/forum?id=1iWoD04yVZU
研究背景
從生成模型的角度來說，已有的一些方法可以通過 VAE 框架對(duì)簡(jiǎn)單場(chǎng)景中的每個(gè)物體進(jìn)行解耦表示，包括物體的形狀、大小、位置等靜態(tài)物理屬性，這種對(duì)場(chǎng)景中不同物體的分離并解耦的表示方式對(duì)于下游任務(wù)有著很大的促進(jìn)作用，增強(qiáng)模型對(duì)場(chǎng)景的理解和推理能力。
但是，此類方法大多關(guān)注圖像輸入，即便是對(duì)于視頻輸入也要分解為對(duì)單幀圖像的分別處理，由于缺乏物理事件的引入，物體的動(dòng)力學(xué)屬性（運(yùn)動(dòng)方向、速度等）無法被網(wǎng)絡(luò)學(xué)習(xí)并編碼。
方法概述
團(tuán)隊(duì)提出物體動(dòng)態(tài)特征蒸餾網(wǎng)絡(luò) (Object Dynamic Distillation Network，ODDN)。

圖 3：ODDN 網(wǎng)絡(luò)框架。
對(duì)于視頻輸入：

基于 VAE 架構(gòu)的編碼器分解每幀圖像的場(chǎng)景為多個(gè)物體，并將物體的靜態(tài)物理屬性解耦表示，以****重建為原圖作為監(jiān)督；
通過 Transformer 的架構(gòu)自適應(yīng)匹配不同幀的物體靜態(tài)物理表示，并根據(jù)這個(gè)不同幀物體表示的差異性通過一個(gè)前向網(wǎng)絡(luò)蒸餾出物體的動(dòng)態(tài)特征；
結(jié)合編碼器編碼的物體靜態(tài)物理屬性以及蒸餾網(wǎng)絡(luò)蒸餾得到的物體動(dòng)態(tài)物理屬性，顯式的建模物體對(duì)之間的交互作用以更新每個(gè)物體的動(dòng)態(tài)表示。每個(gè)物體更新后的動(dòng)態(tài)表示和靜態(tài)表示預(yù)測(cè)下一幀的物體狀態(tài)并解碼為下一幀圖像。

實(shí)驗(yàn)結(jié)果
以動(dòng)態(tài)屬性作為額外的物體表示在 CLEVER 數(shù)據(jù)集 (基于物理事件推理、問答) 取得了 SOTA 的效果，表明物體的動(dòng)態(tài)屬性對(duì)于視頻理解和推理很有幫助，這個(gè)結(jié)果也符合物理常識(shí)。

此外，ODDN 顯式建模了物體間的交互，結(jié)合生成模型，賦予了模型直接預(yù)測(cè)未來視頻幀的能力。團(tuán)隊(duì)在 CLEVRER 以及 Real Tower 數(shù)據(jù)集上做了視頻預(yù)測(cè)的實(shí)驗(yàn)，結(jié)果表明在多物體場(chǎng)景 ODDN 的預(yù)測(cè)精度優(yōu)于現(xiàn)階段其他方法，尤其是包含物理事件 (碰撞、相互作用力) 的場(chǎng)景。

圖 4：基于輸入的兩幀預(yù)測(cè)后續(xù)視頻幀效果對(duì)比。
相比于 Baseline 模型，ODDN 最核心的改進(jìn)是引入了的物體運(yùn)動(dòng)相關(guān)的線索，這不僅使得模型在其場(chǎng)景表征以及視頻預(yù)測(cè)能力獲益，還改善了其圖像重建以及自監(jiān)督分割的性能，主要表現(xiàn)在物體與物體之間分的更開，細(xì)節(jié)刻畫更為精細(xì)。

圖 5：分割與重建性能對(duì)比。
可視化表明，ODDN 自適應(yīng)學(xué)習(xí)推理得出的物體動(dòng)態(tài)物理屬性編碼了物體在不同方向的運(yùn)動(dòng)速度，驗(yàn)證了模型發(fā)現(xiàn)物理屬性的解耦性。

圖 6：動(dòng)態(tài)物理屬性解耦可視化：基于給定兩幀預(yù)測(cè)第三幀，調(diào)節(jié)物體屬性值會(huì)改變其對(duì)應(yīng)方向的速度值。

未來展望
人類對(duì)物理世界的常識(shí)、語言、交互和認(rèn)知通常以物體為基本單位，所以一種自監(jiān)督的以物體為中心的表示非常有意義。目前相關(guān)的工作都關(guān)注在簡(jiǎn)單的 toy 場(chǎng)景，團(tuán)隊(duì)希望未來會(huì)有在復(fù)雜真實(shí)場(chǎng)景有效分割表示場(chǎng)景的方法出現(xiàn)。另外，團(tuán)隊(duì)希望把以物體為中心的表示做到解耦合，并在此基礎(chǔ)上進(jìn)一步探索場(chǎng)景中物體與事件的因果關(guān)系，相信這是現(xiàn)階段人工智能從 System 1 邁向 System 2 的重要一步。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

AI從System 1邁向System 2重要一步，中科院自動(dòng)化所探索物體動(dòng)靜態(tài)物理屬性，入選AAAI和ICLR

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

AI從System 1邁向System 2重要一步，中科院自動(dòng)化所探索物體動(dòng)靜態(tài)物理屬性，入選AAAI和ICLR

相關(guān)推薦

技術(shù)專區(qū)

AI從System 1邁向System 2重要一步，中科院自動(dòng)化所探索物體動(dòng)靜態(tài)物理屬性，入選AAAI和ICLR