博客專欄

EEPW首頁 > 博客 > AI從System 1邁向System 2重要一步,中科院自動(dòng)化所探索物體動(dòng)靜態(tài)物理屬性,入選AAAI和ICLR

AI從System 1邁向System 2重要一步,中科院自動(dòng)化所探索物體動(dòng)靜態(tài)物理屬性,入選AAAI和ICLR

發(fā)布人:機(jī)器之心 時(shí)間:2022-03-19 來源:工程師 發(fā)布文章
研究者開發(fā)的框架可以根據(jù)視頻輸入發(fā)現(xiàn)物體的動(dòng)態(tài)和靜態(tài)物理屬性,進(jìn)而推理時(shí)序物理事件以及預(yù)測(cè)未來視頻幀。


圖片


人類感知和理解周圍環(huán)境通常要借助于物理常識(shí):直覺物理 (Intuitive Physics),這種常識(shí)的建立從嬰兒時(shí)期就已開始,依托于對(duì)物體物理屬性 (object-centric representation) 的探索和理解,比如物體的大小、形狀、質(zhì)量、材料、運(yùn)動(dòng)速度等。
對(duì)于深度神經(jīng)網(wǎng)絡(luò)而言,模型缺乏像人類一樣以自監(jiān)督的方式去將場(chǎng)景里的物體拆分表示以更好地理解場(chǎng)景的能力:無法將紅色、綠色、黃色等屬性正確地分配給所屬物體,缺少屬性與物體之間的對(duì)應(yīng)關(guān)系,而這種理解場(chǎng)景的方式對(duì)于抽象常識(shí)的建立以及因果關(guān)系的發(fā)現(xiàn)十分重要。 

圖片


通過對(duì)輸入的觀測(cè)分離表示場(chǎng)景中各個(gè)物體的靜態(tài)屬性,進(jìn)一步借助物理事件推斷物體的動(dòng)態(tài)物理屬性 可以賦予模型類人的物理常識(shí),從而更好地理解場(chǎng)景以處理更為上層的任務(wù):因果推理、決策、規(guī)劃等。
中科院自動(dòng)化所 2035 創(chuàng)新團(tuán)隊(duì)基于不同的視角提出兩種因果關(guān)系與物理屬性發(fā)現(xiàn)框架,在視頻預(yù)測(cè)、反事實(shí)預(yù)測(cè)、視頻推理多個(gè)基準(zhǔn)數(shù)據(jù)集取得優(yōu)異的性能。相關(guān)工作先后被 AAAI2022 及 ICLR2022 接收。 
用于反事實(shí)預(yù)測(cè)的物理動(dòng)力學(xué)解混雜(AAAI 2022)

圖片


研究背景
發(fā)現(xiàn)潛在的因果關(guān)系是推理周圍環(huán)境和預(yù)測(cè)物理世界未來狀態(tài)的基礎(chǔ)能力?;谝曈X輸入的反事實(shí)預(yù)測(cè)根據(jù)過去未出現(xiàn)的情況推斷未來狀態(tài),是因果關(guān)系任務(wù)中的重要組成部分。現(xiàn)有研究方法缺乏對(duì)因果鏈的深入挖掘,致使不能夠有效建模物體之間的關(guān)聯(lián)并估測(cè)動(dòng)力學(xué)系統(tǒng)中的物理屬性。
方法概述
對(duì)此,團(tuán)隊(duì)研究了物理動(dòng)力學(xué)中的混雜影響因子,包括質(zhì)量、摩擦系數(shù)等,建立干預(yù)變量和未來狀態(tài)可能改變變量之間的關(guān)聯(lián)關(guān)系,提出了一種包含全局因果關(guān)系注意力(GCRA)和混雜因子傳輸結(jié)構(gòu)(CTS)的神經(jīng)網(wǎng)絡(luò)框架。

圖片

圖 1:整體網(wǎng)絡(luò)架構(gòu)。
GCRA 尋找不同變量之間的潛在因果關(guān)系,通過捕獲空域和時(shí)序信息來估計(jì)混雜因子,確保模型能夠有效建模長(zhǎng)距離跨幀物體之間的關(guān)聯(lián)。CTS 以殘差的方式整合和傳輸學(xué)習(xí)到的混雜因子,利用空序信息加強(qiáng)層,時(shí)序信息聚合層以及時(shí)空信息傳輸層來高效編碼和利用混雜因子信息和物體狀態(tài)信息,進(jìn)而加強(qiáng)反事實(shí)預(yù)測(cè)的能力。
實(shí)驗(yàn)證明,在混雜因子真實(shí)值未知的情況下,本文的方法能夠充分學(xué)習(xí)并利用混雜因子形成的約束,在相關(guān)數(shù)據(jù)集的預(yù)測(cè)任務(wù)上取得了目前最優(yōu)的性能,并可以較好地泛化到新的環(huán)境,實(shí)現(xiàn)良好的預(yù)測(cè)精度。

圖片

圖 2:在不同數(shù)據(jù)集上的反事實(shí)預(yù)測(cè)效果。

基于物體動(dòng)態(tài)特征蒸餾的場(chǎng)景分解與表示(ICLR 2022)

圖片


論文地址:https://openreview.net/forum?id=1iWoD04yVZU
研究背景
從生成模型的角度來說,已有的一些方法可以通過 VAE 框架對(duì)簡(jiǎn)單場(chǎng)景中的每個(gè)物體進(jìn)行解耦表示,包括物體的形狀、大小、位置等靜態(tài)物理屬性,這種對(duì)場(chǎng)景中不同物體的分離并解耦的表示方式對(duì)于下游任務(wù)有著很大的促進(jìn)作用,增強(qiáng)模型對(duì)場(chǎng)景的理解和推理能力。
但是,此類方法大多關(guān)注圖像輸入,即便是對(duì)于視頻輸入也要分解為對(duì)單幀圖像的分別處理,由于缺乏物理事件的引入,物體的動(dòng)力學(xué)屬性(運(yùn)動(dòng)方向、速度等)無法被網(wǎng)絡(luò)學(xué)習(xí)并編碼。
方法概述
團(tuán)隊(duì)提出物體動(dòng)態(tài)特征蒸餾網(wǎng)絡(luò) (Object Dynamic Distillation Network,ODDN)。

圖片

圖 3:ODDN 網(wǎng)絡(luò)框架。
對(duì)于視頻輸入:

  • 基于 VAE 架構(gòu)的編碼器分解每幀圖像的場(chǎng)景為多個(gè)物體,并將物體的靜態(tài)物理屬性解耦表示,以****重建為原圖作為監(jiān)督;

  • 通過 Transformer 的架構(gòu)自適應(yīng)匹配不同幀的物體靜態(tài)物理表示,并根據(jù)這個(gè)不同幀物體表示的差 異性通過一個(gè)前向網(wǎng)絡(luò)蒸餾出物體的動(dòng)態(tài)特征;

  • 結(jié)合編碼器編碼的物體靜態(tài)物理屬性以及蒸餾網(wǎng)絡(luò)蒸餾得到的物體動(dòng)態(tài)物理屬性,顯式的建模物體對(duì)之間的交互作用以更新每個(gè)物體的動(dòng)態(tài)表示。每個(gè)物體更新后的動(dòng)態(tài)表示和靜態(tài)表示預(yù)測(cè)下一幀的物體狀態(tài)并解碼為下一幀圖像。 


實(shí)驗(yàn)結(jié)果
以動(dòng)態(tài)屬性作為額外的物體表示在 CLEVER 數(shù)據(jù)集 (基于物理事件推理、問答) 取得了 SOTA 的效果,表明物體的動(dòng)態(tài)屬性對(duì)于視頻理解和推理很有幫助,這個(gè)結(jié)果也符合物理常識(shí)。 
圖片
此外,ODDN 顯式建模了物體間的交互,結(jié)合生成模型,賦予了模型直接預(yù)測(cè)未來視頻幀的能力。團(tuán)隊(duì)在 CLEVRER 以及 Real Tower 數(shù)據(jù)集上做了視頻預(yù)測(cè)的實(shí)驗(yàn),結(jié)果表明在多物體場(chǎng)景 ODDN 的預(yù)測(cè)精度優(yōu)于現(xiàn)階段其他方法,尤其是包含物理事件 (碰撞、相互作用力) 的場(chǎng)景。 


圖片圖 4:基于輸入的兩幀預(yù)測(cè)后續(xù)視頻幀效果對(duì)比。
相比于 Baseline 模型,ODDN 最核心的改進(jìn)是引入了的物體運(yùn)動(dòng)相關(guān)的線索,這不僅使得模型在其場(chǎng)景表征以及視頻預(yù)測(cè)能力獲益,還改善了其圖像重建以及自監(jiān)督分割的性能,主要表現(xiàn)在物體與物體之間分的更開,細(xì)節(jié)刻畫更為精細(xì)。

圖片

圖 5:分割與重建性能對(duì)比。
可視化表明,ODDN 自適應(yīng)學(xué)習(xí)推理得出的物體動(dòng)態(tài)物理屬性編碼了物體在不同方向的運(yùn)動(dòng)速度,驗(yàn)證了模型發(fā)現(xiàn)物理屬性的解耦性。

圖片

圖 6:動(dòng)態(tài)物理屬性解耦可視化:基于給定兩幀預(yù)測(cè)第三幀,調(diào)節(jié)物體屬性值會(huì)改變其對(duì)應(yīng)方向的速度值。

未來展望
人類對(duì)物理世界的常識(shí)、語言、交互和認(rèn)知通常以物體為基本單位,所以一種自監(jiān)督的以物體為中心的表示非常有意義。目前相關(guān)的工作都關(guān)注在簡(jiǎn)單的 toy 場(chǎng)景,團(tuán)隊(duì)希望未來會(huì)有在復(fù)雜真實(shí)場(chǎng)景有效分割表示場(chǎng)景的方法出現(xiàn)。另外,團(tuán)隊(duì)希望把以物體為中心的表示做到解耦合,并在此基礎(chǔ)上進(jìn)一步探索場(chǎng)景中物體與事件的因果關(guān)系,相信這是現(xiàn)階段人工智能從 System 1 邁向 System 2 的重要一步。



*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉