照片中的遮擋關(guān)系如何判斷？北郵、字節(jié)跳動(dòng)新方法刷新SOTA

發(fā)布人：機(jī)器之心時(shí)間：2021-10-07 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

到底是誰擋住了誰？遮擋邊界又在哪里？對(duì)于人類來說，物體之間的遮擋關(guān)系非常容易判斷，但對(duì)于 AI 來說，這個(gè)任務(wù)就沒那么簡單了。

從現(xiàn)實(shí)世界中的 3D 場景拍攝得到 2D 圖片時(shí)，會(huì)不可避免地產(chǎn)生「遮擋」，即距離相機(jī)近的物體會(huì)擋住后面的物體，使其部分不可見。如何從一張單目圖像中識(shí)別遮擋并同時(shí)推理出物體間遮擋與被遮擋的關(guān)系？這個(gè)任務(wù)被稱為遮擋關(guān)系推理（Occlusion relationship reasoning）。

由于圖像邊界的稀疏性，檢索單目圖像中物體之間的遮擋關(guān)系具有挑戰(zhàn)性。研究人員觀察到，現(xiàn)有工作中存在兩個(gè)關(guān)鍵問題：1）缺乏可以利用****階段兩個(gè)子任務(wù)遮擋邊界提取和遮擋方向預(yù)測之間有限耦合量的架構(gòu)；2）遮擋方向的不正確表示。

為了解決第一個(gè)問題，來自北京郵電大學(xué)和字節(jié)跳動(dòng)視覺技術(shù)團(tuán)隊(duì)的研究者們提出了一種被稱為遮擋共享和路徑分離網(wǎng)絡(luò)（OPNet）的網(wǎng)絡(luò)結(jié)構(gòu)，它通過利用共享 high-level 特征中的豐富遮擋線索和特定任務(wù)的 low-level 特征中的結(jié)構(gòu)化空間信息來解決該問題。

為了解決第二個(gè)問題，研究者又提出了用于預(yù)測遮擋方向的正交遮擋表示法（OOR）。該方法在標(biāo)準(zhǔn) PIOD / BSDS ownership 數(shù)據(jù)集上以 6.1%/8.3% Boundary-AP 和 6.5%/10% Orientation-AP 超過此前最先進(jìn)的方法。

論文鏈接：https://arxiv.org/abs/2108.05722

代碼鏈接：https://github.com/fengpanhe/MT-ORL

傳統(tǒng)方法存在哪些問題？

基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）的遮擋關(guān)系推理方法（DOC、DOOBNet、OFNet）通常將任務(wù)分解為兩個(gè)子任務(wù)：遮擋邊界提取和遮擋方向預(yù)測。前者旨在從圖像中提取物體邊界，而后者目標(biāo)是推理遮擋方向關(guān)系，然后通過逐步累積提取邊界上的方向信息來恢復(fù)遮擋關(guān)系。

上述方法在網(wǎng)絡(luò)架構(gòu)上采用了共享全部 encoder-decoder 的形式，使兩個(gè)任務(wù)可以共享信息、相互促進(jìn)。在預(yù)測遮擋方向時(shí)，直接使用逐像素角度值進(jìn)行遮擋方向的指示，這方便了之后與邊界結(jié)果的耦合。但是，這些方法在兩任務(wù)的共享網(wǎng)絡(luò)結(jié)構(gòu)和遮擋方向的預(yù)測上還有不足。

在共享的網(wǎng)絡(luò)結(jié)構(gòu)中，DOOBNet、OFNet 采用完全共享的****，這使得兩個(gè)子任務(wù)在網(wǎng)絡(luò)較低階段的初始化特征階段進(jìn)行了特征的組合與共享，這種方式忽略了兩任務(wù)本身在空間信息獲取時(shí)的差異性，從而導(dǎo)致不好的結(jié)果。在遮擋方向的表示和預(yù)測上，也缺乏對(duì)遮擋方向的良好表示方法。

DOC 首次提出使用逐像素連續(xù)方向變量作為表示，但是由于角度周期性，這使得損失函數(shù)的設(shè)計(jì)變得復(fù)雜和難以學(xué)習(xí)。DOOBNet 提出將變量截?cái)嗟?(-\pi,\pi] 范圍內(nèi)，這會(huì)導(dǎo)致嚴(yán)重的端點(diǎn)錯(cuò)誤：接近 -\pi 和 \pi 的角度產(chǎn)生較大的損失值，而保持相對(duì)接近的方向。這些都給訓(xùn)練過程留下了問題。因此，在遮擋關(guān)系推理中，設(shè)計(jì)合適的遮擋方向表示仍然具有挑戰(zhàn)性。

新方法有何創(chuàng)新之處？

本文提出的 MT_ORL（Multi-task occlusion relationship learning，即多任務(wù)遮擋關(guān)系學(xué)習(xí)），也主要從上述兩個(gè)問題出發(fā)，做出了兩個(gè)主要貢獻(xiàn)：

提出了一種新的遮擋共享和路徑分離網(wǎng)絡(luò)（OPNet），用于替代現(xiàn)有的遮擋邊界和遮擋方向共享網(wǎng)絡(luò)架構(gòu)。

提出了用于預(yù)測遮擋方向的正交遮擋表示法（OOR），它解決了端點(diǎn)誤差和角度周期性難題。

遮擋共享和路徑分離網(wǎng)絡(luò)

本文提出的遮擋共享和路徑分離網(wǎng)絡(luò)（OPNet）如下圖所示：

該網(wǎng)絡(luò)首先使用一個(gè) Resnet 結(jié)構(gòu)作為 encoder 部分，之后的 decoder 階段是為遮擋關(guān)系推理兩子任務(wù)聯(lián)合學(xué)習(xí)所設(shè)計(jì)的遮擋共享與路徑分離****（Occlusion-shared and Path-separated Decoder，OPDecoder）。

邊界提取和遮擋方向預(yù)測都是密集預(yù)測任務(wù)，目的都是通過理解高級(jí)遮擋信息來恢復(fù)像素級(jí)空間細(xì)節(jié)。但是前者側(cè)重于遮擋定位，而后者則表達(dá)了發(fā)生遮擋的區(qū)域之間的關(guān)系。

為了更好地考慮兩個(gè)任務(wù)之間的聯(lián)系和區(qū)別，作者將****分為兩部分：具有共享價(jià)值的遮擋信息深層階段和具有具體空間細(xì)節(jié)的淺層階段。相比于分別學(xué)習(xí)遮擋邊界和遮擋方向，網(wǎng)絡(luò)在學(xué)習(xí)深層階段共享的高級(jí)語義特征時(shí)，通過同時(shí)接受來自兩者的監(jiān)督信號(hào)可以學(xué)習(xí)到更抽象的遮擋線索。邊界提取路徑更注重空間細(xì)節(jié)，而方向回歸路徑則側(cè)重于恢復(fù)區(qū)域關(guān)系。而之前的全 decoder 共享的方式導(dǎo)致了特征過度共享，使兩個(gè)任務(wù)之間相互干擾。因此，作者在淺層采用了單獨(dú)的結(jié)構(gòu)。

如圖所示，****包含一個(gè)深遮擋共享階段和一個(gè)淺空間信息分支階段。在遮擋共享階段，作者使用 OSM 對(duì)兩個(gè)最深階段的特征進(jìn)行解碼和聚合，然后將它們傳遞給后續(xù)的邊界路徑和方向路徑。在淺分支階段，考慮到兩個(gè)任務(wù)之間可能的干擾，作者使用 OPM 來增強(qiáng)來自編碼器淺層的特征，然后這些特征將被傳送到邊界和方向兩條路徑。

具體來說，在邊界提取路徑中，來自 OSM 的共享特征圖與從深到淺階段轉(zhuǎn)換的編碼器特征逐漸聚合，為了更好地利用不同尺度的空間信息，作者針對(duì)解碼的每一階段生成了一組多尺度邊界圖，然后將它們?nèi)诤显谝黄鹨蕴崛『喜⒌倪吔鐖D。與邊界路徑不同，方向路徑被故意設(shè)計(jì)為僅接受來自 res2 層的跳躍連接特征，以利用淺層中較少共享的空間細(xì)節(jié)。

遮擋方向的正交遮擋表示法

下圖展示了四種基于邊界的遮擋方向表示示意圖。

圖 (a) 是抽象的圖片中遮擋發(fā)生的示意圖，圖中顯示了在圖像中指示前景和背景的「左手規(guī)則」，即遮擋邊界用箭頭表示，其左側(cè)是前景。

圖 (b) 是基于人工特征和機(jī)器學(xué)習(xí)的傳統(tǒng)方法常用的基于完整邊界的標(biāo)簽分類方法，但由于對(duì)完整邊界的強(qiáng)依賴，其難以直接應(yīng)用到基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)中。

圖 (c) 是 DOC 中提出的像素級(jí)方向變量表示，它通過預(yù)測一個(gè)連續(xù)的在 $(-\pi,\pi]$ 的方向變量來預(yù)測邊界方向圖像中的每個(gè)像素。像素級(jí)方向變量表示可以很好地適應(yīng)預(yù)測屬性密集的卷積塊，但是依舊存在兩個(gè)問題，一是這種方式對(duì)每個(gè)像素都預(yù)測了一個(gè)準(zhǔn)確的角度，造成了不必要的負(fù)擔(dān)，二是角度本身存在周期性，DOOBNet 強(qiáng)制將預(yù)測角度的范圍限制在 $(-\pi,\pi]$，會(huì)在區(qū)間的兩端產(chǎn)生不自然的預(yù)測，從而導(dǎo)致大量的端點(diǎn)值錯(cuò)誤。

作者提出遮擋方向的正交遮擋表示（Orthogonal Occlusion Representation，OOR）。如圖 (d)，他們使用一對(duì)正交向量（即沿水平軸的向量 a 和沿垂直軸的向量 b）來表示遮擋方向。兩個(gè)向量都指向遮擋邊界附近的背景。OOR 通過在水平和垂直方向同時(shí)指出背景來簡化遮擋方向的預(yù)測，大大增強(qiáng)了預(yù)測的魯棒性。與之前的方向變量表示相比，研究者提出的 OOR 更簡單，效果更好，繞過了角度周期性和端點(diǎn)誤差的問題。

下圖是使用不同遮擋方向預(yù)測方式的取出的 decoder 階段的特征圖的可視化表示。網(wǎng)絡(luò)都采用了本文的 OPNet，第一行使用了 DOOBNet 預(yù)測遮擋方向的方法，第二行使用了本文提出的 OOR。很明顯，本文提出的 OOR 進(jìn)行表示和預(yù)測遮擋方向的方式產(chǎn)生了前后景區(qū)分強(qiáng)烈的特征度，或者說使網(wǎng)絡(luò)學(xué)習(xí)到了更好的遮擋信息。

為了證明 OOR 對(duì)于角度區(qū)間 $(-\pi,\pi]$ 端點(diǎn)值預(yù)測的優(yōu)化，作者分別對(duì)三種遮擋方向預(yù)測方式的預(yù)測結(jié)果進(jìn)行了分角度區(qū)間的遮擋方向預(yù)測召回率的比較。從下圖可以看到，相比于之前最好的 DOOBNet 的遮擋方向預(yù)測，本文的方法在兩端分別提升了 0.23 和 0.18。這證明了之前采用區(qū)間預(yù)測方式存在嚴(yán)重的端點(diǎn)值錯(cuò)誤的問題，而本文的 OOR 有效地解決了這一問題。

實(shí)驗(yàn)結(jié)果

作者分別在 PIOD 和 BSDS ownership 兩個(gè)數(shù)據(jù)集上評(píng)估了模型和方法的有效性。

其中，OPNet + dor/dbr 為在作者網(wǎng)絡(luò)上使用 DOC 方向 loss 或 DOOBNet 方向 loss 的結(jié)果。通過比較 OPNet + dor/dbr 和之前方法的結(jié)果，可以證明作者的網(wǎng)絡(luò)在遮擋關(guān)系推理中明顯優(yōu)于先前的網(wǎng)絡(luò)結(jié)構(gòu)。在使用了作者提出的 OOR 作為方向預(yù)測的方式后，結(jié)果相比于之前最優(yōu)的方法 OFNet 在 AP 上甚至有 6.5%/10% 的提升。并且在與單獨(dú)訓(xùn)練邊界和方向任務(wù)的比較中，最終在同一網(wǎng)絡(luò)中聯(lián)合訓(xùn)練兩子任務(wù)的方式獲得了更優(yōu)的結(jié)果，這也證明了作者設(shè)計(jì)的 OPDecoder 可以使兩任務(wù)相互促進(jìn)，更好地聯(lián)合學(xué)習(xí)、預(yù)測。

與之前方法在兩數(shù)據(jù)集下的 PR 曲線的對(duì)比，作者的方法均優(yōu)于先前方法。

下圖是預(yù)測結(jié)果的可視化比較。如圖，作者的方案在邊界和遮擋關(guān)系的預(yù)測上都有明顯的提升。

總結(jié)

本文針對(duì)多任務(wù)學(xué)習(xí)遮擋關(guān)系提出了一種新的遮擋共享和路徑分離網(wǎng)絡(luò)（OPNet）和用于預(yù)測遮擋方向的正交遮擋表示法（OOR）。OPNet 使得兩個(gè)任務(wù)通過有限的共享 encoder 階段的特征相互促進(jìn)，獲得更好的遮擋邊界和遮擋方向。OOR 則是解決了遮擋方向預(yù)測的角度周期性難題和端點(diǎn)誤差的問題。大量實(shí)驗(yàn)表明作者的方法極大的提升了遮擋關(guān)系推理的性能，在 AP 上相比于之前的方法甚至有 6.5%/10% 的提升。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

照片中的遮擋關(guān)系如何判斷？北郵、字節(jié)跳動(dòng)新方法刷新SOTA

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

照片中的遮擋關(guān)系如何判斷？北郵、字節(jié)跳動(dòng)新方法刷新SOTA

相關(guān)推薦

技術(shù)專區(qū)

照片中的遮擋關(guān)系如何判斷？北郵、字節(jié)跳動(dòng)新方法刷新SOTA