照片中的遮擋關(guān)系如何判斷?北郵、字節(jié)跳動(dòng)新方法刷新SOTA
到底是誰擋住了誰?遮擋邊界又在哪里?對(duì)于人類來說,物體之間的遮擋關(guān)系非常容易判斷,但對(duì)于 AI 來說,這個(gè)任務(wù)就沒那么簡單了。
從現(xiàn)實(shí)世界中的 3D 場景拍攝得到 2D 圖片時(shí),會(huì)不可避免地產(chǎn)生「遮擋」,即距離相機(jī)近的物體會(huì)擋住后面的物體,使其部分不可見。如何從一張單目圖像中識(shí)別遮擋并同時(shí)推理出物體間遮擋與被遮擋的關(guān)系?這個(gè)任務(wù)被稱為遮擋關(guān)系推理(Occlusion relationship reasoning)。
由于圖像邊界的稀疏性,檢索單目圖像中物體之間的遮擋關(guān)系具有挑戰(zhàn)性。研究人員觀察到,現(xiàn)有工作中存在兩個(gè)關(guān)鍵問題:1)缺乏可以利用****階段兩個(gè)子任務(wù)遮擋邊界提取和遮擋方向預(yù)測之間有限耦合量的架構(gòu);2)遮擋方向的不正確表示。
為了解決第一個(gè)問題,來自北京郵電大學(xué)和字節(jié)跳動(dòng)視覺技術(shù)團(tuán)隊(duì)的研究者們提出了一種被稱為遮擋共享和路徑分離網(wǎng)絡(luò)(OPNet)的網(wǎng)絡(luò)結(jié)構(gòu),它通過利用共享 high-level 特征中的豐富遮擋線索和特定任務(wù)的 low-level 特征中的結(jié)構(gòu)化空間信息來解決該問題。
為了解決第二個(gè)問題,研究者又提出了用于預(yù)測遮擋方向的正交遮擋表示法(OOR)。該方法在標(biāo)準(zhǔn) PIOD / BSDS ownership 數(shù)據(jù)集上以 6.1%/8.3% Boundary-AP 和 6.5%/10% Orientation-AP 超過此前最先進(jìn)的方法。
論文鏈接:https://arxiv.org/abs/2108.05722
代碼鏈接:https://github.com/fengpanhe/MT-ORL
傳統(tǒng)方法存在哪些問題?
基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的遮擋關(guān)系推理方法(DOC、DOOBNet、OFNet)通常將任務(wù)分解為兩個(gè)子任務(wù):遮擋邊界提取和遮擋方向預(yù)測。前者旨在從圖像中提取物體邊界,而后者目標(biāo)是推理遮擋方向關(guān)系,然后通過逐步累積提取邊界上的方向信息來恢復(fù)遮擋關(guān)系。
上述方法在網(wǎng)絡(luò)架構(gòu)上采用了共享全部 encoder-decoder 的形式,使兩個(gè)任務(wù)可以共享信息、相互促進(jìn)。在預(yù)測遮擋方向時(shí),直接使用逐像素角度值進(jìn)行遮擋方向的指示,這方便了之后與邊界結(jié)果的耦合。但是,這些方法在兩任務(wù)的共享網(wǎng)絡(luò)結(jié)構(gòu)和遮擋方向的預(yù)測上還有不足。
在共享的網(wǎng)絡(luò)結(jié)構(gòu)中,DOOBNet、OFNet 采用完全共享的****,這使得兩個(gè)子任務(wù)在網(wǎng)絡(luò)較低階段的初始化特征階段進(jìn)行了特征的組合與共享,這種方式忽略了兩任務(wù)本身在空間信息獲取時(shí)的差異性,從而導(dǎo)致不好的結(jié)果。在遮擋方向的表示和預(yù)測上,也缺乏對(duì)遮擋方向的良好表示方法。
DOC 首次提出使用逐像素連續(xù)方向變量作為表示,但是由于角度周期性,這使得損失函數(shù)的設(shè)計(jì)變得復(fù)雜和難以學(xué)習(xí)。DOOBNet 提出將變量截?cái)嗟?(-\pi,\pi] 范圍內(nèi),這會(huì)導(dǎo)致嚴(yán)重的端點(diǎn)錯(cuò)誤:接近 -\pi 和 \pi 的角度產(chǎn)生較大的損失值,而保持相對(duì)接近的方向。這些都給訓(xùn)練過程留下了問題。因此,在遮擋關(guān)系推理中,設(shè)計(jì)合適的遮擋方向表示仍然具有挑戰(zhàn)性。
新方法有何創(chuàng)新之處?
本文提出的 MT_ORL(Multi-task occlusion relationship learning,即多任務(wù)遮擋關(guān)系學(xué)習(xí)),也主要從上述兩個(gè)問題出發(fā),做出了兩個(gè)主要貢獻(xiàn):
提出了一種新的遮擋共享和路徑分離網(wǎng)絡(luò)(OPNet),用于替代現(xiàn)有的遮擋邊界和遮擋方向共享網(wǎng)絡(luò)架構(gòu)。
提出了用于預(yù)測遮擋方向的正交遮擋表示法(OOR),它解決了端點(diǎn)誤差和角度周期性難題。
遮擋共享和路徑分離網(wǎng)絡(luò)
本文提出的遮擋共享和路徑分離網(wǎng)絡(luò)(OPNet)如下圖所示:
該網(wǎng)絡(luò)首先使用一個(gè) Resnet 結(jié)構(gòu)作為 encoder 部分,之后的 decoder 階段是為遮擋關(guān)系推理兩子任務(wù)聯(lián)合學(xué)習(xí)所設(shè)計(jì)的遮擋共享與路徑分離****(Occlusion-shared and Path-separated Decoder,OPDecoder)。
邊界提取和遮擋方向預(yù)測都是密集預(yù)測任務(wù),目的都是通過理解高級(jí)遮擋信息來恢復(fù)像素級(jí)空間細(xì)節(jié)。但是前者側(cè)重于遮擋定位,而后者則表達(dá)了發(fā)生遮擋的區(qū)域之間的關(guān)系。
為了更好地考慮兩個(gè)任務(wù)之間的聯(lián)系和區(qū)別,作者將****分為兩部分:具有共享價(jià)值的遮擋信息深層階段和具有具體空間細(xì)節(jié)的淺層階段。相比于分別學(xué)習(xí)遮擋邊界和遮擋方向,網(wǎng)絡(luò)在學(xué)習(xí)深層階段共享的高級(jí)語義特征時(shí),通過同時(shí)接受來自兩者的監(jiān)督信號(hào)可以學(xué)習(xí)到更抽象的遮擋線索。邊界提取路徑更注重空間細(xì)節(jié),而方向回歸路徑則側(cè)重于恢復(fù)區(qū)域關(guān)系。而之前的全 decoder 共享的方式導(dǎo)致了特征過度共享,使兩個(gè)任務(wù)之間相互干擾。因此,作者在淺層采用了單獨(dú)的結(jié)構(gòu)。
如圖所示,****包含一個(gè)深遮擋共享階段和一個(gè)淺空間信息分支階段。在遮擋共享階段,作者使用 OSM 對(duì)兩個(gè)最深階段的特征進(jìn)行解碼和聚合,然后將它們傳遞給后續(xù)的邊界路徑和方向路徑。在淺分支階段,考慮到兩個(gè)任務(wù)之間可能的干擾,作者使用 OPM 來增強(qiáng)來自編碼器淺層的特征,然后這些特征將被傳送到邊界和方向兩條路徑。
具體來說,在邊界提取路徑中,來自 OSM 的共享特征圖與從深到淺階段轉(zhuǎn)換的編碼器特征逐漸聚合,為了更好地利用不同尺度的空間信息,作者針對(duì)解碼的每一階段生成了一組多尺度邊界圖,然后將它們?nèi)诤显谝黄鹨蕴崛『喜⒌倪吔鐖D。與邊界路徑不同,方向路徑被故意設(shè)計(jì)為僅接受來自 res2 層的跳躍連接特征,以利用淺層中較少共享的空間細(xì)節(jié)。
遮擋方向的正交遮擋表示法
下圖展示了四種基于邊界的遮擋方向表示示意圖。
圖 (a) 是抽象的圖片中遮擋發(fā)生的示意圖,圖中顯示了在圖像中指示前景和背景的「左手規(guī)則」,即遮擋邊界用箭頭表示,其左側(cè)是前景。
圖 (b) 是基于人工特征和機(jī)器學(xué)習(xí)的傳統(tǒng)方法常用的基于完整邊界的標(biāo)簽分類方法,但由于對(duì)完整邊界的強(qiáng)依賴,其難以直接應(yīng)用到基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)中。
圖 (c) 是 DOC 中提出的像素級(jí)方向變量表示,它通過預(yù)測一個(gè)連續(xù)的在 $(-\pi,\pi]$ 的方向變量來預(yù)測邊界方向圖像中的每個(gè)像素。像素級(jí)方向變量表示可以很好地適應(yīng)預(yù)測屬性密集的卷積塊,但是依舊存在兩個(gè)問題,一是這種方式對(duì)每個(gè)像素都預(yù)測了一個(gè)準(zhǔn)確的角度,造成了不必要的負(fù)擔(dān),二是角度本身存在周期性,DOOBNet 強(qiáng)制將預(yù)測角度的范圍限制在 $(-\pi,\pi]$,會(huì)在區(qū)間的兩端產(chǎn)生不自然的預(yù)測,從而導(dǎo)致大量的端點(diǎn)值錯(cuò)誤。
作者提出遮擋方向的正交遮擋表示(Orthogonal Occlusion Representation,OOR)。如圖 (d),他們使用一對(duì)正交向量(即沿水平軸的向量 a 和沿垂直軸的向量 b)來表示遮擋方向。兩個(gè)向量都指向遮擋邊界附近的背景。OOR 通過在水平和垂直方向同時(shí)指出背景來簡化遮擋方向的預(yù)測,大大增強(qiáng)了預(yù)測的魯棒性。與之前的方向變量表示相比,研究者提出的 OOR 更簡單,效果更好,繞過了角度周期性和端點(diǎn)誤差的問題。
下圖是使用不同遮擋方向預(yù)測方式的取出的 decoder 階段的特征圖的可視化表示。網(wǎng)絡(luò)都采用了本文的 OPNet,第一行使用了 DOOBNet 預(yù)測遮擋方向的方法,第二行使用了本文提出的 OOR。很明顯,本文提出的 OOR 進(jìn)行表示和預(yù)測遮擋方向的方式產(chǎn)生了前后景區(qū)分強(qiáng)烈的特征度,或者說使網(wǎng)絡(luò)學(xué)習(xí)到了更好的遮擋信息。
為了證明 OOR 對(duì)于角度區(qū)間 $(-\pi,\pi]$ 端點(diǎn)值預(yù)測的優(yōu)化,作者分別對(duì)三種遮擋方向預(yù)測方式的預(yù)測結(jié)果進(jìn)行了分角度區(qū)間的遮擋方向預(yù)測召回率的比較。從下圖可以看到,相比于之前最好的 DOOBNet 的遮擋方向預(yù)測,本文的方法在兩端分別提升了 0.23 和 0.18。這證明了之前采用區(qū)間預(yù)測方式存在嚴(yán)重的端點(diǎn)值錯(cuò)誤的問題,而本文的 OOR 有效地解決了這一問題。
實(shí)驗(yàn)結(jié)果
作者分別在 PIOD 和 BSDS ownership 兩個(gè)數(shù)據(jù)集上評(píng)估了模型和方法的有效性。
其中,OPNet + dor/dbr 為在作者網(wǎng)絡(luò)上使用 DOC 方向 loss 或 DOOBNet 方向 loss 的結(jié)果。通過比較 OPNet + dor/dbr 和之前方法的結(jié)果,可以證明作者的網(wǎng)絡(luò)在遮擋關(guān)系推理中明顯優(yōu)于先前的網(wǎng)絡(luò)結(jié)構(gòu)。在使用了作者提出的 OOR 作為方向預(yù)測的方式后,結(jié)果相比于之前最優(yōu)的方法 OFNet 在 AP 上甚至有 6.5%/10% 的提升。并且在與單獨(dú)訓(xùn)練邊界和方向任務(wù)的比較中,最終在同一網(wǎng)絡(luò)中聯(lián)合訓(xùn)練兩子任務(wù)的方式獲得了更優(yōu)的結(jié)果,這也證明了作者設(shè)計(jì)的 OPDecoder 可以使兩任務(wù)相互促進(jìn),更好地聯(lián)合學(xué)習(xí)、預(yù)測。
與之前方法在兩數(shù)據(jù)集下的 PR 曲線的對(duì)比,作者的方法均優(yōu)于先前方法。
下圖是預(yù)測結(jié)果的可視化比較。如圖,作者的方案在邊界和遮擋關(guān)系的預(yù)測上都有明顯的提升。
總結(jié)
本文針對(duì)多任務(wù)學(xué)習(xí)遮擋關(guān)系提出了一種新的遮擋共享和路徑分離網(wǎng)絡(luò)(OPNet)和 用于預(yù)測遮擋方向的正交遮擋表示法(OOR)。OPNet 使得兩個(gè)任務(wù)通過有限的共享 encoder 階段的特征相互促進(jìn),獲得更好的遮擋邊界和遮擋方向。OOR 則是解決了遮擋方向預(yù)測的角度周期性難題和端點(diǎn)誤差的問題。大量實(shí)驗(yàn)表明作者的方法極大的提升了遮擋關(guān)系推理的性能,在 AP 上相比于之前的方法甚至有 6.5%/10% 的提升。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。