CVPR2021佳作 | One-Shot都嫌多，Zero-Shot實(shí)例樣本分割

發(fā)布人：CV研究院時(shí)間：2021-06-27 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

給一個(gè)包含了未知種類多個(gè)實(shí)體的沒訓(xùn)練過的新樣本(the query image)，如何檢測(cè)以及分割所有這些實(shí)例？？？

一、分割回顧

實(shí)例分割（Instance Segmentation）

實(shí)例分割（Instance Segmentation）是視覺經(jīng)典四個(gè)任務(wù)中相對(duì)最難的一個(gè)，它既具備語義分割（Semantic Segmentation）的特點(diǎn)，需要做到像素層面上的分類，也具備目標(biāo)檢測(cè)（Object Detection）的一部分特點(diǎn)，即需要定位出不同實(shí)例，即使它們是同一種類。因此，實(shí)例分割的研究長(zhǎng)期以來都有著兩條線，分別是自下而上的基于語義分割的方法和自上而下的基于檢測(cè)的方法，這兩種方法都屬于兩階段的方法，下面將分別簡(jiǎn)單介紹。

以下摘自于：CSDN- 三十八元

兩階段實(shí)例分割

自上而下（Top-Down)

自上而下的實(shí)例分割方法的思路是：首先通過目標(biāo)檢測(cè)的方法找出實(shí)例所在的區(qū)域（bounding box），再在檢測(cè)框內(nèi)進(jìn)行語義分割，每個(gè)分割結(jié)果都作為一個(gè)不同的實(shí)例輸出。

這類方法的代表作就是大名鼎鼎的Mask R-CNN了，如下圖，總體結(jié)構(gòu)就是Faster R-CNN的兩階段目標(biāo)檢測(cè)，box head用來做檢測(cè)，增加了mask head用來做分割，模型大家都很熟，細(xì)節(jié)就不再贅述。

自下而上（Bottom-Up）

自下而上的實(shí)例分割方法的思路是：首先進(jìn)行像素級(jí)別的語義分割，再通過聚類、度量學(xué)習(xí)等手段區(qū)分不同的實(shí)例。

自下而上的工作并不多，通常的做法都是通過Instance Embedding的做法來做。舉一篇CVPR2017的文章為例，

論文名稱：Semantic Instance Segmentation with a Discriminative Loss Function

參考代碼：https://github.com/Wizaron/instance-segmentation-pytorch

這篇論文的實(shí)例分割做法是：

（1）語義分割：首先在第一個(gè)階段做了語義分割，得到了所有的物體mask；

（2）像素嵌入：再通過使用一個(gè)判別式損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)，網(wǎng)絡(luò)的優(yōu)化目標(biāo)是將圖像每個(gè)像素投影到 n維特征空間后，同屬于一個(gè)實(shí)例的像素盡量靠近，形成一個(gè) cluster, 每一個(gè)實(shí)例對(duì)應(yīng)一個(gè) cluster, 不同 cluster則盡量遠(yuǎn)離；

（3）后處理：最后使用聚類的方法（如mean-shift）來輸出不同的實(shí)例。

文章的關(guān)鍵在于提出的判別式損失函數(shù)，它的組成如下：

（1）拉力。懲罰同一實(shí)例中所有元素與其平均值之間的距離。也就是說，獲取一個(gè)實(shí)例的所有像素，并計(jì)算平均值。這種拉力會(huì)將同一實(shí)例中的所有像素點(diǎn)拉近到嵌入空間中的同一個(gè)點(diǎn)。簡(jiǎn)單說，就是減少每一個(gè)實(shí)例的嵌入方差。

（2）推力。獲取所有中心點(diǎn) (在嵌入空間embedding中，而不是空間中心)，然后將它們推得更遠(yuǎn)。

（3）正則化。中心點(diǎn)不應(yīng)該離原點(diǎn)太遠(yuǎn)。

文章的超參數(shù)設(shè)置和迭代方法還是有比較多的坑，感興趣的可以去看原文和代碼。更多關(guān)于Instance Embedding的文章可以看看[1]。

單階段實(shí)例分割

下面就聊聊單階段實(shí)例分割（Single Shot Instance Segmentation），這方面工作其實(shí)也是受到了單階段目標(biāo)檢測(cè)研究的影響，因此也有兩種思路，一種是受one-stage, anchot-based 檢測(cè)模型如YOLO，RetinaNet啟發(fā)，代表作有YOLACT和SOLO；一種是受anchor-free檢測(cè)模型如 FCOS 啟發(fā)，代表作有PolarMask和AdaptIS。

目前（2020年1月）來看，單階段實(shí)例分割的精度最高的模型應(yīng)該是新出的BlendMask（COCO, 41.3），在精度和速度上都超越了Mask R-CNN，已經(jīng)很接近兩階段模型（SOTA應(yīng)該是HTC？）了。

YOLACT&YOLACT++ ICCV 2019

原文：https://arxiv.org/abs/1904.02689

代碼（官方）：https://github.com/dbolya/yolact

YOLACT是我最早看的一篇單階段實(shí)例分割的文章，主要參照了單階段檢測(cè)模型RetinaNet，因此把它歸類于單階段的實(shí)例分割。YOLACT將實(shí)例分割任務(wù)拆分成兩個(gè)并行的子任務(wù)：

（1）通過一個(gè)Protonet網(wǎng)絡(luò)，為每張圖片生成 k 個(gè) 原型mask

（2）對(duì)每個(gè)實(shí)例，預(yù)測(cè)k個(gè)的線性組合系數(shù)（Mask Coefficients）

最后通過線性組合，生成實(shí)例mask，在此過程中，網(wǎng)絡(luò)學(xué)會(huì)了如何定位不同位置、顏色和語義實(shí)例的mask。

具體網(wǎng)絡(luò)結(jié)構(gòu)如下：

（1）Backbone：Resnet 101+FPN，與RetinaNet相同；

（2）Protonet：接在FPN輸出的后面，是一個(gè)FCN網(wǎng)絡(luò)，預(yù)測(cè)得到針對(duì)原圖的原型mask

（3）Prediction Head：相比RetinaNet的Head，多了一個(gè)Mask Cofficient分支，預(yù)測(cè)Mask系數(shù)，因此輸出是4*c+k。

此外，論文中還用到了Fast NMS方法，比原有的NMS速度更快，精度減得不多。

之后，作者又提出了改進(jìn)版的YOLACT++，改進(jìn)之處主要有：

（1）參考Mask Scoring RCNN，添加fast mask re-scoring分支，更好地評(píng)價(jià)實(shí)例mask的好壞；

（2）Backbone網(wǎng)絡(luò)中引入可變形卷積DCN；

（3）優(yōu)化了Prediction Head中的anchor設(shè)計(jì)

YOLACT和YOLACT++的實(shí)驗(yàn)效果如下：

二、One shot實(shí)例分割

論文地址：https://arxiv.org/pdf/1811.11507.pdf

動(dòng)機(jī)

該文聚焦在一個(gè)前沿的問題：給一個(gè)包含了未知種類多個(gè)實(shí)體的沒訓(xùn)練過的新樣本(the query image)，如何檢測(cè)以及分割所有這些實(shí)例。這個(gè)問題和現(xiàn)實(shí)應(yīng)用密切相關(guān)，因?yàn)闄z測(cè)/分割的落地場(chǎng)景中不可能有類似MS-COCO或者OpenImages之類數(shù)據(jù)集包含了非常多的實(shí)例，現(xiàn)實(shí)任務(wù)中的實(shí)例是窮舉不完的，如何從有限種類和數(shù)量的樣本中學(xué)習(xí)到一些知識(shí)并推演到新的種類中是很具有挑戰(zhàn)和實(shí)際意義的。該問題的研究大多還是停留在分類任務(wù)上，檢測(cè)和分割少。

主要亮點(diǎn)：

1.提出siamese Mask R-CNN框架，能夠僅給一個(gè)樣本，就能夠較好的檢測(cè)&分割新的該樣本同類實(shí)例；

2.構(gòu)建了一個(gè)新的評(píng)測(cè)標(biāo)準(zhǔn)在MS-COCO。

Different from MRCNN：

正如名字一樣，主體框架就是由SiameseNetwork + Mask R-CNN。改進(jìn)前后的框架比對(duì)如下圖。

主要的4處不同已經(jīng)用紅色標(biāo)識(shí)，即R、Siamese、Matching、L1。R代表了輸入不僅有Query Image還有Reference Image；SiameseNetwork則對(duì)兩者分別進(jìn)行encode；Matching是將編碼后的2個(gè)feature vector進(jìn)行逐一的匹配；L1則是算diff的手段。具體的匹配流程如下圖。

該框架的結(jié)果如下：

三、Zero shot實(shí)例分割

研究者提出了一個(gè)新的任務(wù)稱之為零樣本實(shí)例分割(Zero-Shot Instance Segmentation)——ZSI。ZSI的任務(wù)要求在訓(xùn)練過程中，只用已經(jīng)見過并有標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練，但在測(cè)試和推理時(shí)能夠同時(shí)分割出見過和沒見過的物體實(shí)例。

首先用數(shù)學(xué)語言對(duì)該任務(wù)進(jìn)行描述，然后提出了一個(gè)方法來解決ZSI的問題。新方法包括零樣本檢測(cè)器(Zero-shot Detector)、Semantic Mask Head、Backgro Aware RPN和Synchronized Background Strategy。實(shí)驗(yàn)結(jié)果表明，提出的方法不僅在ZSI的任務(wù)上效果不錯(cuò)，在零樣本檢測(cè)任務(wù)上也取得了比之前已有研究更好的表現(xiàn)。

亮點(diǎn)：（部分采用：https://www.jiqizhixin.com/articles/2021-03-17）

1：針對(duì)零樣本實(shí)例分割任務(wù)，提出應(yīng)對(duì)的算法，該算法是基于Backgro Aware的檢測(cè)-分割框架；

2：定義了零樣本分割(ZSI)自己獨(dú)特的測(cè)試基準(zhǔn)；

3：測(cè)試結(jié)果表明在ZSD任務(wù)上超越了已有的方法，且在ZSI任務(wù)上的結(jié)果很有競(jìng)爭(zhēng)力。

整個(gè)零樣本實(shí)例分割的框架如下圖所示。對(duì)于一張輸入圖像來講，首先要使用骨干網(wǎng)絡(luò)(backbone)，BA-RPN和ROI Align來提取視覺特征和背景的詞向量，然后經(jīng)過Sync-bg模塊后分別送入零樣本檢測(cè)器和語義分割頭，從而得到實(shí)例分割的結(jié)果。

零樣本檢測(cè)器的設(shè)計(jì)細(xì)節(jié)如下圖所示，采用了編碼-解碼結(jié)構(gòu)，在測(cè)試/推理時(shí)只是用****的Te。

語義分割頭的結(jié)構(gòu)如下圖4所示，它是一個(gè)encoder-decoder的架構(gòu)，在訓(xùn)練階段，使用encoder來把圖像的特征編碼到語義-文字特征向量。然后使用decoder把上面構(gòu)建的語義-文字特征向量去重建圖像的任務(wù)：檢測(cè)，分割等。

實(shí)驗(yàn)：

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

CVPR2021佳作 | One-Shot都嫌多，Zero-Shot實(shí)例樣本分割

相關(guān)推薦

技術(shù)專區(qū)