語義分割綜述（1）

發(fā)布人：計算機(jī)視覺工坊時間：2021-10-07 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

作者：Derrick Mwiti

編譯：CV技術(shù)指南

語義分割 (Semantic segmentation) 是指將圖像中的每個像素鏈接到類標(biāo)簽的過程。這些標(biāo)簽可能包括人、車、花、家具等。

我們可以將語義分割視為像素級別的圖像分類。例如，在有很多汽車的圖像中，分割會將所有對象標(biāo)記為汽車對象。然而，稱為實例分割 (instance segmentation) 的單獨類別的模型能夠標(biāo)記對象出現(xiàn)在圖像中的單獨實例。這種分割在用于計算目標(biāo)數(shù)量的應(yīng)用中非常有用，例如計算商場中的人流量。

它的一些主要應(yīng)用是自動駕駛汽車、人機(jī)交互、機(jī)器人技術(shù)和照片編輯/創(chuàng)意工具。例如，語義分割在自動駕駛汽車和機(jī)器人技術(shù)中非常重要，因為模型理解其運行環(huán)境中的上下文非常重要。

"Two men riding on a bike in front of a building on the road. And there is a car."

本文將介紹一些關(guān)于構(gòu)建語義分割模型的最新方法的研究論文，即：

Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation

Fully Convolutional Networks for Semantic Segmentation

U-Net: Convolutional Networks for Biomedical Image Segmentation

The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation

Multi-Scale Context Aggregation by Dilated Convolutions

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

Rethinking Atrous Convolution for Semantic Image Segmentation

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation

Improving Semantic Segmentation via Video Propagation and Label Relaxation

Gated-SCNN: Gated Shape CNNs for Semantic Segmentation

文末附以上論文的下載方式

用于語義圖像分割的深度卷積網(wǎng)絡(luò)的弱監(jiān)督和半監(jiān)督學(xué)習(xí)

論文：Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation (ICCV, 2015)

代碼：https: //bitbucket.org/deeplab/deeplab-public

本文針對在深度卷積神經(jīng)網(wǎng)絡(luò) (CNN) 中處理弱標(biāo)記數(shù)據(jù)以及標(biāo)記良好的數(shù)據(jù)和未正確標(biāo)記的數(shù)據(jù)的組合提出了一種解決方案。

在論文中，應(yīng)用了深度 CNN 與全連接條件隨機(jī)場的組合。

在 PASCAL VOC 分割基準(zhǔn)上，該模型給出了高于 70% 的平均交并比 (mean intersection-over-union, IOU) 分?jǐn)?shù)。這種模型面臨的主要挑戰(zhàn)之一是它需要在訓(xùn)練期間在像素級別進(jìn)行注釋的圖像。

本文的主要貢獻(xiàn)是：

引入可應(yīng)用于弱監(jiān)督和半監(jiān)督設(shè)置的邊界框或圖像級訓(xùn)練的期望最大化算法。

證明結(jié)合弱注釋和強(qiáng)注釋可以提高性能。在合并來自 MS-COCO 數(shù)據(jù)集和 PASCAL 數(shù)據(jù)集的注釋后，本文作者在 PASCAL VOC 2012 上達(dá)到了 73.9% 的 IOU 性能。

證明他們的方法通過合并少量像素級注釋圖像和大量邊界框或圖像級注釋圖像來實現(xiàn)更高的性能。

用于語義分割的全卷積網(wǎng)絡(luò)

論文：Fully Convolutional Networks for Semantic Segmentation（PAMI，2016）

代碼：http://fcn.berkeleyvision.org

本文提出的模型在 PASCAL VOC 2012 上實現(xiàn)了 67.2% 平均 IU 的性能。

全連接網(wǎng)絡(luò)獲取任意大小的圖像并生成相應(yīng)空間維度的輸出。在這個模型中，ILSVRC 分類器被投射到完全連接的網(wǎng)絡(luò)中，并使用像素級損失和網(wǎng)絡(luò)內(nèi)上采樣來增強(qiáng)密集預(yù)測。然后通過微調(diào)完成分割訓(xùn)練。微調(diào)是通過在整個網(wǎng)絡(luò)上的反向傳播來完成的。

U-Net：用于生物醫(yī)學(xué)圖像分割的卷積網(wǎng)絡(luò)

論文：U-Net: Convolutional Networks for Biomedical Image Segmentation (MICCAI, 2015)

代碼：http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net

在生物醫(yī)學(xué)圖像處理中，為圖像中的每個細(xì)胞獲得一個類別標(biāo)簽是非常重要的。生物醫(yī)學(xué)任務(wù)中最大的挑戰(zhàn)是難以獲取數(shù)千張用于訓(xùn)練的圖像。

本文建立在完全卷積層的基礎(chǔ)上并對其進(jìn)行修改以處理一些訓(xùn)練圖像并產(chǎn)生更精確的分割。

由于可用的訓(xùn)練數(shù)據(jù)很少，因此該模型通過對可用數(shù)據(jù)應(yīng)用彈性變形來使用數(shù)據(jù)增強(qiáng)。如上圖 1 所示，網(wǎng)絡(luò)架構(gòu)由左側(cè)的收縮路徑和右側(cè)的擴(kuò)展路徑組成。

收縮路徑由兩個 3x3 卷積組成。每個卷積之后是一個整流線性單元和一個用于下采樣的 2x2 最大池化操作。每個下采樣階段都會使特征通道的數(shù)量增加一倍。擴(kuò)展路徑步驟包括特征通道的上采樣。接著是 2x2 上卷積，將特征通道的數(shù)量減半。最后一層是 1x1 卷積，用于將組件特征向量映射到所需數(shù)量的類。

在這個模型中，訓(xùn)練是使用輸入圖像、它們的分割圖和 Caffe 的隨機(jī)梯度下降實現(xiàn)來完成的。當(dāng)使用很少的訓(xùn)練數(shù)據(jù)時，數(shù)據(jù)增強(qiáng)用于教導(dǎo)網(wǎng)絡(luò)所需的魯棒性和不變性。該模型在其中一項實驗中取得了 92% 的平均 IOU 分?jǐn)?shù)。