語義分割綜述(2)
通過擴(kuò)張卷積進(jìn)行多尺度上下文聚合
論文:Multi-Scale Context Aggregation by Dilated Convolutions (ICLR, 2016)
代碼:https://github.com/fyu/dilation
在本文中,開發(fā)了一種融合多尺度上下文信息而不損失分辨率的卷積網(wǎng)絡(luò)模塊。然后可以將該模塊插入到任何分辨率的現(xiàn)有架構(gòu)中。該模塊基于擴(kuò)張卷積。
該模塊在 Pascal VOC 2012 數(shù)據(jù)集上進(jìn)行了測試。它證明向現(xiàn)有語義分割架構(gòu)添加上下文模塊可以提高其準(zhǔn)確性。
在實(shí)驗(yàn)中訓(xùn)練的前端模塊在 VOC-2012 驗(yàn)證集上實(shí)現(xiàn)了 69.8% 的平均 IoU,在測試集上實(shí)現(xiàn)了 71.3% 的平均 IoU。該模型對不同物體的預(yù)測精度如下圖
DeepLab:使用深度卷積網(wǎng)絡(luò)、Atrous 卷積和全連接 CRF 進(jìn)行語義圖像分割
論文:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (TPAMI, 2017)
代碼:https://github.com/tensorflow/models (非官方)
在本文中,作者對深度學(xué)習(xí)的語義分割任務(wù)做出了以下貢獻(xiàn):
用于密集預(yù)測任務(wù)的帶有上采樣濾波器的卷積
用于多尺度分割目標(biāo)的多孔空間金字塔池化 (ASPP)
通過使用 DCNN 改進(jìn)對象邊界的定位。
論文提出的 DeepLab 系統(tǒng)在 PASCAL VOC-2012 語義圖像分割任務(wù)上實(shí)現(xiàn)了 79.7% mIOU。
該論文解決了在語義分割中使用深度 CNN 的主要挑戰(zhàn),其中包括:
重復(fù)組合最大池化和下采樣導(dǎo)致的特征分辨率降低。
多尺度目標(biāo)的存在。
由于以目標(biāo)為中心的分類器需要空間變換的不變性,因此 DCNN 的不變性導(dǎo)致定位精度降低。
Atrous 卷積是通過插入零對濾波器進(jìn)行上采樣或?qū)斎胩卣鲌D進(jìn)行稀疏采樣來應(yīng)用的。第二種方法需要對輸入特征圖進(jìn)行一個(gè)等于多孔卷積率 r 的子采樣,并對其進(jìn)行去隔行掃描以生成 r^2 個(gè)降低分辨率的圖,每個(gè) r×r 可能的移位一個(gè)。在此之后,標(biāo)準(zhǔn)卷積應(yīng)用于直接特征圖,將它們與圖像的原始分辨率交錯。
重新思考語義圖像分割的 Atrous 卷積
論文:Rethinking Atrous Convolution for Semantic Image Segmentation (2017)
代碼:https://github.com/pytorch/vision (非官方)
本文解決了使用 DCNN 進(jìn)行語義分割的兩個(gè)挑戰(zhàn)(前面提到過);應(yīng)用連續(xù)池化操作和多個(gè)尺度對象的存在時(shí)發(fā)生的特征分辨率降低。
為了解決第一個(gè)問題,論文建議使用atrous卷積,也稱為擴(kuò)張卷積。它提出使用多孔卷積來擴(kuò)大視野并因此包括多尺度上下文來解決第二個(gè)問題。
該論文的“DeepLabv3”在沒有 DenseCRF 后處理的 PASCAL VOC 2012 測試集上實(shí)現(xiàn)了 85.7% 的性能。
用于語義圖像分割的具有 Atrous 可分離卷積的編碼器-****
論文:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation (ECCV, 2018)
代碼:https://github.com/tensorflow/models
本文的方法“DeepLabv3+”在沒有對 PASCAL VOC 2012 和 Cityscapes 數(shù)據(jù)集進(jìn)行任何后處理的情況下實(shí)現(xiàn)了 89.0% 和 82.1% 的測試集性能。該模型是 DeepLabv3 的擴(kuò)展,通過添加一個(gè)簡單的****模塊來細(xì)化分割結(jié)果。
該論文實(shí)現(xiàn)了兩種類型的神經(jīng)網(wǎng)絡(luò),它們使用空間金字塔池化模塊進(jìn)行語義分割。一種通過匯集不同分辨率的特征來捕獲上下文信息,而另一種則獲得清晰的對象邊界。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。