語義分割綜述（2）

發(fā)布人：計(jì)算機(jī)視覺工坊時(shí)間：2021-10-07 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

通過擴(kuò)張卷積進(jìn)行多尺度上下文聚合

論文：Multi-Scale Context Aggregation by Dilated Convolutions (ICLR, 2016)

代碼：https://github.com/fyu/dilation

在本文中，開發(fā)了一種融合多尺度上下文信息而不損失分辨率的卷積網(wǎng)絡(luò)模塊。然后可以將該模塊插入到任何分辨率的現(xiàn)有架構(gòu)中。該模塊基于擴(kuò)張卷積。

該模塊在 Pascal VOC 2012 數(shù)據(jù)集上進(jìn)行了測試。它證明向現(xiàn)有語義分割架構(gòu)添加上下文模塊可以提高其準(zhǔn)確性。

在實(shí)驗(yàn)中訓(xùn)練的前端模塊在 VOC-2012 驗(yàn)證集上實(shí)現(xiàn)了 69.8% 的平均 IoU，在測試集上實(shí)現(xiàn)了 71.3% 的平均 IoU。該模型對不同物體的預(yù)測精度如下圖

DeepLab：使用深度卷積網(wǎng)絡(luò)、Atrous 卷積和全連接 CRF 進(jìn)行語義圖像分割

論文：DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (TPAMI, 2017)

代碼：https://github.com/tensorflow/models (非官方)

在本文中，作者對深度學(xué)習(xí)的語義分割任務(wù)做出了以下貢獻(xiàn)：

用于密集預(yù)測任務(wù)的帶有上采樣濾波器的卷積

用于多尺度分割目標(biāo)的多孔空間金字塔池化 (ASPP)

通過使用 DCNN 改進(jìn)對象邊界的定位。

論文提出的 DeepLab 系統(tǒng)在 PASCAL VOC-2012 語義圖像分割任務(wù)上實(shí)現(xiàn)了 79.7% mIOU。

該論文解決了在語義分割中使用深度 CNN 的主要挑戰(zhàn)，其中包括：

重復(fù)組合最大池化和下采樣導(dǎo)致的特征分辨率降低。

多尺度目標(biāo)的存在。

由于以目標(biāo)為中心的分類器需要空間變換的不變性，因此 DCNN 的不變性導(dǎo)致定位精度降低。

Atrous 卷積是通過插入零對濾波器進(jìn)行上采樣或?qū)斎胩卣鲌D進(jìn)行稀疏采樣來應(yīng)用的。第二種方法需要對輸入特征圖進(jìn)行一個(gè)等于多孔卷積率 r 的子采樣，并對其進(jìn)行去隔行掃描以生成 r^2 個(gè)降低分辨率的圖，每個(gè) r×r 可能的移位一個(gè)。在此之后，標(biāo)準(zhǔn)卷積應(yīng)用于直接特征圖，將它們與圖像的原始分辨率交錯。

重新思考語義圖像分割的 Atrous 卷積

論文：Rethinking Atrous Convolution for Semantic Image Segmentation (2017)

代碼：https://github.com/pytorch/vision (非官方)

本文解決了使用 DCNN 進(jìn)行語義分割的兩個(gè)挑戰(zhàn)（前面提到過）；應(yīng)用連續(xù)池化操作和多個(gè)尺度對象的存在時(shí)發(fā)生的特征分辨率降低。

為了解決第一個(gè)問題，論文建議使用atrous卷積，也稱為擴(kuò)張卷積。它提出使用多孔卷積來擴(kuò)大視野并因此包括多尺度上下文來解決第二個(gè)問題。

該論文的“DeepLabv3”在沒有 DenseCRF 后處理的 PASCAL VOC 2012 測試集上實(shí)現(xiàn)了 85.7% 的性能。

用于語義圖像分割的具有 Atrous 可分離卷積的編碼器-****

論文：Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation (ECCV, 2018)

代碼：https://github.com/tensorflow/models

本文的方法“DeepLabv3+”在沒有對 PASCAL VOC 2012 和 Cityscapes 數(shù)據(jù)集進(jìn)行任何后處理的情況下實(shí)現(xiàn)了 89.0% 和 82.1% 的測試集性能。該模型是 DeepLabv3 的擴(kuò)展，通過添加一個(gè)簡單的****模塊來細(xì)化分割結(jié)果。

該論文實(shí)現(xiàn)了兩種類型的神經(jīng)網(wǎng)絡(luò)，它們使用空間金字塔池化模塊進(jìn)行語義分割。一種通過匯集不同分辨率的特征來捕獲上下文信息，而另一種則獲得清晰的對象邊界。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

語義分割綜述（2）

相關(guān)推薦

技術(shù)專區(qū)