博客專欄

EEPW首頁 > 博客 > 半監(jiān)督語義分割前沿

半監(jiān)督語義分割前沿

發(fā)布人:計(jì)算機(jī)視覺工坊 時(shí)間:2022-11-19 來源:工程師 發(fā)布文章

來源丨MCPRL

導(dǎo)讀

傳統(tǒng)語義分割在很多任務(wù)上已經(jīng)達(dá)到了很好的性能,然而這需要大規(guī)模完全標(biāo)注的數(shù)據(jù)集,這無疑需要昂貴的人力物力財(cái)力。半監(jiān)督語義分割旨在利用少量標(biāo)注樣本和大量的未標(biāo)記樣本解決標(biāo)注難度大、標(biāo)注成本昂貴等問題。本文將焦距近期半監(jiān)督語義分割的前沿論文,分析其方法和特點(diǎn)并給出總結(jié)。


背景

定義:使用大量的未標(biāo)記數(shù)據(jù),以及同時(shí)使用標(biāo)記數(shù)據(jù),來進(jìn)行語義分割。常用數(shù)據(jù)集:PASCAL VOC 2012;Cityscapes等
常用分割網(wǎng)絡(luò):不同backbone的deeplabv3+;HRNet;PSPNet等常用方法:主要包括Pseudo-Labels based和Consistency based,Pseudo-Labels based就是基于偽標(biāo)簽進(jìn)行監(jiān)督學(xué)習(xí)的方法, 一般就是模型對unlabeled data預(yù)測偽標(biāo)簽,然后進(jìn)行監(jiān)督學(xué)習(xí);Consistency based就是利用數(shù)據(jù)增強(qiáng)、網(wǎng)絡(luò)擾動(dòng)等方法,但認(rèn)為模型的輸出應(yīng)該保持一致,可以看作一種正則化方法以提高模型的泛化性,防止網(wǎng)絡(luò)對有標(biāo)簽數(shù)據(jù)的過擬合,讓模型提取出最本質(zhì)的特征。

2 論文列表

本文分析的論文如下:圖片

3 ST++: Make Self-training Work Better for Semi-supervised Semantic Segmentation

第一篇就是CVPR2022的ST++,它具有兩大出發(fā)點(diǎn):
  1. 對于半監(jiān)督語義分割來說,一些精細(xì)的機(jī)制(指加的一些tricks)是必不可少的嗎?更重要的是,self-train對于這項(xiàng)任務(wù)來說已經(jīng)過時(shí)了嗎?針對這個(gè)出發(fā)點(diǎn),作者就使用self-train策略,利用常用的數(shù)據(jù)增強(qiáng),而沒有用其他花哨的tricks,產(chǎn)生ST模型
  2. 第二個(gè)出發(fā)點(diǎn)就是,以前的方法,同時(shí)利用了所有的unlabeled data,而不同的未標(biāo)記圖像不可能同樣簡單,對應(yīng)的偽標(biāo)簽也不可能同樣可靠,因此在使用有些不可靠的偽標(biāo)簽迭代優(yōu)化模型時(shí),會(huì)導(dǎo)致嚴(yán)重的預(yù)測偏差和潛在的性能下降。因此,作者提出ST++進(jìn)行重新訓(xùn)練,它會(huì)基于偽mask在不同迭代輪次中的整體穩(wěn)定性自動(dòng)選擇和優(yōu)先排序更可靠的圖像,為剩下的不可靠的圖像生成更高質(zhì)量的人工標(biāo)簽。
基本的self-train范式如下:
  • 【有監(jiān)督預(yù)訓(xùn)練】在有標(biāo)簽圖像上完全訓(xùn)練得到一個(gè)初始的教師模型T
  • 【生成偽標(biāo)簽】用教師模型在所有的無標(biāo)簽圖像上預(yù)測one-hot偽標(biāo)簽
  • 【重新訓(xùn)練】混合有標(biāo)簽圖像和無標(biāo)簽圖像及其偽標(biāo)簽,在其上重新訓(xùn)練一個(gè)學(xué)生模型S,用于最終的測試
而原始的ST存在兩個(gè)問題:基于Teacher模型的偽標(biāo)簽可能是錯(cuò)的,導(dǎo)致學(xué)生模型對噪聲標(biāo)簽過擬合問題;T和S的網(wǎng)絡(luò)結(jié)構(gòu)相同,初始化相似,容易對未標(biāo)記的圖像做出相似的真假預(yù)測,導(dǎo)致學(xué)生S除了熵最小化外,沒有學(xué)到額外的信息。為了解決上述兩個(gè)問題,我們改進(jìn)的ST為S模型引入了強(qiáng)數(shù)據(jù)增強(qiáng)(colorjitter, grayscale, blur, Cutout),來防止這種過擬合。圖片其實(shí)就是用T產(chǎn)生的偽標(biāo)簽和真的標(biāo)簽一起進(jìn)行監(jiān)督學(xué)習(xí)訓(xùn)練S,而且對S的unlabelled data加了強(qiáng)數(shù)據(jù)增強(qiáng)。ST++就是再ST的基礎(chǔ)上通過觀察T在訓(xùn)練過程中產(chǎn)生偽標(biāo)簽的圖像穩(wěn)定性,來對可靠的未標(biāo)記樣本進(jìn)行優(yōu)先級排序和選擇,防止不可靠樣本損害網(wǎng)絡(luò)訓(xùn)練。具體地,作者觀察到在訓(xùn)練階段,分割性能和所生產(chǎn)的偽掩碼的進(jìn)化穩(wěn)定性之間存在正相關(guān)。因此,在訓(xùn)練過程中,可以根據(jù)進(jìn)化穩(wěn)定性選擇更可靠、預(yù)測效果更好的未標(biāo)記圖像。所以將前K-1個(gè)checkpoint的mask與第K個(gè)求一個(gè)meanIOU,認(rèn)為值越高,可靠性越強(qiáng)。完整的ST++見下圖:圖片具體步驟
  • 在labeled data上訓(xùn)練T,并根據(jù)meanIOU篩選可靠的unlabeled data
  • 用labeled data和可靠的unlabeled data第一次訓(xùn)練S
  • 訓(xùn)練好的模型對不可靠的unlabeled data重新預(yù)測生成偽標(biāo)簽
  • 用所有數(shù)據(jù)對S進(jìn)行第二次訓(xùn)練
  • 整個(gè)訓(xùn)練過程還可以繼續(xù)迭代,利用自身模型性能的提升和數(shù)據(jù)不斷清洗形成正反饋。

4 Semi-Supervised Semantic Segmentation With Cross Pseudo Supervision

這一篇CPS來自于CVPR2021,,其思想非常簡單,就是利用網(wǎng)絡(luò)擾動(dòng),即兩個(gè)具有相同架構(gòu)的不同初始化的網(wǎng)絡(luò)進(jìn)行交叉監(jiān)督,來達(dá)到提升模型預(yù)測穩(wěn)定性的作用。它結(jié)合Cutmix數(shù)據(jù)增強(qiáng)和CELoss就可達(dá)到當(dāng)時(shí)SOTA。圖片具體地,相同的數(shù)據(jù)塞入兩個(gè)架構(gòu)相同、不同初始化的網(wǎng)絡(luò),通過sofmax產(chǎn)生預(yù)測P,然后再生成最終的偽標(biāo)簽Y,這里用Y1監(jiān)督P2,反之亦然,使用了一個(gè)交叉監(jiān)督的思想,可以同時(shí)達(dá)到利用偽標(biāo)簽監(jiān)督(且增加了監(jiān)督信號)和一致性約束的效果。

5 Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation

這篇文章也是出自CVPR2022,是一個(gè)利用一致性損失的經(jīng)典方法。它主要貢獻(xiàn)就是:1.  通過一個(gè)新的輔助教師和一個(gè)更嚴(yán)格的信心加權(quán)的CE損失(Conf-CE)來替代MT的MSE損失,提高了未標(biāo)記訓(xùn)練圖像的分割精度,和更好的收斂——架構(gòu)、損失函數(shù)層面2.  結(jié)合使用輸入數(shù)據(jù)、特征和網(wǎng)絡(luò)擾動(dòng),以改進(jìn)模型的泛化3.  提出一種新型的特征擾動(dòng),稱為T-VAT,基于從我們的MT模型的教師那里學(xué)習(xí)到的對抗性噪聲,并將其應(yīng)用于學(xué)生模型,從而產(chǎn)生具有挑戰(zhàn)性的噪聲,以促進(jìn)學(xué)生模型的有效訓(xùn)練。——擾動(dòng)層面圖片具體的細(xì)節(jié)就是:增加了一個(gè)T模型,對兩個(gè)T模型只使用弱數(shù)據(jù)增強(qiáng)(比如flip、crop、scale),防止對T模型的預(yù)測造成干擾;對S模型進(jìn)行強(qiáng)數(shù)據(jù)增強(qiáng)(Cutmix,Zoom in/ Out)然后,對S編碼后的特征層使用T-VAT擾動(dòng),增加模型泛化性,使編碼器能提取最本質(zhì)的特征。這個(gè)擾動(dòng)要足夠大足夠有效,如何衡量?就是用兩個(gè)T模型的預(yù)測來衡量,要讓T模型的預(yù)測在加噪聲前后,預(yù)測的差異越大越好。然后就是兩個(gè)T模型的預(yù)測和S的預(yù)測使用Conf-CE Loss作為一致性損失函數(shù):圖片就是在CELoss加了一個(gè)權(quán)重c(w)代表w像素位置的分割置信度,置信度越高,損失越大,這樣對于不那么可靠的像素,損失較小,可一定程度上緩解對于錯(cuò)誤標(biāo)簽的過擬合,而對于Labeled data就用監(jiān)督損失函數(shù)CELoss然后梯度下降更新S,EMA交替更新T,即一個(gè)epoch只更新一個(gè)T模型。可以看到這個(gè)文章改進(jìn)思路比較全面,輸入數(shù)據(jù)、特征和網(wǎng)絡(luò)三個(gè)層面的擾動(dòng)和架構(gòu)損失函數(shù)的改進(jìn)都考慮到了。

6 Semi-Supervised Semantic Segmentation Using Unreliable Pseudo-Labels

圖片這篇文章出發(fā)點(diǎn)就是現(xiàn)有Pseudo-Labels based方法大多扔掉置信度不高的偽標(biāo)簽,只使用置信度高的偽標(biāo)簽進(jìn)行訓(xùn)練;然而,這會(huì)導(dǎo)致有些像素可能永遠(yuǎn)不會(huì)被訓(xùn)練。從而導(dǎo)致某些類別訓(xùn)練不充分或者類不平衡。解決方案:雖然有些不靠譜的偽標(biāo)簽可能是misclassified,但是我可以排除一些絕不可能的類別。利用什么來拉遠(yuǎn)這些類別的距離?對比學(xué)習(xí)損失InfoNCELoss圖片所以它的基本思路是:對于labeled data正常監(jiān)督學(xué)習(xí),對于unlabeled樣本首先根據(jù)閾值劃分出可靠像素和不可靠的像素,可靠像素使用監(jiān)督學(xué)習(xí),不可靠的像素使用對比學(xué)習(xí)拉遠(yuǎn)與不可能類別之間的距離。

7 Semi-Supervised Semantic Segmentation via Adaptive Equalization Learning

這是NIPS2021的一篇,著重于解決長尾、類不平衡問題,比如說Cityscapes數(shù)據(jù)集,頭部類別的像素?cái)?shù)遠(yuǎn)多于尾部類別幾百倍。為了應(yīng)對數(shù)據(jù)集中的這種問題,本文提出了三大自適應(yīng)策略:1)自適應(yīng)復(fù)制-粘貼和CutMix數(shù)據(jù)增強(qiáng)方法,為表現(xiàn)不佳的類別提供更多被復(fù)制或剪切的機(jī)會(huì)2)自適應(yīng)數(shù)據(jù)采樣方法,鼓勵(lì)從表現(xiàn)不佳的類別中采樣像素3)一種簡單而有效的重加權(quán)方法,以緩解偽標(biāo)記帶來的訓(xùn)練噪聲圖片通過這些策略,我們可以一定程度上緩解長尾問題,比如Cityscape數(shù)據(jù)集的兩種設(shè)置,我們從圖中看到,從藍(lán)線變成了黃線,很大程度上緩解了長尾問題基本網(wǎng)絡(luò)框架如下:圖片基本策略和經(jīng)典方法一樣,經(jīng)典的mean Teacher模型,采用EMA的方法更新T,采用梯度回傳更新S利用T模型在弱增廣無標(biāo)記數(shù)據(jù)Du上生成一組偽標(biāo)簽, 隨后,用gt對標(biāo)記數(shù)據(jù)Dl(弱增強(qiáng))和用生成的偽標(biāo)簽對未標(biāo)記數(shù)據(jù)Du(強(qiáng)增強(qiáng))進(jìn)行訓(xùn)練。損失函數(shù)也是標(biāo)準(zhǔn)的利用偽標(biāo)簽的方法,使用了CELoss圖片其使用的自適應(yīng)策略如下:首先構(gòu)建Confidence Bank:計(jì)算一個(gè)batch中的c類像素的平均預(yù)測概率,然后隨著訓(xùn)練的進(jìn)行,這一個(gè)值采用EMA更新。圖片圖片然后使用Adaptive CutMix數(shù)據(jù)增強(qiáng):置信度越高的類別選擇進(jìn)行Cutmix的概率越低,對所有類別使用Softmax得到選取的概率。具體地,作者依據(jù)概率隨機(jī)選取一個(gè)類別,作為采樣類別,隨機(jī)選取一幅包含采樣類別的未標(biāo)記圖像,然后對該類別區(qū)域Crop,再粘到另一幅圖像上;由于自適應(yīng)CutMix是在沒有標(biāo)注的數(shù)據(jù)上執(zhí)行的,因此我們使用T的預(yù)測作為近似gt。圖片然后進(jìn)行Adaptive Copy-Paste:思路同CutMix,只不過將采樣類別的所有像素隨機(jī)粘到另一張圖像上。然后使用Adaptive Equalization Sampling:就是在訓(xùn)練集每個(gè)圖象中的每一個(gè)類別按一定采樣率采樣,采樣到的像素計(jì)算損失。圖片越困難的類別采樣率越高,可以看到置信率最低的樣本采樣率為1;只對被采樣到的像素計(jì)算損失圖片作者還采用了Dynamic Re-Weighting:按照分為c類的置信度進(jìn)行加權(quán),置信度越高,損失越大圖片

8 Enhancing Pseudo Label Quality for Semi-Supervised Domain-Generalized Medical Image Segmentation

這一篇是用在醫(yī)學(xué)圖像CT上的半監(jiān)督域擴(kuò)展語義分割,解決Domain-Generalize問題:訓(xùn)練數(shù)據(jù)由來自三個(gè)源域的標(biāo)記圖像和未標(biāo)記圖像組成,且不知道域標(biāo)簽,而測試數(shù)據(jù)來自一個(gè)未知分布。方法主要是借鑒CPS交叉監(jiān)督提出 confidence-aware cross pseudo supervision,并且使用了使用傅里葉特征做數(shù)據(jù)增強(qiáng)。圖片

9 Collaborative and Adversarial Learning of Focused and Dispersive Representations for Semi-supervised Polyp Segmentation

圖片

  • 這篇是半監(jiān)督方法用在息肉分割上的,主要提出了兩個(gè)提取模塊,在兩個(gè)分割網(wǎng)絡(luò)的編碼路徑上分別采用FEM和DEM。FEM使我們的網(wǎng)絡(luò)能夠捕捉到輸入特征圖的重點(diǎn)信息,如位置信息和空間信息,而DEM試圖聚合輸入的零散邊界信息。
  • 同時(shí)訓(xùn)練兩個(gè)分割網(wǎng)絡(luò)和一個(gè)discriminator網(wǎng)絡(luò)標(biāo)記圖像通過對抗訓(xùn)練方法。在一致性約束的幫助下,我們可以利用FEM和DEM的兩種特征映射,通過訓(xùn)練好的鑒別器網(wǎng)絡(luò)生成具有高可信度的置信度映射;
  • 提出了另一種對抗訓(xùn)練方法——輔助對抗學(xué)習(xí)(AAL),以提高半監(jiān)督訓(xùn)練階段未標(biāo)記圖像分割預(yù)測的質(zhì)量。我們采用一種新的鑒別器對有標(biāo)記圖像的分割結(jié)果分配真標(biāo)簽,對無標(biāo)記圖像的預(yù)測分配假標(biāo)簽。使用AAL可以得到可信度較高的置信圖,從而更好地應(yīng)用于分割網(wǎng)絡(luò)

10 總結(jié)

  • 半監(jiān)督語義分割目前的改進(jìn)方向主要包括:圖像、特征、網(wǎng)絡(luò)層級的擾動(dòng);網(wǎng)絡(luò)架構(gòu)(目前較少);損失函數(shù)(更細(xì)的改動(dòng),結(jié)合consistency-based 和 pseudo-based);訓(xùn)練策略(更細(xì)致的策略)
  • 可融合的方向:對比學(xué)習(xí)、相似度學(xué)習(xí)可作為突破口,可能可以結(jié)合弱監(jiān)督、無監(jiān)督方法。

撰稿人、排版人:董軍豪

本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉