CVPR 2021 | 無(wú)需密集人工標(biāo)簽,用于下游密集預(yù)測(cè)任務(wù)的自監(jiān)督學(xué)習(xí)方法出爐
來(lái)自阿德萊德大學(xué)、同濟(jì)大學(xué)、字節(jié)跳動(dòng)的研究者設(shè)計(jì)了一種簡(jiǎn)單且有效的密集自監(jiān)督學(xué)習(xí)方法,大幅縮小了自監(jiān)督預(yù)訓(xùn)練與密集預(yù)測(cè)任務(wù)之間的鴻溝。
預(yù)訓(xùn)練已被證實(shí)能夠大大提升下游任務(wù)的性能。傳統(tǒng)方法中經(jīng)常利用大規(guī)模的帶圖像標(biāo)注分類數(shù)據(jù)集(如 ImageNet)進(jìn)行模型監(jiān)督預(yù)訓(xùn)練,近年來(lái)自監(jiān)督學(xué)習(xí)方法的出現(xiàn),讓預(yù)訓(xùn)練任務(wù)不再需要昂貴的人工標(biāo)簽。然而,絕大多數(shù)方法都是針對(duì)圖像分類進(jìn)行設(shè)計(jì)和優(yōu)化的。但圖像級(jí)別的預(yù)測(cè)和區(qū)域級(jí)別 / 像素級(jí)別存在預(yù)測(cè)差異,因此這些預(yù)訓(xùn)練模型在下游的密集預(yù)測(cè)任務(wù)上的性能可能不是最佳的。
基于此,來(lái)自阿德萊德大學(xué)、同濟(jì)大學(xué)、字節(jié)跳動(dòng)的研究者設(shè)計(jì)了一種簡(jiǎn)單且有效的密集自監(jiān)督學(xué)習(xí)方法,不需要昂貴的密集人工標(biāo)簽,就能在下游密集預(yù)測(cè)任務(wù)上實(shí)現(xiàn)出色的性能。目前該論文已被 CVPR 2021 接收。
論文地址:https://arxiv.org/pdf/2011.09157
代碼地址:https://github.com/WXinlong/DenseCL
方法
該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過(guò)考慮局部特征之間的對(duì)應(yīng)關(guān)系,直接在輸入圖像的兩個(gè)視圖之間的像素(或區(qū)域)特征上優(yōu)化成對(duì)的對(duì)比(不相似)損失來(lái)實(shí)現(xiàn)密集自監(jiān)督學(xué)習(xí)。
兩種用于表征學(xué)習(xí)的對(duì)比學(xué)習(xí)范式的概念描述圖。
現(xiàn)有的自監(jiān)督框架將同一張圖像的不同數(shù)據(jù)增強(qiáng)作為一對(duì)正樣本,利用剩余圖像的數(shù)據(jù)增強(qiáng)作為其負(fù)樣本,構(gòu)建正負(fù)樣本對(duì)實(shí)現(xiàn)全局對(duì)比學(xué)習(xí),這往往會(huì)忽略局部特征的聯(lián)系性與差異性。該研究提出的方法在此基礎(chǔ)上,將同一張圖像中最為相似的兩個(gè)像素(區(qū)域)特征作為一對(duì)正樣本,而將余下所有的像素(區(qū)域)特征作為其負(fù)樣本實(shí)現(xiàn)密集對(duì)比學(xué)習(xí)。
具體而言,該方法去掉了已有的自監(jiān)督學(xué)習(xí)框架中的全局池化層,并將其全局映射層替換為密集映射層實(shí)現(xiàn)。在匹配策略的選擇上,研究者發(fā)現(xiàn)最大相似匹配和隨機(jī)相似匹配對(duì)最后的精度影響非常小。與基準(zhǔn)方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計(jì)算開(kāi)銷(僅慢了不到 1%),但在遷移至下游密集任務(wù)(如目標(biāo)檢測(cè)、語(yǔ)義分割)時(shí),表現(xiàn)出了十分優(yōu)異的性能。DenseCL 的總體損失函數(shù)如下:
模型性能
該研究進(jìn)行消融實(shí)驗(yàn)評(píng)估了匹配策略對(duì)下游任務(wù)的性能影響,結(jié)果如下表所示。
另一組消融實(shí)驗(yàn)評(píng)估了預(yù)訓(xùn)練區(qū)域數(shù)量對(duì)下游任務(wù)的性能影響,結(jié)果如下表所示。
下圖展示了該方法遷移至下游密集任務(wù)的性能增益:
隨著訓(xùn)練時(shí)間的延長(zhǎng),該研究進(jìn)一步提供了與基線的直觀比較,表明 DenseCL 始終比 MoCo-v2 的性能高出至少 2%:
DenseCL 與 MoCo-v2 的預(yù)訓(xùn)練時(shí)間消耗對(duì)比如下:
下圖對(duì)高相似度匹配進(jìn)行了可視化,旨在描述局部語(yǔ)義特征間的對(duì)應(yīng)關(guān)系:
如下圖所示,帶有隨機(jī)初始化的大多數(shù)匹配都是不正確的,從圖中可以看出隨著訓(xùn)練時(shí)間的變化,對(duì)應(yīng)關(guān)系發(fā)生了改變。
[1] Improved baselines with momentum contrastive learning. Chen, Xinlei and Fan, Haoqi and Girshick, Ross and He, Kaiming
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。