CVPR 2021 | 無需密集人工標簽，用于下游密集預(yù)測任務(wù)的自監(jiān)督學(xué)習(xí)方法出爐

發(fā)布人：機器之心時間：2021-05-13 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來自阿德萊德大學(xué)、同濟大學(xué)、字節(jié)跳動的研究者設(shè)計了一種簡單且有效的密集自監(jiān)督學(xué)習(xí)方法，大幅縮小了自監(jiān)督預(yù)訓(xùn)練與密集預(yù)測任務(wù)之間的鴻溝。

預(yù)訓(xùn)練已被證實能夠大大提升下游任務(wù)的性能。傳統(tǒng)方法中經(jīng)常利用大規(guī)模的帶圖像標注分類數(shù)據(jù)集（如 ImageNet）進行模型監(jiān)督預(yù)訓(xùn)練，近年來自監(jiān)督學(xué)習(xí)方法的出現(xiàn)，讓預(yù)訓(xùn)練任務(wù)不再需要昂貴的人工標簽。然而，絕大多數(shù)方法都是針對圖像分類進行設(shè)計和優(yōu)化的。但圖像級別的預(yù)測和區(qū)域級別 / 像素級別存在預(yù)測差異，因此這些預(yù)訓(xùn)練模型在下游的密集預(yù)測任務(wù)上的性能可能不是最佳的。

基于此，來自阿德萊德大學(xué)、同濟大學(xué)、字節(jié)跳動的研究者設(shè)計了一種簡單且有效的密集自監(jiān)督學(xué)習(xí)方法，不需要昂貴的密集人工標簽，就能在下游密集預(yù)測任務(wù)上實現(xiàn)出色的性能。目前該論文已被 CVPR 2021 接收。

論文地址：https://arxiv.org/pdf/2011.09157

代碼地址：https://github.com/WXinlong/DenseCL

方法

該研究提出的新方法 DenseCL（Dense Contrastive Learning）通過考慮局部特征之間的對應(yīng)關(guān)系，直接在輸入圖像的兩個視圖之間的像素（或區(qū)域）特征上優(yōu)化成對的對比（不相似）損失來實現(xiàn)密集自監(jiān)督學(xué)習(xí)。

兩種用于表征學(xué)習(xí)的對比學(xué)習(xí)范式的概念描述圖。

現(xiàn)有的自監(jiān)督框架將同一張圖像的不同數(shù)據(jù)增強作為一對正樣本，利用剩余圖像的數(shù)據(jù)增強作為其負樣本，構(gòu)建正負樣本對實現(xiàn)全局對比學(xué)習(xí)，這往往會忽略局部特征的聯(lián)系性與差異性。該研究提出的方法在此基礎(chǔ)上，將同一張圖像中最為相似的兩個像素（區(qū)域）特征作為一對正樣本，而將余下所有的像素（區(qū)域）特征作為其負樣本實現(xiàn)密集對比學(xué)習(xí)。

具體而言，該方法去掉了已有的自監(jiān)督學(xué)習(xí)框架中的全局池化層，并將其全局映射層替換為密集映射層實現(xiàn)。在匹配策略的選擇上，研究者發(fā)現(xiàn)最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比，DenseCL 引入了可忽略的計算開銷（僅慢了不到 1%），但在遷移至下游密集任務(wù)（如目標檢測、語義分割）時，表現(xiàn)出了十分優(yōu)異的性能。DenseCL 的總體損失函數(shù)如下：