CVPR 2022 | 應(yīng)對(duì)噪聲標(biāo)簽，西安大略大學(xué)、字節(jié)跳動(dòng)等提出對(duì)比正則化方法

發(fā)布人：機(jī)器之心時(shí)間：2022-06-16 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

來(lái)自西安大略大學(xué)、紐約大學(xué)和字節(jié)跳動(dòng)的研究者回答了一個(gè)重要的問(wèn)題，即如何從帶有噪聲標(biāo)簽的數(shù)據(jù)集中學(xué)到可靠模型。

噪聲標(biāo)簽（Noisy labels）隨著深度學(xué)習(xí)研究的深入得到廣泛的關(guān)注，因?yàn)樵诒姸鄬?shí)際落地的場(chǎng)景模型的訓(xùn)練都離不開(kāi)真實(shí)可靠的標(biāo)簽信息。由于人工標(biāo)注誤差(專業(yè)性不足等問(wèn)題)、數(shù)據(jù)原始噪聲，帶噪聲的數(shù)據(jù)不可避免，清洗數(shù)據(jù)的工作也是更加困難。

在有監(jiān)督的圖像分類問(wèn)題中，經(jīng)典的 cross-entropy (CE) 損失函數(shù)是最為廣泛應(yīng)用的函數(shù)之一。當(dāng)數(shù)據(jù)集不存在任何的噪聲標(biāo)簽的時(shí)候，它往往能帶來(lái)非常不錯(cuò)的效果。然而，當(dāng)數(shù)據(jù)集中存在噪聲標(biāo)簽的時(shí)候，它會(huì)導(dǎo)致模型對(duì)噪聲標(biāo)簽過(guò)擬合，使模型的泛化性變差。本文從對(duì)比學(xué)習(xí)的角度研究了如何通過(guò)約束圖像的特征來(lái)防止模型對(duì)噪聲標(biāo)簽的過(guò)擬合。

現(xiàn)有的解決噪聲標(biāo)簽的問(wèn)題有基于 robust regularization, label correction, loss reweighting, 和 robust loss functions 等。本文的研究動(dòng)機(jī)源于 robust loss functions。為了防止模型對(duì)噪聲標(biāo)簽過(guò)擬合，現(xiàn)有的對(duì)噪聲魯棒的損失函數(shù)（mean absolute error (MAE)[1,2]，reverse cross-entropy loss (RCE) [3] 等）在一定程度上解決了噪聲標(biāo)簽過(guò)擬合的同時(shí)，也存在對(duì)數(shù)據(jù)欠擬合的問(wèn)題[4,5]。在實(shí)際應(yīng)用中，這些對(duì)噪聲魯棒的損失函數(shù)是結(jié)合 CE 一起使用的，而 CE 容易造成對(duì)噪聲數(shù)據(jù)的過(guò)擬合問(wèn)題。因此我們思考，能否僅僅通過(guò)約束圖像的特征，使整個(gè)模型仍然可以用 CE 訓(xùn)練且不受噪聲標(biāo)簽的影響。

近期，來(lái)自西安大略大學(xué)，紐約大學(xué)以及字節(jié)跳動(dòng)的學(xué)者們研究了如何從帶有噪聲標(biāo)簽的數(shù)據(jù)集中學(xué)到可靠的模型，這一基礎(chǔ)且重要的問(wèn)題。本工作主要由西安大略大學(xué)統(tǒng)計(jì)及精算系的易立完成，通訊作者為西安大略大學(xué)計(jì)算機(jī)系的助理教授王博予。

論文地址：https://arxiv.org/abs/2203.01785

本文主要回答了兩個(gè)問(wèn)題：(1)基于對(duì)比學(xué)習(xí)得到的圖像特征能給在標(biāo)簽噪聲中學(xué)習(xí)帶來(lái)什么好處; (2)如何從噪聲數(shù)據(jù)中學(xué)到基于對(duì)比學(xué)習(xí)的圖像特征。在之后的實(shí)驗(yàn)部分，我們也展示了此方法可以和現(xiàn)有的帶噪學(xué)習(xí)的方法相結(jié)合，能進(jìn)一步提升模型的表現(xiàn)。這項(xiàng)研究已被 CVPR2022 接收。

分析

首先，我們觀測(cè)到模型在干凈的數(shù)據(jù)集和噪聲數(shù)據(jù)集下的表現(xiàn)是不同的。具體來(lái)說(shuō)，模型從干凈的數(shù)據(jù)集中學(xué)習(xí)，捕捉到的圖像信息是和干凈的標(biāo)簽相關(guān)的。模型從噪聲數(shù)據(jù)中學(xué)習(xí)，捕捉到的圖像信息是和噪聲標(biāo)簽相關(guān)的。下圖所顯示的是 Grad-CAM 可視化，在噪聲數(shù)據(jù)集中，對(duì)于被錯(cuò)標(biāo)的圖片來(lái)說(shuō)，模型會(huì)更加關(guān)注跟圖像真實(shí)標(biāo)簽無(wú)關(guān)的信息。當(dāng)數(shù)據(jù)集是干凈的情況下，模型會(huì)利用跟真實(shí)標(biāo)簽相關(guān)的信息去預(yù)測(cè)。

根據(jù)這項(xiàng)觀察，我們假設(shè)兩張正確標(biāo)記的相同標(biāo)簽的圖片所攜的關(guān)于干凈標(biāo)簽的信息應(yīng)該是很相關(guān)的，并且它們所攜帶的關(guān)于錯(cuò)誤標(biāo)簽的信息應(yīng)該是無(wú)關(guān)的?；诖思僭O(shè)，我們證明了學(xué)到的特征攜帶豐富的與干凈標(biāo)簽相關(guān)的信息，保證了模型不會(huì)欠擬合正確標(biāo)記的樣本。同時(shí)，此特征攜帶較少的與錯(cuò)誤標(biāo)簽相關(guān)的信息，保證了模型不會(huì)過(guò)擬合錯(cuò)標(biāo)的樣本。為了方便，我們記學(xué)到的最優(yōu)特征為 Z*。

為了驗(yàn)證 Z* 含有 (1) 豐富的與干凈標(biāo)簽相關(guān)的信息, 和 (2) 少量的與噪聲標(biāo)簽相關(guān)的信息，我們先用干凈的數(shù)據(jù)集訓(xùn)練圖像的特征模型，然后我們?cè)谔卣髂Ｐ蜕嫌脦г肼晿?biāo)簽的數(shù)據(jù)集訓(xùn)練一個(gè)線性分類器。作為對(duì)比，我們用 CE 損失函數(shù)在干凈的數(shù)據(jù)集上訓(xùn)練神經(jīng)網(wǎng)上并提取它的特征模型，然后在此特征上用同樣的噪聲數(shù)據(jù)集訓(xùn)練一個(gè)線性分類器。我們可以觀測(cè)到，線性分類器在基于對(duì)比學(xué)習(xí)的特征模型上表現(xiàn)更好，說(shuō)明對(duì)比學(xué)習(xí)下的圖像特征確實(shí)有效的防止了對(duì)噪聲標(biāo)簽的過(guò)擬合，同時(shí)也不會(huì)產(chǎn)生欠擬合的問(wèn)題。

算法

本節(jié)中，我們以 SimSiam 對(duì)比學(xué)習(xí)框架 [6] 為例，分析了如何在有標(biāo)簽噪聲的情況下學(xué)習(xí)特征模型。實(shí)際情況中，我們無(wú)法獲得每張圖片的真實(shí)標(biāo)簽。最自然的想法就是用模型的預(yù)測(cè)值作為樣本的偽標(biāo)簽，然后優(yōu)化公式：

這里是一個(gè) encoder， h是一個(gè) prediction MLP, p 是模型的概率輸出, 最后的指示函數(shù)是用來(lái)判斷兩個(gè)樣本的是否來(lái)自于同一類，τ 是超參數(shù)。從梯度的角度分析，優(yōu)化公式 1 將會(huì)導(dǎo)致錯(cuò)誤的樣本主導(dǎo)特征模型的學(xué)習(xí)。

根據(jù)之前的工作 [7] ，神經(jīng)網(wǎng)絡(luò)傾向于先擬合正確標(biāo)記的樣本，然后去擬合錯(cuò)誤標(biāo)記的樣本。我們讓兩個(gè)來(lái)自同類的干凈樣本為和另一個(gè)被錯(cuò)誤標(biāo)記為此類的樣本為 x_m 。在模型剛開(kāi)始訓(xùn)練的階段時(shí)，正確的樣本先被擬合。模型對(duì)的預(yù)測(cè)為并且容易產(chǎn)生。一旦，模型會(huì)使。過(guò)了模型訓(xùn)練的早期階段，模型會(huì)開(kāi)始擬合錯(cuò)誤的樣本x_m，使得模型對(duì)x_m的預(yù)測(cè)p_m慢慢靠近p_i并且最終。此時(shí)，模型會(huì)開(kāi)始拉近的特征，通過(guò)計(jì)算梯度，我們發(fā)現(xiàn)由錯(cuò)誤標(biāo)簽樣本產(chǎn)生的梯度已經(jīng)遠(yuǎn)遠(yuǎn)大于正確樣本產(chǎn)生的梯度。因此，如果采用公式 1 作為目標(biāo)函數(shù)，錯(cuò)標(biāo)的樣本主導(dǎo)了特征模型的學(xué)習(xí)。

我們從梯度的角度出發(fā)，在不改變目標(biāo)函數(shù)最優(yōu)解的情況下，防止了錯(cuò)標(biāo)的樣本主導(dǎo)模型的學(xué)習(xí)。我們提出新的目標(biāo)函數(shù)來(lái)學(xué)習(xí)特征模型：

類似的，我們分析其梯度

可以得出，由正確的樣本產(chǎn)生的梯度大于由錯(cuò)標(biāo)的樣本產(chǎn)生的梯度。這樣的特征模型的學(xué)將由正確標(biāo)記的樣本主導(dǎo)。實(shí)驗(yàn)中，我們也驗(yàn)證了，改進(jìn)后的目標(biāo)函數(shù)能帶來(lái)更好的表現(xiàn)。

實(shí)驗(yàn)

首先，我們?cè)?CIFAR 數(shù)據(jù)集中添加人工噪聲來(lái)驗(yàn)證提出的目標(biāo)函數(shù) 2，如下表 1-2 所示。在同樣噪聲下，我們的方法（CTRR）與其他 baselines 相比，取得了不錯(cuò)的結(jié)果，尤其是在噪聲很高的情況。

其次，我們也在兩個(gè)真實(shí)的噪聲數(shù)據(jù)集中測(cè)試了 CTRR 的效果，結(jié)果如下表 3 所示。在真實(shí)的噪聲數(shù)據(jù)集中，我們也得到了相同的結(jié)論。

除此之外，我們也對(duì)比了公式 1 和公式 2，如圖所示。我們?cè)?CIFAR-10 數(shù)據(jù)集中添加不同程度的噪聲，發(fā)現(xiàn)我們以提出的公式 2 作為目標(biāo)函數(shù)在不同程度的噪聲下始終優(yōu)于公式 1。

在我們的方法中，圖像特征的學(xué)習(xí)是基于 SimSiam 框架，但是實(shí)驗(yàn)顯示，我們的方法不限于 SimSiam 框架。如下表所示，CTRR 仍然可以在 SimCLR 和 BYOL 框架下使用。在 BYOL 框架下，CTRR 取得的效果更好。

本文的重點(diǎn)在于闡述如何從噪聲數(shù)據(jù)集中學(xué)到基于對(duì)比的圖像特征。但從提升效果的角度，CTRR 還有很大的進(jìn)步空間。首先，如表 6 所示，我們?cè)?CTRR 的基礎(chǔ)上，加入了基于標(biāo)簽糾正的技巧，發(fā)現(xiàn)模型在驗(yàn)證集上的準(zhǔn)確率都有不同程度的提升。其次，如表 7 所示，將 CTRR 和其他對(duì)噪聲魯棒的損失函數(shù) (例如 GCE) 結(jié)合起來(lái)使用將會(huì)帶來(lái)顯著的提升。

結(jié)論

本文從一種新的角度出發(fā)，提出了一種簡(jiǎn)單有效的方法解決模型過(guò)擬合噪聲的問(wèn)題。從理論角度出發(fā)，我們分析了基于對(duì)比的圖像特征本身對(duì)噪聲有一定程度的魯棒性。從算法角度出發(fā)，我們提出了對(duì)噪聲魯棒的的目標(biāo)函數(shù)來(lái)學(xué)習(xí)可靠的圖像特征。首先，通過(guò)一些實(shí)驗(yàn)我們驗(yàn)證了 CTRR 的有效性。其次，實(shí)驗(yàn)也顯示 CTRR 在不同的框架下也可以取得非常不錯(cuò)的效果，體現(xiàn)了 CTRR 的靈活性。最后，通過(guò)與不同方法的結(jié)合，CTRR 的性能還可以得到進(jìn)一步的提升。我們相信 CTRR 可以與更多的方法結(jié)合，來(lái)更好地解決數(shù)據(jù)中帶有噪聲標(biāo)簽的問(wèn)題。

參考文獻(xiàn)：

[1] Ghosh, A., Kumar, H., and Sastry, P. S. Robust loss functions under label noise for deep neural networks. In Proceedings of the AAAI conference on artificial intelligence, volume 31, 2017.

[2] Zhang, Z. and Sabuncu, M. R. Generalized cross entropy loss for training deep neural networks with noisy labels. In Advances in Neural Informa- tion Processing Systems, 2018.

[3] Wang, Y., Ma, X., Chen, Z., Luo, Y., Yi, J., and Bailey, J. Symmetric cross entropy for robust learning with noisy labels. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 322–330, 2019.

[4] Ma, X., Huang, H., Wang, Y., Romano, S., Erfani, S., and Bailey, J. Nor- malized loss functions for deep learning with noisy labels. In International Conference on Machine Learning, pp. 6543–6553. PMLR, 2020.

[5] Englesson, E. and Azizpour, H. Generalized jensen-shannon divergence loss for learning with noisy labels. Advances in Neural Information Processing Systems, 34, 2021.

[6] Chen, X. and He, K. Exploring simple siamese representation learning. In IEEE Conference on Computer Vision and Pattern Recognition, 20

[7] Liu, S., Niles-Weed, J., Razavian, N., and Fernandez-Granda, C. Early- learning regularization prevents memorization of noisy labels. Advances in neural information processing systems, 33:20331–20342, 2020.

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

CVPR 2022 | 應(yīng)對(duì)噪聲標(biāo)簽，西安大略大學(xué)、字節(jié)跳動(dòng)等提出對(duì)比正則化方法

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

CVPR 2022 | 應(yīng)對(duì)噪聲標(biāo)簽，西安大略大學(xué)、字節(jié)跳動(dòng)等提出對(duì)比正則化方法

相關(guān)推薦

技術(shù)專區(qū)

CVPR 2022 | 應(yīng)對(duì)噪聲標(biāo)簽，西安大略大學(xué)、字節(jié)跳動(dòng)等提出對(duì)比正則化方法