CVPR 2022 | 應(yīng)對(duì)噪聲標(biāo)簽,西安大略大學(xué)、字節(jié)跳動(dòng)等提出對(duì)比正則化方法
來(lái)自西安大略大學(xué)、紐約大學(xué)和字節(jié)跳動(dòng)的研究者回答了一個(gè)重要的問(wèn)題,即如何從帶有噪聲標(biāo)簽的數(shù)據(jù)集中學(xué)到可靠模型。
噪聲標(biāo)簽(Noisy labels)隨著深度學(xué)習(xí)研究的深入得到廣泛的關(guān)注,因?yàn)樵诒姸鄬?shí)際落地的場(chǎng)景模型的訓(xùn)練都離不開(kāi)真實(shí)可靠的標(biāo)簽信息。由于人工標(biāo)注誤差(專業(yè)性不足等問(wèn)題)、數(shù)據(jù)原始噪聲,帶噪聲的數(shù)據(jù)不可避免,清洗數(shù)據(jù)的工作也是更加困難。
在有監(jiān)督的圖像分類問(wèn)題中,經(jīng)典的 cross-entropy (CE) 損失函數(shù)是最為廣泛應(yīng)用的函數(shù)之一。當(dāng)數(shù)據(jù)集不存在任何的噪聲標(biāo)簽的時(shí)候,它往往能帶來(lái)非常不錯(cuò)的效果。然而,當(dāng)數(shù)據(jù)集中存在噪聲標(biāo)簽的時(shí)候,它會(huì)導(dǎo)致模型對(duì)噪聲標(biāo)簽過(guò)擬合,使模型的泛化性變差。本文從對(duì)比學(xué)習(xí)的角度研究了如何通過(guò)約束圖像的特征來(lái)防止模型對(duì)噪聲標(biāo)簽的過(guò)擬合。
現(xiàn)有的解決噪聲標(biāo)簽的問(wèn)題有基于 robust regularization, label correction, loss reweighting, 和 robust loss functions 等。本文的研究動(dòng)機(jī)源于 robust loss functions。為了防止模型對(duì)噪聲標(biāo)簽過(guò)擬合,現(xiàn)有的對(duì)噪聲魯棒的損失函數(shù)(mean absolute error (MAE)[1,2],reverse cross-entropy loss (RCE) [3] 等)在一定程度上解決了噪聲標(biāo)簽過(guò)擬合的同時(shí),也存在對(duì)數(shù)據(jù)欠擬合的問(wèn)題[4,5]。在實(shí)際應(yīng)用中,這些對(duì)噪聲魯棒的損失函數(shù)是結(jié)合 CE 一起使用的,而 CE 容易造成對(duì)噪聲數(shù)據(jù)的過(guò)擬合問(wèn)題。因此我們思考,能否僅僅通過(guò)約束圖像的特征,使整個(gè)模型仍然可以用 CE 訓(xùn)練且不受噪聲標(biāo)簽的影響。
近期,來(lái)自西安大略大學(xué),紐約大學(xué)以及字節(jié)跳動(dòng)的學(xué)者們研究了如何從帶有噪聲標(biāo)簽的數(shù)據(jù)集中學(xué)到可靠的模型,這一基礎(chǔ)且重要的問(wèn)題。本工作主要由西安大略大學(xué)統(tǒng)計(jì)及精算系的易立完成,通訊作者為西安大略大學(xué)計(jì)算機(jī)系的助理教授王博予。
論文地址:https://arxiv.org/abs/2203.01785
本文主要回答了兩個(gè)問(wèn)題:(1)基于對(duì)比學(xué)習(xí)得到的圖像特征能給在標(biāo)簽噪聲中學(xué)習(xí)帶來(lái)什么好處; (2)如何從噪聲數(shù)據(jù)中學(xué)到基于對(duì)比學(xué)習(xí)的圖像特征。在之后的實(shí)驗(yàn)部分,我們也展示了此方法可以和現(xiàn)有的帶噪學(xué)習(xí)的方法相結(jié)合,能進(jìn)一步提升模型的表現(xiàn)。這項(xiàng)研究已被 CVPR2022 接收。
分析
首先,我們觀測(cè)到模型在干凈的數(shù)據(jù)集和噪聲數(shù)據(jù)集下的表現(xiàn)是不同的。具體來(lái)說(shuō),模型從干凈的數(shù)據(jù)集中學(xué)習(xí),捕捉到的圖像信息是和干凈的標(biāo)簽相關(guān)的。模型從噪聲數(shù)據(jù)中學(xué)習(xí),捕捉到的圖像信息是和噪聲標(biāo)簽相關(guān)的。下圖所顯示的是 Grad-CAM 可視化,在噪聲數(shù)據(jù)集中,對(duì)于被錯(cuò)標(biāo)的圖片來(lái)說(shuō),模型會(huì)更加關(guān)注跟圖像真實(shí)標(biāo)簽無(wú)關(guān)的信息。當(dāng)數(shù)據(jù)集是干凈的情況下,模型會(huì)利用跟真實(shí)標(biāo)簽相關(guān)的信息去預(yù)測(cè)。
根據(jù)這項(xiàng)觀察,我們假設(shè)兩張正確標(biāo)記的相同標(biāo)簽的圖片所攜的關(guān)于干凈標(biāo)簽的信息應(yīng)該是很相關(guān)的,并且它們所攜帶的關(guān)于錯(cuò)誤標(biāo)簽的信息應(yīng)該是無(wú)關(guān)的?;诖思僭O(shè),我們證明了學(xué)到的特征攜帶豐富的與干凈標(biāo)簽相關(guān)的信息,保證了模型不會(huì)欠擬合正確標(biāo)記的樣本。同時(shí),此特征攜帶較少的與錯(cuò)誤標(biāo)簽相關(guān)的信息,保證了模型不會(huì)過(guò)擬合錯(cuò)標(biāo)的樣本。為了方便,我們記學(xué)到的最優(yōu)特征為 Z*。
為了驗(yàn)證 Z* 含有 (1) 豐富的與干凈標(biāo)簽相關(guān)的信息, 和 (2) 少量的與噪聲標(biāo)簽相關(guān)的信息,我們先用干凈的數(shù)據(jù)集訓(xùn)練圖像的特征模型,然后我們?cè)谔卣髂P蜕嫌脦г肼晿?biāo)簽的數(shù)據(jù)集訓(xùn)練一個(gè)線性分類器。作為對(duì)比,我們用 CE 損失函數(shù)在干凈的數(shù)據(jù)集上訓(xùn)練神經(jīng)網(wǎng)上并提取它的特征模型,然后在此特征上用同樣的噪聲數(shù)據(jù)集訓(xùn)練一個(gè)線性分類器。我們可以觀測(cè)到,線性分類器在基于對(duì)比學(xué)習(xí)的特征模型上表現(xiàn)更好,說(shuō)明對(duì)比學(xué)習(xí)下的圖像特征確實(shí)有效的防止了對(duì)噪聲標(biāo)簽的過(guò)擬合,同時(shí)也不會(huì)產(chǎn)生欠擬合的問(wèn)題。
算法
本節(jié)中,我們以 SimSiam 對(duì)比學(xué)習(xí)框架 [6] 為例,分析了如何在有標(biāo)簽噪聲的情況下學(xué)習(xí)特征模型。實(shí)際情況中,我們無(wú)法獲得每張圖片的真實(shí)標(biāo)簽。最自然的想法就是用模型的預(yù)測(cè)值作為樣本的偽標(biāo)簽,然后優(yōu)化公式:
這里是一個(gè) encoder, h是一個(gè) prediction MLP, p 是模型的概率輸出, 最后的指示函數(shù)是用來(lái)判斷兩個(gè)樣本的是否來(lái)自于同一類,τ 是超參數(shù)。從梯度的角度分析,優(yōu)化公式 1 將會(huì)導(dǎo)致錯(cuò)誤的樣本主導(dǎo)特征模型的學(xué)習(xí)。
根據(jù)之前的工作 [7] ,神經(jīng)網(wǎng)絡(luò)傾向于先擬合正確標(biāo)記的樣本,然后去擬合錯(cuò)誤標(biāo)記的樣本。我們讓兩個(gè)來(lái)自同類的干凈樣本為和另一個(gè)被錯(cuò)誤標(biāo)記為此類的樣本為 x_m 。在模型剛開(kāi)始訓(xùn)練的階段時(shí),正確的樣本先被擬合。模型對(duì)的預(yù)測(cè)為并且容易產(chǎn)生。一旦, 模型會(huì)使。過(guò)了模型訓(xùn)練的早期階段,模型會(huì)開(kāi)始擬合錯(cuò)誤的樣本x_m,使得模型對(duì)x_m的預(yù)測(cè)p_m慢慢靠近p_i并且最終。此時(shí), 模型會(huì)開(kāi)始拉近的特征,通過(guò)計(jì)算梯度,我們發(fā)現(xiàn)由錯(cuò)誤標(biāo)簽樣本產(chǎn)生的梯度已經(jīng)遠(yuǎn)遠(yuǎn)大于正確樣本產(chǎn)生的梯度。因此,如果采用公式 1 作為目標(biāo)函數(shù),錯(cuò)標(biāo)的樣本主導(dǎo)了特征模型的學(xué)習(xí)。
我們從梯度的角度出發(fā),在不改變目標(biāo)函數(shù)最優(yōu)解的情況下,防止了錯(cuò)標(biāo)的樣本主導(dǎo)模型的學(xué)習(xí)。我們提出新的目標(biāo)函數(shù)來(lái)學(xué)習(xí)特征模型:
類似的,我們分析其梯度
可以得出,由正確的樣本產(chǎn)生的梯度大于由錯(cuò)標(biāo)的樣本產(chǎn)生的梯度。這樣的特征模型的學(xué)將由正確標(biāo)記的樣本主導(dǎo)。實(shí)驗(yàn)中,我們也驗(yàn)證了,改進(jìn)后的目標(biāo)函數(shù)能帶來(lái)更好的表現(xiàn)。
實(shí)驗(yàn)
首先,我們?cè)?CIFAR 數(shù)據(jù)集中添加人工噪聲來(lái)驗(yàn)證提出的目標(biāo)函數(shù) 2,如下表 1-2 所示。在同樣噪聲下,我們的方法(CTRR)與其他 baselines 相比,取得了不錯(cuò)的結(jié)果,尤其是在噪聲很高的情況。
其次,我們也在兩個(gè)真實(shí)的噪聲數(shù)據(jù)集中測(cè)試了 CTRR 的效果,結(jié)果如下表 3 所示。在真實(shí)的噪聲數(shù)據(jù)集中,我們也得到了相同的結(jié)論。
除此之外,我們也對(duì)比了公式 1 和公式 2,如圖所示。我們?cè)?CIFAR-10 數(shù)據(jù)集中添加不同程度的噪聲,發(fā)現(xiàn)我們以提出的公式 2 作為目標(biāo)函數(shù)在不同程度的噪聲下始終優(yōu)于公式 1。
在我們的方法中,圖像特征的學(xué)習(xí)是基于 SimSiam 框架,但是實(shí)驗(yàn)顯示,我們的方法不限于 SimSiam 框架。如下表所示,CTRR 仍然可以在 SimCLR 和 BYOL 框架下使用。在 BYOL 框架下,CTRR 取得的效果更好。
本文的重點(diǎn)在于闡述如何從噪聲數(shù)據(jù)集中學(xué)到基于對(duì)比的圖像特征。但從提升效果的角度,CTRR 還有很大的進(jìn)步空間。首先,如表 6 所示,我們?cè)?CTRR 的基礎(chǔ)上,加入了基于標(biāo)簽糾正的技巧,發(fā)現(xiàn)模型在驗(yàn)證集上的準(zhǔn)確率都有不同程度的提升。其次,如表 7 所示,將 CTRR 和其他對(duì)噪聲魯棒的損失函數(shù) (例如 GCE) 結(jié)合起來(lái)使用將會(huì)帶來(lái)顯著的提升。
結(jié)論
本文從一種新的角度出發(fā),提出了一種簡(jiǎn)單有效的方法解決模型過(guò)擬合噪聲的問(wèn)題。從理論角度出發(fā),我們分析了基于對(duì)比的圖像特征本身對(duì)噪聲有一定程度的魯棒性。從算法角度出發(fā),我們提出了對(duì)噪聲魯棒的的目標(biāo)函數(shù)來(lái)學(xué)習(xí)可靠的圖像特征。首先,通過(guò)一些實(shí)驗(yàn)我們驗(yàn)證了 CTRR 的有效性。其次,實(shí)驗(yàn)也顯示 CTRR 在不同的框架下也可以取得非常不錯(cuò)的效果,體現(xiàn)了 CTRR 的靈活性。最后,通過(guò)與不同方法的結(jié)合,CTRR 的性能還可以得到進(jìn)一步的提升。我們相信 CTRR 可以與更多的方法結(jié)合,來(lái)更好地解決數(shù)據(jù)中帶有噪聲標(biāo)簽的問(wèn)題。
參考文獻(xiàn):
[1] Ghosh, A., Kumar, H., and Sastry, P. S. Robust loss functions under label noise for deep neural networks. In Proceedings of the AAAI conference on artificial intelligence, volume 31, 2017.
[2] Zhang, Z. and Sabuncu, M. R. Generalized cross entropy loss for training deep neural networks with noisy labels. In Advances in Neural Informa- tion Processing Systems, 2018.
[3] Wang, Y., Ma, X., Chen, Z., Luo, Y., Yi, J., and Bailey, J. Symmetric cross entropy for robust learning with noisy labels. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 322–330, 2019.
[4] Ma, X., Huang, H., Wang, Y., Romano, S., Erfani, S., and Bailey, J. Nor- malized loss functions for deep learning with noisy labels. In International Conference on Machine Learning, pp. 6543–6553. PMLR, 2020.
[5] Englesson, E. and Azizpour, H. Generalized jensen-shannon divergence loss for learning with noisy labels. Advances in Neural Information Processing Systems, 34, 2021.
[6] Chen, X. and He, K. Exploring simple siamese representation learning. In IEEE Conference on Computer Vision and Pattern Recognition, 20
[7] Liu, S., Niles-Weed, J., Razavian, N., and Fernandez-Granda, C. Early- learning regularization prevents memorization of noisy labels. Advances in neural information processing systems, 33:20331–20342, 2020.
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。