CVPR 2022丨清華大學(xué)提出:無監(jiān)督域泛化 (UDG)
導(dǎo)讀
近日,清華大學(xué)崔鵬團(tuán)隊(duì)在CVPR 2022上發(fā)表了一篇工作,針對傳統(tǒng)域泛化 (DG) 問題需要大量有標(biāo)簽數(shù)據(jù)的問題,提出了無監(jiān)督域泛化 (UDG) 問題,旨在通過利用無標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練提升模型在未知域上的泛化能力,并為 UDG 提出了 DARLING 算法。該算法僅使用ImageNet 數(shù)據(jù)量 1/10 的無標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練即可在DomainNet上超過ImageNet預(yù)訓(xùn)練的效果。
1 DG簡介&現(xiàn)有DG的問題
目前深度學(xué)習(xí)在很多研究領(lǐng)域特別是計(jì)算機(jī)視覺領(lǐng)域取得了前所未有的進(jìn)展,而大部分深度學(xué)習(xí)算法假設(shè)訓(xùn)練數(shù)據(jù)(應(yīng)用前可獲取的數(shù)據(jù))和測試數(shù)據(jù)(實(shí)際應(yīng)用中遇到的實(shí)例)是獨(dú)立同分布的。當(dāng)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)分布不同時(shí),傳統(tǒng)深度模型對訓(xùn)練數(shù)據(jù)的充分?jǐn)M合會(huì)造成其在測試數(shù)據(jù)上的預(yù)測失敗,進(jìn)而導(dǎo)致模型應(yīng)用于不同環(huán)境時(shí)的可信度降低。
圖1. 傳統(tǒng)DG越來越多的研究者開始研究模型遷移到未知分布數(shù)據(jù)的域泛化問題 (Domain Generalization, DG),如圖1所示。域泛化問題旨在通過模型對多個(gè)源域數(shù)據(jù)的學(xué)習(xí)來提高在未知目標(biāo)域上的預(yù)測表現(xiàn)。
許多現(xiàn)有DG方法都依賴于充分的訓(xùn)練數(shù)據(jù)學(xué)習(xí)跨域不變的表征,但人工標(biāo)注大量跨域數(shù)據(jù)開銷極大或難以實(shí)現(xiàn)(比如醫(yī)療圖片等特殊領(lǐng)域標(biāo)注難度大,成本高)。并且現(xiàn)有DG算法均默認(rèn)使用ImageNet上預(yù)訓(xùn)練的參數(shù)作為模型的初始化,而ImageNet作為若干個(gè)域的混合體,用作預(yù)訓(xùn)練可能會(huì)給模型引入偏差。例如對于DG的一個(gè)benchmark PACS數(shù)據(jù)集來說,ImageNet相當(dāng)于其中的”photo”域,對于DomainNet數(shù)據(jù)集來說ImageNet相當(dāng)于其中的”real”域,所以這個(gè)有類別標(biāo)注的預(yù)訓(xùn)練過程相當(dāng)于在DG數(shù)據(jù)中的一個(gè)域上進(jìn)行,會(huì)引入在域上的偏差 (比如幾乎所有的方法在”photo”和”real”域上的表現(xiàn)都是最好的)。
2 無監(jiān)督預(yù)泛化 (UDG) 問題為了減少提升模型泛化能力對有標(biāo)注的跨域數(shù)據(jù)的依賴,本文提出無監(jiān)督域泛化問題,旨在使用無類別標(biāo)注的數(shù)據(jù)提高模型在未知域上的泛化能力。實(shí)驗(yàn)證明使用異質(zhì)性數(shù)據(jù)進(jìn)行合適地?zé)o監(jiān)督預(yù)訓(xùn)練在DG上的表現(xiàn)優(yōu)于ImageNet 預(yù)訓(xùn)練策略。
無監(jiān)督域泛化 (UDG) 問題如圖2所示。在UDG中,為了避免ImageNet等預(yù)訓(xùn)練數(shù)據(jù)對DG問題帶來的偏置,模型均采用隨機(jī)初始化。模型使用用來自不同源域的無標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,學(xué)到表征空間。然后模型在有類別標(biāo)簽的源域數(shù)據(jù)上進(jìn)行訓(xùn)練,微調(diào)表征空間和學(xué)習(xí)分類器,最終在未見過的目標(biāo)域上進(jìn)行測試。預(yù)訓(xùn)練和訓(xùn)練數(shù)據(jù)的域之間可以有重疊,而所有訓(xùn)練數(shù)據(jù) (包括有標(biāo)簽和無標(biāo)簽數(shù)據(jù)) 和測試數(shù)據(jù)之間沒有域重疊。用于finetuning的有標(biāo)簽數(shù)據(jù)與測試數(shù)據(jù)共享相同的類別空間以支持模型學(xué)習(xí)表征到被別的映射。
圖2. 無監(jiān)督域泛化 (UDG) 問題3 方法設(shè)計(jì)近年來,自監(jiān)督學(xué)習(xí) (self-supervised learning) 取得了長足發(fā)展,以SimCLR v2、MoCo v2為代表的自監(jiān)督學(xué)習(xí)算法利用大量互聯(lián)網(wǎng)中易獲取的無標(biāo)簽數(shù)據(jù)學(xué)習(xí)表征空間,消除了模型預(yù)訓(xùn)練對有標(biāo)簽數(shù)據(jù)的依賴,并在很多下游任務(wù)中超過了ImageNet預(yù)訓(xùn)練的效果。
一個(gè)直接的思路是將自監(jiān)督學(xué)習(xí)的算法應(yīng)用到無監(jiān)督域泛化 (UDG) 問題中,從而利用大量易獲取的無標(biāo)簽數(shù)據(jù)提高模型在未知領(lǐng)域上的泛化能力。而在UDG中,用以預(yù)訓(xùn)練的數(shù)據(jù)中存在強(qiáng)異質(zhì)性,所以直接使用對比學(xué)習(xí)的方法會(huì)導(dǎo)致模型學(xué)習(xí)到域相關(guān)的特征而非物體類別相關(guān)的特征,所以在未見過的目標(biāo)域上測試時(shí)無法準(zhǔn)確識(shí)別物體類別。具體來說,對比學(xué)習(xí)的關(guān)鍵在于區(qū)分負(fù)樣本對中的不同圖片,如果負(fù)樣本對中的圖片來自不同的域,且這兩種域非常容易區(qū)分 (如簡筆畫域與照片域),則模型很容易根據(jù)域相關(guān)的特征來區(qū)分負(fù)樣本對中的圖片而不需學(xué)到真正對下游任務(wù)有效的信息 (如物體類別的特征),所以這樣學(xué)出來的特征空間在下游任務(wù)上表現(xiàn)較差。
基于以上的觀察,本文提出了Domain-Aware Representation LearnING (DARLING) 算法來解決UDG預(yù)訓(xùn)練數(shù)據(jù)中顯著且誤導(dǎo)性的跨域異質(zhì)性,學(xué)習(xí)與域無關(guān)而與物體相關(guān)的特征。DARLING的結(jié)構(gòu)圖3所示。
圖3. DARLING 結(jié)構(gòu)圖如前所述,現(xiàn)有對比學(xué)習(xí)方法采用的contrastive loss并未考慮數(shù)據(jù)中異質(zhì)性的影響,即其計(jì)算方式為
其中 為負(fù)樣本隊(duì)列, 與 為同一張圖片經(jīng)過兩種預(yù)處理和編碼得到的特征向量。而 DARLING考慮了負(fù)樣本對中域差異的影響, 所以圖片偽標(biāo)簽 (pseudo label) 的產(chǎn)生機(jī)制可建模為
其中 為域d中的樣本索引的集合。進(jìn)而每張圖片域的產(chǎn)生機(jī)制可建模為
其中函數(shù)h可以由一個(gè)參數(shù)為 的卷積神經(jīng)網(wǎng)絡(luò)代表。故給定每個(gè)輸入樣本 后, 其偽標(biāo)簽的 預(yù)測概率可表示為
故DARLING的對比損失函數(shù)可表示為
從直覺上講,一個(gè)負(fù)樣本對中的兩個(gè)樣本的“域相關(guān)”的特征越接近,網(wǎng)絡(luò)學(xué)習(xí)區(qū)分它們就會(huì)利用更多“域無關(guān)”的特征,所以由這種負(fù)樣本對產(chǎn)生的訓(xùn)練損失權(quán)重應(yīng)該較高;而反之當(dāng)一個(gè)負(fù)樣本對中的兩個(gè)樣本“域相關(guān)”的特征區(qū)別足夠顯著,則網(wǎng)絡(luò)更傾向于利用“域相關(guān)”的特征進(jìn)一步推遠(yuǎn)它們在表征空間中的距離,而這不利于下游任務(wù),所以這種負(fù)樣本對的損失權(quán)重應(yīng)該降低。
DARLING利用一個(gè)子網(wǎng)絡(luò)學(xué)習(xí)負(fù)樣本對的域相似程度,并以之為其訓(xùn)練損失加權(quán)。極端情況下,如果每個(gè)負(fù)樣本對中的兩個(gè)樣本都來自于同一個(gè)域,那么網(wǎng)絡(luò)只能使用“域無關(guān)”的特征將其區(qū)分,所以學(xué)到的特征就關(guān)注于物體類別相關(guān)的特征。
另外,作為一個(gè)無監(jiān)督預(yù)訓(xùn)練方法,DARLING學(xué)到的參數(shù)可以作為模型初始化與現(xiàn)有所有DG算法融合而進(jìn)一步提升模型的泛化能力。
4 實(shí)驗(yàn)結(jié)果本文在PACS,DomainNet和CIFAR-C等數(shù)據(jù)集上驗(yàn)證了UDG問題的意義以及DARLING方法的有效性。
如表1所示,在DomainNet上,DARLING的表現(xiàn)優(yōu)于所有現(xiàn)有SOTA無監(jiān)督/自監(jiān)督學(xué)習(xí)算法,且當(dāng)預(yù)訓(xùn)練數(shù)據(jù)的類別數(shù)量越高時(shí),DARLING相對于其他方法的提升越明顯。
表1. DomainNet數(shù)據(jù)集結(jié)果表2為DARLING與各SOTA算法在CIFAR-C上的結(jié)果,由于CIFAR-C中的域個(gè)數(shù)更多,所以我們可以使得預(yù)訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)三者間不存在域重合且預(yù)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)不存在類別重合,以完全避免預(yù)訓(xùn)練中任何情況的域信息或類別信息泄漏。DARLING在所有測試域上均超過了現(xiàn)有SOTA算法。
表2. CIFAR-C數(shù)據(jù)集結(jié)果表3為DARLING與現(xiàn)有DG算法結(jié)合后在DomainNet上的結(jié)果,DARLING作為預(yù)訓(xùn)練模型初始化可以顯著提高現(xiàn)有DG算法的泛化能力。
表3. DARLING與現(xiàn)有DG方法結(jié)合圖4為DARLING與ImageNet預(yù)訓(xùn)練的對比,當(dāng)參與預(yù)訓(xùn)練的數(shù)據(jù)中物體類別超過100時(shí)DARLING的表現(xiàn)優(yōu)于ImageNet預(yù)訓(xùn)練。請注意當(dāng)物體類別數(shù)量為100時(shí)用于DARLING預(yù)訓(xùn)練的數(shù)據(jù)量和類別數(shù)量只有ImageNet的1/10,且這些數(shù)據(jù)是沒有類別標(biāo)簽的。這充分說明了使用ImageNet預(yù)訓(xùn)練作為DG算法的初始化并非最好選擇,使用遠(yuǎn)小于ImageNet數(shù)據(jù)量的UDG算法即可超越ImageNet預(yù)訓(xùn)練的效果,這也為未來的UDG算法提供了基礎(chǔ)與展望的空間。
圖4. 與ImageNet預(yù)訓(xùn)練對比5 總結(jié)無監(jiān)督域泛化 (UDG) 問題不僅減輕了DG算法對有標(biāo)簽數(shù)據(jù)的依賴,且僅使用少量無標(biāo)簽數(shù)據(jù) (1/10) 就可以達(dá)到與ImageNet 預(yù)訓(xùn)練類似的效果,這充分說明ImageNet預(yù)訓(xùn)練并非DG算法初始化的最優(yōu)選擇,且為未來研究預(yù)訓(xùn)練方法對模型泛化能力的影響提供了啟發(fā)與基礎(chǔ)。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。