圖靈獎(jiǎng)得主Yann LeCun:我的論文也被NeurIPS拒了
雙盲評(píng)審之下,圖靈獎(jiǎng)得主的論文也會(huì)被拒。
上周,全球人工智能頂會(huì) NeurIPS 2021 放出了今年的論文接收結(jié)果。正所謂有人歡喜有人憂,但也有人處于「歡喜」和「憂愁」之外的另一種狀態(tài)——被拒絕之后的「proud」。
這位擁有獨(dú)特心境的研究者便是大名鼎鼎的 Facebook 首席 AI 科學(xué)家、2018 年圖靈獎(jiǎng)得主 Yann LeCun。
被拒絕的論文標(biāo)題為《VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning 》。LeCun 表示,在這篇論文中,他們提出了一種極其簡(jiǎn)單、高效的方法,用于聯(lián)合嵌入(joint-embedding)架構(gòu)的自監(jiān)督訓(xùn)練。
VICReg 論文鏈接:https://arxiv.org/pdf/2105.04906.pdf
而領(lǐng)域主席給出的拒稿理由是:與 LeCun 等人之前發(fā)表于 ICML 2021 上的「Barlow Twins」論文相比,這篇「VICReg」提出的改進(jìn)還不夠大。
Barlow Twins 論文鏈接:https://arxiv.org/pdf/2103.03230.pdf
但 LeCun 似乎并不這么認(rèn)為,他表示,VICReg 引入了方差正則化,這使得它適用于更廣泛的架構(gòu)。
因此,在 LeCun 看來(lái),他們的論文有足夠的創(chuàng)新之處,被拒絕并不是什么丟人的事。「一些最具影響力的論文被拒絕過(guò)多次,比如 David Lowe 著名的 SIFT,」LeCun 在 twitter 上寫(xiě)道。
對(duì)于「不要放棄」之類的鼓勵(lì),LeCun 給出的回應(yīng)是:「我的整個(gè)職業(yè)生涯都是基于『不放棄』的,現(xiàn)在也不會(huì)改變?!箤?duì)于 LeCun 這種連「AI 寒冬」都經(jīng)歷過(guò)的人,個(gè)別研究不被肯定又算得了什么。
不過(guò),對(duì)于普通研究者來(lái)說(shuō),LeCun 論文被拒讓人看到了頂會(huì)審稿機(jī)制透明的一面:看來(lái)雙盲評(píng)審還是有一定公平性的。
而且,審稿結(jié)果似乎并沒(méi)有被網(wǎng)絡(luò)上的宣傳所左右:該論文今年 5 月份就出現(xiàn)在了 arXiv 上,而且 LeCun 發(fā)表推特進(jìn)行了宣傳。在 LeCun 看來(lái),這是一種正常的學(xué)術(shù)信息交流,有利于技術(shù)進(jìn)步。但不可忽略的一點(diǎn)是:在各種「交流」渠道中,不同地位的研究者所占有的資源是非常懸殊的,這難免造成一些不公平,讓本身就很有學(xué)術(shù)號(hào)召力的研究者從中獲益。
不過(guò),具體到「VICReg」這篇論文是否應(yīng)該被接收,我們還是要看一下論文的具體內(nèi)容。
「 VICReg 」是個(gè)什么方法
自監(jiān)督表征學(xué)習(xí)在過(guò)去幾年取得了重大進(jìn)展,在許多下游任務(wù)上幾乎達(dá)到了監(jiān)督學(xué)習(xí)方法的性能。雖然可以顯式地防止崩潰(collapse),但許多方法都存在成本高昂的問(wèn)題,需要大量?jī)?nèi)存和較大的批大小。
還有一些方法雖然有效,但是依賴于難以解釋的架構(gòu)技巧。已有一些研究提供了關(guān)于如何通過(guò)非對(duì)稱方法避免崩潰的理論分析,但還遠(yuǎn)不完備,并且這些方法可能不適用于其他自監(jiān)督學(xué)習(xí)場(chǎng)景。最后,冗余減少(redundancy reduction)的方法通過(guò)對(duì)表征的維度進(jìn)行去相關(guān)(decorrelate)操作來(lái)避免崩潰,從而使表征能夠最大限度地提供有關(guān)其相應(yīng)輸入的信息。這些方法的性能良好,能夠?qū)W習(xí)有意義的表征,在去相關(guān)的同時(shí)保留表征的方差,但所有這些都使用一個(gè)唯一的目標(biāo)函數(shù)。VICReg 的研究提出將目標(biāo)分解為三個(gè)獨(dú)立的目標(biāo)函數(shù),且每個(gè)目標(biāo)函數(shù)都有明確的解釋。
在這篇論文中,研究者提出了一種新的自監(jiān)督算法——VICReg(Variance-Invariance-Covariance Regularization,方差 - 不變性 - 協(xié)方差正則化),用于學(xué)習(xí)基于三個(gè)簡(jiǎn)單 principle(方差、不變性和協(xié)方差)的圖像表征,這些 principle 有明確的目標(biāo)和解釋。
方差 principle 獨(dú)立地約束每個(gè)維度上嵌入的方差,是一種簡(jiǎn)單而有效的防止崩潰的方法。更準(zhǔn)確地說(shuō),研究者使用 hinge loss 來(lái)約束沿嵌入的批維度計(jì)算的標(biāo)準(zhǔn)差,以達(dá)到固定目標(biāo)。與對(duì)比方法不同,這里不需要 negative pair,嵌入被隱式地鼓勵(lì)不同于彼此,而且它們之間沒(méi)有任何直接的比較。
不變性 principle 使用標(biāo)準(zhǔn)的均方歐氏距離來(lái)學(xué)習(xí)對(duì)一張圖像多個(gè)視圖的不變性。
最后,協(xié)方差 principle 借鑒了 Barlow Twins 的協(xié)方差 criterion,后者將學(xué)習(xí)表征的不同維度去相關(guān),目標(biāo)是在維度之間傳播信息,避免維度崩潰。這個(gè) criterion 主要是懲罰嵌入的協(xié)方差矩陣的非對(duì)角系數(shù)。
在 SimCLR 中,negative pair 由批給出,這意味著該方法嚴(yán)重依賴于批大小。而 VICReg 則沒(méi)有這種依賴性。與 Barlow Twin 類似,VICReg 也不需要 siamese 權(quán)重差異。此外,VICReg 架構(gòu)是對(duì)稱的,并且無(wú)需 SimSiam 的停止梯度(stop-gradient)操作、BYOL 的動(dòng)量編碼器(momentum encoder)以及二者均用到的預(yù)測(cè)器。與之前用于表征學(xué)習(xí)的任何自監(jiān)督方法都不同,VICReg 的損失函數(shù)中不需要對(duì)嵌入進(jìn)行任何形式的歸一化,這使得該方法相對(duì)簡(jiǎn)單。
實(shí)驗(yàn)結(jié)果
在很多下游任務(wù)中,研究者通過(guò)評(píng)估 VICReg 方法學(xué)到的表征來(lái)測(cè)試其有效性。這些任務(wù)包括:ImageNet 線性和半監(jiān)督評(píng)估以及其他一些分類、檢測(cè)和實(shí)例分割任務(wù)。他們進(jìn)一步表明,在更復(fù)雜的架構(gòu)和其他自監(jiān)督表征學(xué)習(xí)方法中加入文中提出的方差正則化,可以更好地提高下游任務(wù)的訓(xùn)練穩(wěn)定性和性能。可以說(shuō),VICReg 是自監(jiān)督聯(lián)合嵌入學(xué)習(xí)中防止崩塌的一種簡(jiǎn)單、有效的可解釋方法。
圖 1:在 ImageNet 上的評(píng)估結(jié)果。
圖 2:在下游任務(wù)上的遷移學(xué)習(xí)結(jié)果。
圖 3:在不同架構(gòu)中加入方差和協(xié)方差正則化的效果。
圖 4:消融研究結(jié)果。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。