圖靈獎(jiǎng)得主Yann LeCun：我的論文也被NeurIPS拒了

發(fā)布人：機(jī)器之心時(shí)間：2021-10-07 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

雙盲評(píng)審之下，圖靈獎(jiǎng)得主的論文也會(huì)被拒。

上周，全球人工智能頂會(huì) NeurIPS 2021 放出了今年的論文接收結(jié)果。正所謂有人歡喜有人憂，但也有人處于「歡喜」和「憂愁」之外的另一種狀態(tài)——被拒絕之后的「proud」。

這位擁有獨(dú)特心境的研究者便是大名鼎鼎的 Facebook 首席 AI 科學(xué)家、2018 年圖靈獎(jiǎng)得主 Yann LeCun。

被拒絕的論文標(biāo)題為《VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning 》。LeCun 表示，在這篇論文中，他們提出了一種極其簡(jiǎn)單、高效的方法，用于聯(lián)合嵌入（joint-embedding）架構(gòu)的自監(jiān)督訓(xùn)練。

VICReg 論文鏈接：https://arxiv.org/pdf/2105.04906.pdf

而領(lǐng)域主席給出的拒稿理由是：與 LeCun 等人之前發(fā)表于 ICML 2021 上的「Barlow Twins」論文相比，這篇「VICReg」提出的改進(jìn)還不夠大。

Barlow Twins 論文鏈接：https://arxiv.org/pdf/2103.03230.pdf

但 LeCun 似乎并不這么認(rèn)為，他表示，VICReg 引入了方差正則化，這使得它適用于更廣泛的架構(gòu)。

因此，在 LeCun 看來(lái)，他們的論文有足夠的創(chuàng)新之處，被拒絕并不是什么丟人的事。「一些最具影響力的論文被拒絕過(guò)多次，比如 David Lowe 著名的 SIFT，」LeCun 在 twitter 上寫(xiě)道。

對(duì)于「不要放棄」之類的鼓勵(lì)，LeCun 給出的回應(yīng)是：「我的整個(gè)職業(yè)生涯都是基于『不放棄』的，現(xiàn)在也不會(huì)改變?！箤?duì)于 LeCun 這種連「AI 寒冬」都經(jīng)歷過(guò)的人，個(gè)別研究不被肯定又算得了什么。

不過(guò)，對(duì)于普通研究者來(lái)說(shuō)，LeCun 論文被拒讓人看到了頂會(huì)審稿機(jī)制透明的一面：看來(lái)雙盲評(píng)審還是有一定公平性的。

而且，審稿結(jié)果似乎并沒(méi)有被網(wǎng)絡(luò)上的宣傳所左右：該論文今年 5 月份就出現(xiàn)在了 arXiv 上，而且 LeCun 發(fā)表推特進(jìn)行了宣傳。在 LeCun 看來(lái)，這是一種正常的學(xué)術(shù)信息交流，有利于技術(shù)進(jìn)步。但不可忽略的一點(diǎn)是：在各種「交流」渠道中，不同地位的研究者所占有的資源是非常懸殊的，這難免造成一些不公平，讓本身就很有學(xué)術(shù)號(hào)召力的研究者從中獲益。

不過(guò)，具體到「VICReg」這篇論文是否應(yīng)該被接收，我們還是要看一下論文的具體內(nèi)容。

「 VICReg 」是個(gè)什么方法

自監(jiān)督表征學(xué)習(xí)在過(guò)去幾年取得了重大進(jìn)展，在許多下游任務(wù)上幾乎達(dá)到了監(jiān)督學(xué)習(xí)方法的性能。雖然可以顯式地防止崩潰（collapse），但許多方法都存在成本高昂的問(wèn)題，需要大量?jī)?nèi)存和較大的批大小。

還有一些方法雖然有效，但是依賴于難以解釋的架構(gòu)技巧。已有一些研究提供了關(guān)于如何通過(guò)非對(duì)稱方法避免崩潰的理論分析，但還遠(yuǎn)不完備，并且這些方法可能不適用于其他自監(jiān)督學(xué)習(xí)場(chǎng)景。最后，冗余減少（redundancy reduction）的方法通過(guò)對(duì)表征的維度進(jìn)行去相關(guān)（decorrelate）操作來(lái)避免崩潰，從而使表征能夠最大限度地提供有關(guān)其相應(yīng)輸入的信息。這些方法的性能良好，能夠?qū)W習(xí)有意義的表征，在去相關(guān)的同時(shí)保留表征的方差，但所有這些都使用一個(gè)唯一的目標(biāo)函數(shù)。VICReg 的研究提出將目標(biāo)分解為三個(gè)獨(dú)立的目標(biāo)函數(shù)，且每個(gè)目標(biāo)函數(shù)都有明確的解釋。

在這篇論文中，研究者提出了一種新的自監(jiān)督算法——VICReg（Variance-Invariance-Covariance Regularization，方差 - 不變性 - 協(xié)方差正則化），用于學(xué)習(xí)基于三個(gè)簡(jiǎn)單 principle（方差、不變性和協(xié)方差）的圖像表征，這些 principle 有明確的目標(biāo)和解釋。

方差 principle 獨(dú)立地約束每個(gè)維度上嵌入的方差，是一種簡(jiǎn)單而有效的防止崩潰的方法。更準(zhǔn)確地說(shuō)，研究者使用 hinge loss 來(lái)約束沿嵌入的批維度計(jì)算的標(biāo)準(zhǔn)差，以達(dá)到固定目標(biāo)。與對(duì)比方法不同，這里不需要 negative pair，嵌入被隱式地鼓勵(lì)不同于彼此，而且它們之間沒(méi)有任何直接的比較。

不變性 principle 使用標(biāo)準(zhǔn)的均方歐氏距離來(lái)學(xué)習(xí)對(duì)一張圖像多個(gè)視圖的不變性。

最后，協(xié)方差 principle 借鑒了 Barlow Twins 的協(xié)方差 criterion，后者將學(xué)習(xí)表征的不同維度去相關(guān)，目標(biāo)是在維度之間傳播信息，避免維度崩潰。這個(gè) criterion 主要是懲罰嵌入的協(xié)方差矩陣的非對(duì)角系數(shù)。

在 SimCLR 中，negative pair 由批給出，這意味著該方法嚴(yán)重依賴于批大小。而 VICReg 則沒(méi)有這種依賴性。與 Barlow Twin 類似，VICReg 也不需要 siamese 權(quán)重差異。此外，VICReg 架構(gòu)是對(duì)稱的，并且無(wú)需 SimSiam 的停止梯度（stop-gradient）操作、BYOL 的動(dòng)量編碼器（momentum encoder）以及二者均用到的預(yù)測(cè)器。與之前用于表征學(xué)習(xí)的任何自監(jiān)督方法都不同，VICReg 的損失函數(shù)中不需要對(duì)嵌入進(jìn)行任何形式的歸一化，這使得該方法相對(duì)簡(jiǎn)單。

實(shí)驗(yàn)結(jié)果

在很多下游任務(wù)中，研究者通過(guò)評(píng)估 VICReg 方法學(xué)到的表征來(lái)測(cè)試其有效性。這些任務(wù)包括：ImageNet 線性和半監(jiān)督評(píng)估以及其他一些分類、檢測(cè)和實(shí)例分割任務(wù)。他們進(jìn)一步表明，在更復(fù)雜的架構(gòu)和其他自監(jiān)督表征學(xué)習(xí)方法中加入文中提出的方差正則化，可以更好地提高下游任務(wù)的訓(xùn)練穩(wěn)定性和性能。可以說(shuō)，VICReg 是自監(jiān)督聯(lián)合嵌入學(xué)習(xí)中防止崩塌的一種簡(jiǎn)單、有效的可解釋方法。

圖 1：在 ImageNet 上的評(píng)估結(jié)果。

圖 2：在下游任務(wù)上的遷移學(xué)習(xí)結(jié)果。

圖 3：在不同架構(gòu)中加入方差和協(xié)方差正則化的效果。

圖 4：消融研究結(jié)果。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

圖靈獎(jiǎng)得主Yann LeCun：我的論文也被NeurIPS拒了

相關(guān)推薦

技術(shù)專區(qū)