零障礙合并兩個模型，大型ResNet模型線性連接只需幾秒，神經網絡啟發(fā)性新研究

發(fā)布人：機器之心時間：2022-09-15 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

這篇論文探討了置換對稱性（permutation symmetry）如何在 SGD 解決方案的線性模式連接中發(fā)揮重要作用。

深度學習能夠取得如此成就，得益于其能夠相對輕松地解決大規(guī)模非凸優(yōu)化問題。盡管非凸優(yōu)化是 NP 困難的，但一些簡單的算法，通常是隨機梯度下降（SGD）的變體，它們在實際擬合大型神經網絡時表現(xiàn)出驚人的有效性。

本文中，來自華盛頓大學的多位學者撰文《 Git Re-Basin: Merging Models modulo Permutation Symmetries 》，他們研究了在深度學習中，SGD 算法在高維非凸優(yōu)化問題上的不合理有效性。他們受到三個問題的啟發(fā)：

1. 為什么 SGD 在高維非凸深度學習損失 landscapes 的優(yōu)化中表現(xiàn)良好，而在其他非凸優(yōu)化設置中，如 policy 學習、軌跡優(yōu)化和推薦系統(tǒng)的穩(wěn)健性明顯下降 ?

2. 局部極小值在哪里？在初始化權值和最終訓練權值之間進行線性插值時，為什么損失會平滑、單調地減??？

3. 兩個獨立訓練的模型，它們具有不同的隨機初始化和數據批處理順序，為何會實現(xiàn)幾乎相同的性能？此外，為什么它們的訓練損失曲線看起來一樣

論文地址：https://arxiv.org/pdf/2209.04836.pdf

本文認為：在模型訓練中存在一些不變性，這樣一來才會有不同的訓練表現(xiàn)出幾乎相同的性能。

為什么會這樣呢？2019 年，Brea 等人注意到神經網絡中的隱藏單元具有置換對稱性。簡單的說就是：我們可以交換網絡中隱藏層的任意兩個單元，而網絡功能將保持不變。2021 年 Entezari 等人推測，這些置換對稱可能允許我們在權值空間中線性連接點，而不損害損失。

下面我們以論文作者之一的舉例來說明文章主旨，這樣大家會更清楚。

假如說你訓練了一個 A 模型，你的朋友訓練了一個 B 模型，這兩個模型訓練數據可能不同。沒關系，使用本文提出的 Git Re-Basin，你能在權值空間合并這兩個模型 A+B，而不會損害損失。

論文作者表示，Git Re-Basin 可適用于任何神經網絡（NN），他們首次演示了在兩個獨立訓練（沒有預先訓練）的模型（ResNets）之間，可以零障礙的線性連通。

他們發(fā)現(xiàn)，合并能力是 SGD 訓練的一個屬性，在初始化時合并是不能工作的，但是會發(fā)生相變，因此隨著時間的推移合并將成為可能。

他們還發(fā)現(xiàn)，模型寬度與可合并性密切相關，即越寬越好。

此外，并非所有架構都能合并：VGG 似乎比 ResNets 更難合并。

這種合并方法還有其他優(yōu)點，你可以在不相交和有偏差的數據集上訓練模型，然后在權值空間中將它們合并在一起。例如，你有一些數據在美國，一些在歐盟。由于某些原因，不能混合數據。你可以先訓練單獨的模型，然后合并權重，最后泛化到合并的數據集。

因此，在不需要預訓練或微調的情況下可以混合訓練過的模型。作者表示自己很想知道線性模式連接和模型修補的未來發(fā)展方向，可能會應用到聯(lián)邦學習、分布式訓練以及深度學習優(yōu)化等領域。

最后還提到，章節(jié) 3.2 中的權重匹配算法只需 10 秒左右即可運行，所以節(jié)省了大量時間。論文第 3 章也介紹了 A 模型與 B 模型單元匹配的三種方法，對匹配算法還不清楚的小伙伴，可以查看原論文。

網友評論及作者解疑

這篇論文在推特上引發(fā)了熱議，PyTorch 聯(lián)合創(chuàng)始人 Soumith Chintala 表示如果這項研究可以遷移到更大的設置，則它可以實現(xiàn)的方向會更棒。合并兩個模型（包括權重）可以擴展 ML 模型開發(fā)，并可能在開源的共同開發(fā)模型中發(fā)揮巨大作用。