斯坦福、Meta AI新研究：實(shí)現(xiàn)AGI之路，數(shù)據(jù)剪枝比我們想象得更重要

發(fā)布人：機(jī)器之心時(shí)間：2022-07-21 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

Scale is all you need？No.

在視覺(jué)、語(yǔ)言和語(yǔ)音在內(nèi)的機(jī)器學(xué)習(xí)諸多領(lǐng)域中，神經(jīng)標(biāo)度律表明，測(cè)試誤差通常隨著訓(xùn)練數(shù)據(jù)、模型大小或計(jì)算數(shù)量而下降。這種成比例提升已經(jīng)推動(dòng)深度學(xué)習(xí)實(shí)現(xiàn)了實(shí)質(zhì)性的性能增長(zhǎng)。然而，這些僅通過(guò)縮放實(shí)現(xiàn)的提升在計(jì)算和能源方面帶來(lái)了相當(dāng)高的成本。
這種成比例的縮放是不可持續(xù)的。例如，想要誤差從 3% 下降到 2% 需要的數(shù)據(jù)、計(jì)算或能量會(huì)指數(shù)級(jí)增長(zhǎng)。此前的一些研究表明，在大型 Transformer 的語(yǔ)言建模中，交叉熵?fù)p失從 3.4 下降到 2.8 需要 10 倍以上的訓(xùn)練數(shù)據(jù)。此外，對(duì)于大型視覺(jué) Transformer，額外的 20 億預(yù)訓(xùn)練數(shù)據(jù)點(diǎn) (從 10 億開(kāi)始) 在 ImageNet 上僅能帶來(lái)幾個(gè)百分點(diǎn)的準(zhǔn)確率增長(zhǎng)。
所有這些結(jié)果都揭示了深度學(xué)習(xí)中數(shù)據(jù)的本質(zhì)，同時(shí)表明收集巨大數(shù)據(jù)集的實(shí)踐可能是很低效的。此處要討論的是，我們是否可以做得更好。例如，我們是否可以用一個(gè)選擇訓(xùn)練樣本的良好策略來(lái)實(shí)現(xiàn)指數(shù)縮放呢？
在最近的一篇文章中，研究者們發(fā)現(xiàn)，只增加一些精心選擇的訓(xùn)練樣本，可以將誤差從 3% 降到 2% ，而無(wú)需收集 10 倍以上的隨機(jī)樣本。簡(jiǎn)而言之，「Sale is not all you need」。

論文鏈接：https://arxiv.org/pdf/2206.14486.pdf
總體來(lái)說(shuō)，這項(xiàng)研究的貢獻(xiàn)在于：
1. 利用統(tǒng)計(jì)力學(xué)，開(kāi)發(fā)了一種新的數(shù)據(jù)剪枝分析理論，在師生感知機(jī)學(xué)習(xí)環(huán)境中，樣本根據(jù)其教師邊際進(jìn)行剪枝，大 (小) 邊際各對(duì)應(yīng)于簡(jiǎn)單 (困難) 樣本。該理論在數(shù)量上與數(shù)值實(shí)驗(yàn)相符，并揭示了兩個(gè)驚人的預(yù)測(cè):

最佳剪枝策略會(huì)因初始數(shù)據(jù)的數(shù)量而改變；如果初始數(shù)據(jù)豐富 (稀缺) ，則應(yīng)只保留困難 (容易) 的樣本。
如果選擇一個(gè)遞增的帕累托最優(yōu)剪枝分?jǐn)?shù)作為初始數(shù)據(jù)集大小的函數(shù)，那么對(duì)于剪枝后的數(shù)據(jù)集大小，指數(shù)縮放是可能的。

2. 研究表明，這兩個(gè)預(yù)測(cè)在更多通用設(shè)置的實(shí)踐中依舊成立。他們驗(yàn)證了在 SVHN、CIFAR-10 和 ImageNet 上從頭訓(xùn)練的 ResNets，以及在 CIFAR-10 上進(jìn)行微調(diào)的視覺(jué) Transformer 的與剪枝數(shù)據(jù)集大小有關(guān)的誤差指數(shù)縮放特征。
3. 在 ImageNet 上對(duì) 10 個(gè)不同的數(shù)據(jù)剪枝度量進(jìn)行了大規(guī)模基準(zhǔn)測(cè)試研究，發(fā)現(xiàn)除了計(jì)算密集度最高的度量之外，大多數(shù)度量表現(xiàn)不佳。
4. 利用自監(jiān)督學(xué)習(xí)開(kāi)發(fā)了一種新的低成本無(wú)監(jiān)督剪枝度量，不同于以前的度量，它不需要標(biāo)簽。研究者證明了這種無(wú)監(jiān)督度量與最好的監(jiān)督剪枝度量相媲美，而后者需要標(biāo)簽和更多的計(jì)算。這個(gè)結(jié)果揭示了一種可能性：利用預(yù)訓(xùn)練基礎(chǔ)模型來(lái)修剪新數(shù)據(jù)集。
Is scale all you need？
研究者的感知器數(shù)據(jù)剪枝理論提出了三個(gè)驚人的預(yù)測(cè)，可以在更通用的環(huán)境下進(jìn)行測(cè)試，比如在 benchmark 上訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)：
(1) 相對(duì)于隨機(jī)數(shù)據(jù)剪枝，當(dāng)初始數(shù)據(jù)集比較大時(shí)，只保留最難的樣本是有收益的，但當(dāng)初始數(shù)據(jù)集比較小時(shí)，這樣反而有害；
(2) 隨著初始數(shù)據(jù)集大小的增加，通過(guò)保留最難樣本的固定分?jǐn)?shù) f 進(jìn)行的數(shù)據(jù)剪枝應(yīng)該產(chǎn)生冪律縮放，指數(shù)等于隨機(jī)剪枝；
(3) 在初始數(shù)據(jù)集大小和所保留數(shù)據(jù)的分?jǐn)?shù)上優(yōu)化的測(cè)試誤差，可以通過(guò)在更大初始數(shù)據(jù)集上進(jìn)行更積極的剪枝，追蹤出一個(gè)帕累托最優(yōu)下包絡(luò)線，打破了測(cè)試誤差和剪枝數(shù)據(jù)集大小之間的冪律縮放函數(shù)關(guān)系。

研究者用不同數(shù)量的初始數(shù)據(jù)集大小和數(shù)據(jù)剪枝下保存的數(shù)據(jù)分?jǐn)?shù) (圖 3A 中的理論對(duì)比圖 3BCD 中的深度學(xué)習(xí)實(shí)驗(yàn)) ，在 SVHN、CIFAR-10 和 ImageNet 上訓(xùn)練的 ResNets 驗(yàn)證了上述三個(gè)預(yù)測(cè)。在每個(gè)實(shí)驗(yàn)設(shè)置中，可以看到，較大的初始數(shù)據(jù)集大小和更積極的剪枝比冪律縮放表現(xiàn)更好。此外，更大的初始數(shù)據(jù)集可能會(huì)看到更好的縮放（如圖 3A）。
此外，研究者發(fā)現(xiàn)數(shù)據(jù)剪枝可以提升遷移學(xué)習(xí)的表現(xiàn)。他們首先分析了在 ImageNet21K 上預(yù)訓(xùn)練的 ViT，然后在 CIFAR-10 的不同剪枝子集上進(jìn)行了微調(diào)。有趣的是，預(yù)訓(xùn)練的模型允許更積極的數(shù)據(jù)剪枝；只有 10% 的 CIFAR-10 的微調(diào)可以媲美或超過(guò)所有 CIFAR-10 的微調(diào)所獲得的性能 (圖 4A)。此外，圖 4A 提供了一個(gè)在微調(diào)設(shè)置中打破冪律縮放的樣本。

通過(guò)在 ImageNet1K 的不同剪枝子集 (如圖 3D 所示) 上預(yù)訓(xùn)練 ResNet50，研究者檢查了剪枝預(yù)訓(xùn)練數(shù)據(jù)的功效，然后在 CIFAR-10 上對(duì)它們進(jìn)行微調(diào)。如圖 4B 所示，在最少 50% 的 ImageNet 上進(jìn)行的預(yù)訓(xùn)練能夠達(dá)到或超過(guò)在所有 ImageNet 上進(jìn)行的預(yù)訓(xùn)練所獲得的 CIFAR-10 性能。
因此，對(duì)上游任務(wù)的訓(xùn)練前數(shù)據(jù)進(jìn)行剪枝仍然可以在不同的下游任務(wù)上保持高性能?？傮w來(lái)說(shuō)，這些結(jié)果顯示了剪枝在預(yù)訓(xùn)練和微調(diào)階段的遷移學(xué)習(xí)中的前景。
在 ImageNet 上對(duì)監(jiān)督剪枝指標(biāo)進(jìn)行基準(zhǔn)測(cè)試
研究者注意到，大多數(shù)的數(shù)據(jù)剪枝實(shí)驗(yàn)都是在小規(guī)模數(shù)據(jù)集（即 MNIST 和 CIFAR 的變體）上進(jìn)行的。所以，為 ImageNet 提出的少數(shù)剪枝度量很少與在較小數(shù)據(jù)集上設(shè)計(jì)的 baseline 進(jìn)行比較。
因此，目前尚不清楚大多數(shù)剪枝方法如何縮放到 ImageNet 以及哪種方法最好。為研究剪枝度量的質(zhì)量在理論上對(duì)性能的影響，研究者決定通過(guò)在 ImageNet 上對(duì) 8 個(gè)不同的監(jiān)督剪枝度量進(jìn)行系統(tǒng)評(píng)估來(lái)填補(bǔ)這一知識(shí)空白。

他們觀察到度量之間的顯著性能差異：圖 5BC 顯示了當(dāng)每個(gè)度量下的最難樣本的一部分保留在訓(xùn)練集中時(shí)的測(cè)試性能。在較小的數(shù)據(jù)集上，許多度量取得了成功，但選擇一個(gè)明顯較小的訓(xùn)練子集（如 Imagenet 的 80％）時(shí)，只有少數(shù)度量在完整數(shù)據(jù)集訓(xùn)練中仍然獲得了相當(dāng)?shù)男阅堋?/span>
盡管如此，大多數(shù)度量仍然優(yōu)于隨機(jī)剪枝（圖 5C）。研究者發(fā)現(xiàn)所有剪枝度量都會(huì)放大類的不平衡，從而導(dǎo)致性能下降。為了解決這個(gè)問(wèn)題，作者在所有 ImageNet 實(shí)驗(yàn)中使用了一個(gè)簡(jiǎn)單的 50% 類平衡率。
通過(guò)原型度量進(jìn)行自監(jiān)督數(shù)據(jù)剪枝
如圖 5 ，許多數(shù)據(jù)剪枝度量不能很好地縮放到 ImageNet，其中一些確實(shí)需要大量計(jì)算。此外，所有這些度量都需要標(biāo)注，這限制了它們?yōu)樵诖罅课礃?biāo)注數(shù)據(jù)集訓(xùn)練大規(guī)模基礎(chǔ)模型的數(shù)據(jù)剪枝能力。因此，我們顯然需要簡(jiǎn)單、可縮放、自監(jiān)督的剪枝度量。

為了評(píng)估度量發(fā)現(xiàn)的聚類是否與 ImageNet 類一致，研究者在圖 6A 中比較了它們的重疊。當(dāng)保留 70% 以上的數(shù)據(jù)時(shí)，自監(jiān)督度量和監(jiān)督度量的性能是相似的，這表明了自監(jiān)督剪枝的前景。
更多研究細(xì)節(jié)，可參考原論文。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

斯坦福、Meta AI新研究：實(shí)現(xiàn)AGI之路，數(shù)據(jù)剪枝比我們想象得更重要

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

斯坦福、Meta AI新研究：實(shí)現(xiàn)AGI之路，數(shù)據(jù)剪枝比我們想象得更重要

相關(guān)推薦

技術(shù)專區(qū)

斯坦福、Meta AI新研究：實(shí)現(xiàn)AGI之路，數(shù)據(jù)剪枝比我們想象得更重要