NeurIPS 2022 | 一窺人工智能大一統(tǒng)與理論研究的最新進(jìn)展（2）

發(fā)布人：MSRAsia 時(shí)間：2022-11-21 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

人工智能理論

Theory

組合多臂老虎機(jī)在隨機(jī)觸發(fā)臂或獨(dú)立臂場(chǎng)景下與最大觸發(fā)臂數(shù)量無關(guān)的損失分析

論文鏈接：

https://www.microsoft.com/en-us/research/publication/batch-size-independent-regret-bounds-for-combinatorial-semi-bandits-with-probabilistically-triggered-arms-or-independent-arms/

組合多臂老虎機(jī)（combinatorial multi-armed bandit）將傳統(tǒng)的組合優(yōu)化和在線學(xué)習(xí)相結(jié)合，通過在線反饋機(jī)制不斷改進(jìn)模型的優(yōu)化效果。其應(yīng)用涵蓋推薦系統(tǒng)、在線廣告、社交網(wǎng)絡(luò)、無線網(wǎng)絡(luò)等多個(gè)領(lǐng)域。在本文中，研究員們通過方差分析的方法降低了每個(gè)時(shí)刻可能被激活的臂數(shù) K 對(duì)算法所承受損失的影響。

值得注意的是，研究員們找到了一種全新的光滑條件，稱為概率激活方差調(diào)節(jié)（TPVM）條件。首先，TPVM 被證明和既有的光滑條件在多數(shù)實(shí)際應(yīng)用場(chǎng)景下（如在線廣告、社交網(wǎng)絡(luò)等）同樣成立。其次，通過 TPVM 條件，研究員們得以對(duì)帶概率和無概率激活臂的模型分別設(shè)計(jì)基于方差分析的新型算法，即 BCUCB-T 和 SESCB。在帶概率激活臂的模型下，BCUCB-T 算法可以將 K 對(duì)損失的影響從此前的 O(K) 降低為 O(log^2 K)或 O(log K)。而在無概率激活臂的模型下，SESCB 則將損失上界由此前的 O(log K)降低至 O(1)。最后，仿真實(shí)驗(yàn)結(jié)果表明，研究員們所提出的算法在很多實(shí)際應(yīng)用場(chǎng)景中都能超越現(xiàn)有算法的效果。

圖5：帶概率激活臂的 CMAB 模型下本文結(jié)果與此前結(jié)果對(duì)比圖

動(dòng)量會(huì)改變優(yōu)化器在可分?jǐn)?shù)據(jù)上的隱式正則嗎？

論文鏈接：

https://www.microsoft.com/en-us/research/publication/does-momentum-change-the-implicit-regularization-on-separable-data/

為提升訓(xùn)練速度，深度學(xué)習(xí)中的優(yōu)化器廣泛采用動(dòng)量加速技術(shù)。然而，目前學(xué)界仍未能厘清動(dòng)量是如何影響深度學(xué)習(xí)模型的泛化能力的。本文從動(dòng)量加速技術(shù)的隱式正則效應(yīng)切入，探究了其對(duì)泛化能力的影響。尤其是，本文證明了在對(duì)線性可分?jǐn)?shù)據(jù)上，帶動(dòng)量的梯度下降法收斂到的點(diǎn)是 L^2 最大間隔問題的解 (L^2 max-margin solution)，與不使用動(dòng)量的梯度下降法相同。這意味著帶動(dòng)量的梯度下降法將收斂到一個(gè)低復(fù)雜度的模型，從而保證了模型的泛化性質(zhì)。

本文更進(jìn)一步分析了動(dòng)量梯度下降法帶隨機(jī)性和帶自適應(yīng)學(xué)習(xí)率的變種(即隨機(jī)動(dòng)量梯度下降法和確定性 Adam 算法)，證明了它們也會(huì)收斂到 L^2 最大間隔問題的解。這首次證明了隨機(jī)動(dòng)量梯度下降法在仿射噪聲假設(shè)下，將收斂到駐點(diǎn)。這一假設(shè)相比現(xiàn)有研究中有界方差噪聲的假設(shè)，適用范圍更為廣泛。與此同時(shí)，多個(gè)場(chǎng)景的數(shù)值實(shí)驗(yàn)驗(yàn)證了該理論結(jié)果，請(qǐng)查看論文原文了解更多細(xì)節(jié)。

圖6：論文《動(dòng)量會(huì)改變優(yōu)化器在可分?jǐn)?shù)據(jù)上的隱式正則嗎？》的結(jié)果展示圖

穩(wěn)定的神經(jīng)元響應(yīng)會(huì)提升模型泛化性能

論文鏈接：

https://www.microsoft.com/en-us/research/publication/neuron-with-steady-response-leads-to-better-generalization/

如何提高模型的泛化性能，一直是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的核心問題之一。隨著深度學(xué)習(xí)的不斷發(fā)展，各種各樣的網(wǎng)絡(luò)結(jié)構(gòu)被應(yīng)用在多種不同的任務(wù)中。能否探尋到統(tǒng)攝不同任務(wù)和網(wǎng)格結(jié)構(gòu)的本質(zhì)共性來提高多種網(wǎng)絡(luò)的泛化性能，是本文的研究切入點(diǎn)。

研究員們從神經(jīng)元級(jí)別的細(xì)粒度出發(fā)，仔細(xì)分析了單個(gè)神經(jīng)元在神經(jīng)網(wǎng)絡(luò)訓(xùn)練和測(cè)試中的響應(yīng)特性，發(fā)現(xiàn)提升神經(jīng)元對(duì)同類輸入樣本響應(yīng)的穩(wěn)定性能夠有效地提高神經(jīng)網(wǎng)絡(luò)的泛化性能。據(jù)此，研究員們?cè)O(shè)計(jì)出了一種通用的正則項(xiàng)，用于控制神經(jīng)元在激活狀態(tài)下響應(yīng)的類內(nèi)方差，并進(jìn)一步分析了將此正則項(xiàng)應(yīng)用在不同層神經(jīng)元所帶來的效果差異。該正則項(xiàng)簡(jiǎn)單高效，能在不同領(lǐng)域的多個(gè)數(shù)據(jù)集（ImageNet, CIFAR10, PubMed, WikiCS)以及多種網(wǎng)絡(luò)結(jié)構(gòu) (MLP, CNN, GNN)上普遍地提升模型的泛化性能。

圖7：MLP 模型在 MNIST 數(shù)據(jù)集上的訓(xùn)練過程圖。其中，紅線表示原始模型的訓(xùn)練曲線，藍(lán)線是加入全新正則化技術(shù)后的新模型訓(xùn)練曲線。最右的圖片顯示，在原始模型中，神經(jīng)元對(duì)同類樣本響應(yīng)的方差會(huì)隨著訓(xùn)練不斷增大，而研究員們所提出的正則化技術(shù)能夠大幅降低神經(jīng)元響應(yīng)的類內(nèi)方差。相應(yīng)地，原始模型的訓(xùn)練損失雖然比新模型要低（見第二幅圖），但新模型在測(cè)試集上的識(shí)別準(zhǔn)確率卻比原始模型有顯著提高（見第一幅圖），因此研究員們所提出的正則化技術(shù)有效地提高了模型的泛化性能。

等級(jí)強(qiáng)化學(xué)習(xí)：悲觀面對(duì)不確定性與“常數(shù)regret”

論文鏈接：

https://www.microsoft.com/en-us/research/publication/tiered-reinforcement-learning-pessimism-in-the-face-of-uncertainty-and-constant-regret/

強(qiáng)化學(xué)習(xí)（RL）在許多用戶交互型應(yīng)用中都取得了成功，比如醫(yī)療領(lǐng)域、推薦系統(tǒng)等。其中，病人/客戶扮演的是環(huán)境的角色，治療方案/推薦算法則是強(qiáng)化學(xué)習(xí)中的決策，其具體做法就是部署決策、收集數(shù)據(jù)、并用強(qiáng)化學(xué)習(xí)算法提升直到接近最優(yōu)。

由于訓(xùn)練過程中算法不可避免地會(huì)給用戶提供錯(cuò)誤的決策，但不同的用戶對(duì)于承擔(dān)或接收決策錯(cuò)誤所造成的損失的能力也不同，故需具體情況具體分析。然而，現(xiàn)有框架忽略了決策錯(cuò)誤對(duì)個(gè)體用戶影響的特殊性。因此，研究員們提出了“等級(jí)強(qiáng)化學(xué)習(xí)（Tiered RL）”的新框架，其根據(jù)風(fēng)險(xiǎn)的承受能力對(duì)用戶進(jìn)行等級(jí)區(qū)分，承受能力越弱等級(jí)越高。

在對(duì) gap 不做假設(shè)的情況下，研究員們證明了與 online setting 相同的 O(√(SAH^3 K)) 的極小化極大下界（minimax-lower bound），揭示了一般情形下這個(gè)問題的困難度。在引入最小 gap 假設(shè)的 gap-dependent setting 中，研究員們?cè)O(shè)計(jì)了新的算法，在保證低等級(jí)用戶的“regret”仍然是最優(yōu)的前提下，高等級(jí)用戶承擔(dān)的“regret 與交互次數(shù) K 無關(guān)，打破了普通 online learning 的 O(log K) 下界，從而證明了新框架和算法的優(yōu)越性。

圖8：等級(jí)強(qiáng)化學(xué)習(xí)（Tiered RL）框架圖

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

fpga相關(guān)文章:fpga是什么

網(wǎng)線測(cè)試儀相關(guān)文章:網(wǎng)線測(cè)試儀原理

博客專欄

NeurIPS 2022 | 一窺人工智能大一統(tǒng)與理論研究的最新進(jìn)展（2）

相關(guān)推薦

技術(shù)專區(qū)