ICLR 2022 | 微軟亞洲研究院深度學習領(lǐng)域最新研究成果一覽

發(fā)布人：MSRAsia 時間：2022-05-23 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：ICLR（International Conference on Learning Representations）是國際公認的深度學習領(lǐng)域頂級會議之一，眾多在人工智能、統(tǒng)計和數(shù)據(jù)科學領(lǐng)域以及計算機視覺、語音識別、文本理解等重要應(yīng)用領(lǐng)域極其有影響力的論文都發(fā)表在該大會上。今年的 ICLR 大會于4月25日至29日在線上舉辦。本屆大會共接收論文1095篇，論文接收率32.3%。今天，我們精選了其中的六篇來為大家進行簡要介紹，其中研究主題的關(guān)鍵詞包括時間序列、策略優(yōu)化、解耦表示學習、采樣方法、強化學習等。歡迎感興趣的讀者閱讀論文原文，一起了解深度學習領(lǐng)域的前沿進展！

周期性時間序列的深度展開學習

論文鏈接：https://www.microsoft.com/en-us/research/publication/depts-deep-expansion-learning-for-periodic-time-series-forecasting/

周期性時間序列在電力、交通、環(huán)境、醫(yī)療等領(lǐng)域中普遍存在，但是準確地捕捉這些時序信號的演化規(guī)律卻很困難。一方面是因為觀測到的時序信號往往對隱式的周期規(guī)律有著各種各樣復(fù)雜的依賴關(guān)系，另一方面是由于這些隱式的周期規(guī)律通常也由不同頻率、幅度的周期模式復(fù)合而成。然而，現(xiàn)有的深度時間序列預(yù)測模型要么忽視了對周期性的建模，要么依賴一些簡單的假設(shè)（加性周期、乘性周期等），從而導(dǎo)致在相應(yīng)預(yù)測任務(wù)中的表現(xiàn)不如人意。

在深入思考這些研究難點后，微軟亞洲研究院的研究員們?yōu)橹芷谛詴r間序列的預(yù)測問題提出了一套新型的深度展開學習框架 DEPTS。該框架既可以刻畫多樣化的周期性成分，也能捕捉復(fù)雜的周期性依賴關(guān)系。

圖1：DEPTS 框架圖

如圖1所示，DEPTS 主要包含兩大模塊：周期模塊（The Periodicity Module）和展開模塊（The Expansion Module）。首先，周期模塊負責對整條時間序列的全局周期進行建模，接受全局時間作為輸入，推斷隱式的周期狀態(tài)作為輸出。為了有效刻畫多種不同模式的復(fù)合周期，這里使用了一組參數(shù)化的周期函數(shù)（如余弦級數(shù)）來構(gòu)建周期模塊并使用相應(yīng)變換（如離散余弦變換）來進行高效的參數(shù)初始化。

然后，基于一段觀測的時間序列信號及其相應(yīng)的隱式周期狀態(tài)，展開模塊負責捕捉觀測信號與隱式周期之間復(fù)雜的依賴關(guān)系并做出預(yù)測。在這里，研究員們拓展了經(jīng)典的深度殘差學習思想開發(fā)了一種深度展開學習架構(gòu)。在這個架構(gòu)中，研究員們會對輸入的時間序列及其隱式周期做逐層的依賴關(guān)系展開并得出相應(yīng)預(yù)測分量。在每一層中，由參數(shù)化的周期神經(jīng)網(wǎng)絡(luò)來決定本層聚焦的周期分量，并展開觀測信號的回看和預(yù)測分量。在進入下一層前，研究員們會減去本層中產(chǎn)生的周期分量和回看分量，從而鼓勵后續(xù)的神經(jīng)網(wǎng)絡(luò)層聚焦于尚未展開的周期性依賴。按照這樣的模式堆疊 N 層就構(gòu)成了（深度）展開模塊。

研究員們在生成數(shù)據(jù)和廣泛的真實數(shù)據(jù)上都進行了實驗驗證，明確地揭示了現(xiàn)有方法在周期性時間序列預(yù)測方面的短板，并有力地證實了 DEPTS 框架的優(yōu)越性。值得注意的是，在一些周期模式很強的數(shù)據(jù)上，DEPTS 相對已有最佳方案的提升可達20%。

此外，由于對周期性進行了明確的建模并提供了預(yù)測值在全局周期和局部波動兩方面的分量展開，DEPTS 天生帶有一定可解釋性。

在基于模型的策略優(yōu)化算法中，模型的梯度信息是重要的

論文鏈接：https://www.microsoft.com/en-us/research/publication/gradient-information-matters-in-policy-optimization-by-back-propagating-through-model/

基于模型的強化學習方法提供了一種通過與學到的環(huán)境進行交互從而獲得最優(yōu)策略的高效機制。在這篇論文中，研究員們研究了其中模型學習與模型使用不匹配的問題。具體來說，為了獲得當前策略的更新方向，一個有效的方法就是利用模型的可微性去計算模型的導(dǎo)數(shù)。然而，現(xiàn)在常用的方法都只是簡單地將模型的學習看成是一個監(jiān)督學習的任務(wù)，利用模型的預(yù)測誤差去指導(dǎo)模型的學習，但是忽略了模型的梯度誤差。簡而言之，基于模型的強化學習算法往往需要準確的模型梯度，但是在學習階段只減小了預(yù)測誤差，因此就存在目標不一致的問題。

本篇論文中，研究員們首先在理論上證明了模型的梯度誤差對于策略優(yōu)化是至關(guān)重要的。由于策略梯度的偏差不僅受到模型預(yù)測誤差的影響而且也受到模型梯度誤差的影響，因此這些誤差會最終影響到策略優(yōu)化過程的收斂速率。

接下來，論文提出了一個雙模型的方法去同時控制模型的預(yù)測和梯度誤差。研究員們設(shè)計了兩個不同的模型，并且在模型的學習和使用階段分別讓這兩個模型承擔了不同的角色。在模型學習階段，研究員們設(shè)計了一個可行的方法去計算梯度誤差并且用其去指導(dǎo)梯度模型的學習。在模型使用階段，研究員們先利用預(yù)測模型去獲得預(yù)測軌跡，再利用梯度模型去計算模型梯度。結(jié)合上述方法，本篇論文提出了基于方向?qū)?shù)投影的策略優(yōu)化算法（DDPPO）。最后，在一系列連續(xù)控制基準任務(wù)上的實驗結(jié)果證明了論文中提出的算法確實有著更高的樣本效率。

圖2： (a)模型學習和使用中的不一致。 (b)DDPPO 算法的示意圖。DDPPO 算法分別構(gòu)造了預(yù)測模型和梯度模型。DDPPO 算法使用不同的損失函數(shù)去分別訓練這兩個模型，并且在策略優(yōu)化中分別恰當?shù)厥褂盟麄儭?/span>

RecurD遞歸解耦網(wǎng)絡(luò)

論文鏈接：https://www.microsoft.com/en-us/research/publication/recursive-disentanglement-network/

機器學習的最新進展表明，解耦表示的學習能力有利于模型實現(xiàn)高效的數(shù)據(jù)利用。其中 BETA-VAE 及其變體是解耦表示學習中應(yīng)用最為廣泛的一類方法。這類工作引入了多種不同的歸納偏差作為正則化項，并將它們直接應(yīng)用于隱變量空間，旨在平衡解耦表示的信息量及其獨立性約束之間的關(guān)系。然而，深度模型的特征空間具有天然的組合結(jié)構(gòu)，即每個復(fù)雜特征都是原始特征的組合。僅將解耦正則化項應(yīng)用于隱變量空間無法有效地在組合特征空間中傳播解耦表示的約束。

本篇論文旨在結(jié)合組合特征空間的特點來解決解耦表示學習問題。首先，論文從信息論的角度定義了解耦表示的屬性，從而引入了一個新的學習目標，包括三個基本屬性：充分性、最小充分性和解耦性。從理論分析表明，本篇論文所提出的學習目標是 BETA-VAE 及其幾個變種的一般形式。接下來，研究員們將所提出的學習目標擴展到了組合特征空間，以涵蓋組合特征空間中的解纏結(jié)表示學習問題，包括組合最小充分性和組合解耦性。

基于組合解耦學習目標，本篇論文提出了對應(yīng)的遞歸解纏結(jié)網(wǎng)絡(luò)（Recursive disentanglement network, RecurD），在模型網(wǎng)絡(luò)中的組合特征空間內(nèi)，遞歸地傳播解耦歸納偏置來指導(dǎo)解纏結(jié)學習過程。通過前饋網(wǎng)絡(luò)，遞歸的傳播強歸納偏差是解耦表示學習的充分條件。實驗表明，相較于 BETA-VAE 及其變種模型，RecurD 實現(xiàn)了更好的解耦表示學習。并且，在下游分類任務(wù)中，RecurD 也表現(xiàn)出了一定的有效利用數(shù)據(jù)的能力。

圖3：RecurD 網(wǎng)絡(luò)結(jié)構(gòu)

基于鏡像斯坦因算符的采樣方法

論文鏈接：https://www.microsoft.com/en-us/research/publication/sampling-with-mirrored-stein-operators/

貝葉斯推理（Bayesian inference）等一些機器學習及科學計算問題都可歸結(jié)為用一組樣本來代表一個只知道未歸一化密度函數(shù)的分布。不同于經(jīng)典的馬爾可夫鏈蒙特卡羅（Markov chain Monte Carlo）方法，近年來發(fā)展起來的斯坦因變分梯度下降方法（Stein variational gradient descent，簡記為 SVGD）具有更好的樣本高效性，但對在受限空間（圖中Θ）上分布的采樣或?qū)π螤钆で姆植嫉牟蓸尤燥@吃力。

圖4：原樣本空間\Theta及其鏡像空間示意

本篇論文中，研究員們借鑒優(yōu)化領(lǐng)域中鏡像下降方法（mirrored descent）的思想，推導(dǎo)設(shè)計出了一系列鏡像斯坦因算符（mirrored Stein operators）及其對應(yīng)的鏡像 SVGD 方法。原空間經(jīng)鏡像映射（圖中?ψ）所得的鏡像空間是不受限的并可體現(xiàn)分布的幾何信息，因而這些方法系統(tǒng)性地解決了上述問題。

具體來說，SVGD 的原理是使用能最大化樣本分布與目標分布之間 KL 散度減小率的更新方向來更新樣本，從而使樣本分布不斷逼近目標分布，而這個減小率和更新方向都是由斯坦因算符給出的。因而論文首先推導(dǎo)出了鏡像空間中的斯坦因算符（圖中 M_(p,ψ)）和樣本的更新方向（圖中 E_(θ～q_t ) [M_(p,ψ) K(θ_t,θ)]）。

研究員們進而設(shè)計了三種計算更新方向所需的核函數(shù)（kernel function，圖中 K），分別可在單樣本情況下劃歸為針對鏡像空間及原空間上目標分布峰值的梯度下降，以及原空間上的自然梯度下降。該論文還推導(dǎo)了所提方法的收斂性保證。實驗發(fā)現(xiàn)所提方法比原本的 SVGD 有更好的收斂速度和精度。

部署高效的強化學習：理論下界與最優(yōu)算法

論文鏈接：https://www.microsoft.com/en-us/research/publication/towards-deployment-efficient-reinforcement-learning-lower-bound-and-optimality/

傳統(tǒng)的（在線）強化學習（RL）的學習過程可以概括為兩部分的循環(huán)：其一是根據(jù)收集的數(shù)據(jù)學習一個策略（policy）；其二是將策略部署到環(huán)境中進行交互，獲得新的數(shù)據(jù)用于接下來的學習。強化學習的目標就是在這樣的循環(huán)中完成對環(huán)境的探索，提升策略直至最優(yōu)。

然而在一些實際應(yīng)用中，部署策略的過程會十分繁瑣，而相對來講，當部署完新的策略之后，數(shù)據(jù)的收集過程是很快的。比如在推薦系統(tǒng)中，策略就是推薦方案，好的策略可以精準地推送用戶所需要的內(nèi)容?？紤]到用戶體驗，通常一家公司在上線新的推薦策略之前會進行很長時間的內(nèi)部測試來檢驗性能，由于龐大的用戶基數(shù)，往往部署之后短時間內(nèi)就可以收集到海量的用戶反饋數(shù)據(jù)來進行后續(xù)的策略學習。在這樣的應(yīng)用中，研究員們更傾向于選擇只需要很少部署次數(shù)（deployment complexity）就能學到好策略的算法。

但是現(xiàn)有的強化學習算法以及理論和上述真實需求之間還有距離。在這篇論文中，研究員們嘗試去填補這個空白。研究員們首先從理論的角度上，對 deployment-efficient RL 這個問題提供了一個比較嚴謹?shù)亩x。之后以 episodic linear MDP 作為一個具體的設(shè)定，研究員們分別研究了最優(yōu)的算法能表現(xiàn)的怎樣（lower bound），以及提出了可以達到最優(yōu)的部署復(fù)雜度的算法設(shè)計方案（optimality）。

其中，在 lower bound 部分，研究員們貢獻了理論下界的構(gòu)造與相關(guān)證明；在 upper bound 部分，研究員們提出了“逐層推進”的探索策略（如圖5所示），并貢獻了基于協(xié)方差矩陣估計的新的算法框架，以及一些技術(shù)層面的創(chuàng)新。研究員們的結(jié)論也揭示了部署帶有隨機性的策略對于降低部署復(fù)雜度的顯著作用，這一點在之前的工作當中往往被忽略了。

圖5：“逐層推進”的探索策略（以3層的離散馬爾科夫決策過程為例）

強化學習中的變分先知引導(dǎo)

論文鏈接：https://www.microsoft.com/en-us/research/publication/variational-oracle-guiding-for-reinforcement-learning/

GitHub鏈接：https://github.com/Agony5757/mahjong

深度強化學習（DRL）最近在各種決策問題上都取得了成功，然而有一個重要的方面還沒有被充分探索——如何利用 oracle observation（決策時不可見，但事后可知的信息）來幫助訓練。例如，人類****高手會在賽后查看比賽的回放，在回放中，他們可以分析對手的手牌，從而幫助他們更好地反思比賽中自己根據(jù)可見信息（executor observation）來做的決策是否可以改進。這樣的問題被稱為 oracle guiding。

在這項工作中，研究員們基于貝葉斯理論對 oracle guiding 的問題進行了研究。本篇論文提出了一種新的基于變分貝葉斯方法（variational Bayes）的強化學習的目標函數(shù)，來利用 oracle observation 幫助訓練。這項工作的主要貢獻是提出了一個通用的強化學習框架，稱為 Variational Latent Oracle Guiding (VLOG)。VLOG 具有許多優(yōu)異的性質(zhì)，比如在各種任務(wù)上都有著良好且魯棒的表現(xiàn)，而且 VLOG 可以與任何 value-based 的 DRL 算法相結(jié)合使用。

圖6：VLOG 在訓練時和使用時的模型圖表（以 Q-learning 為例）。左：訓練時（知道 oracle observation），分別用 executor observation 和 oracle observation 來估計一個貝葉斯隱變量z的先驗（prior）和后驗（posterior）分布。通過優(yōu)化 VLOG 變分下界（variational lower bound，后驗?zāi)Ｐ偷膹娀瘜W習目標函數(shù)減去z的后驗和先驗分布之間的KL散度）來訓練整個模型。右：使用時，基于可見信息來做出決策。

研究員們對 VLOG 進行了各種任務(wù)的實驗，包括一個迷宮，簡明版的 Atari Games，以及麻將。實驗涵蓋了在線以及離線強化學習的不同情況，均驗證了 VLOG 的良好表現(xiàn)。此外，研究員們還開源了文中使用的麻將強化學習環(huán)境和對應(yīng)的離線強化學習數(shù)據(jù)集，來作為未來 oracle guiding 問題和復(fù)雜決策環(huán)境研究的標準化測試環(huán)境。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

電容傳感器相關(guān)文章:電容傳感器原理

博客專欄

ICLR 2022 | 微軟亞洲研究院深度學習領(lǐng)域最新研究成果一覽

相關(guān)推薦

技術(shù)專區(qū)