做時間序列預(yù)測有必要用深度學(xué)習(xí)嗎?事實證明,梯度提升回歸樹媲美甚至超越多個DNN模型
在深度學(xué)習(xí)方法應(yīng)用廣泛的今天,所有領(lǐng)域是不是非它不可呢?其實未必,在時間序列預(yù)測任務(wù)上,簡單的機(jī)器學(xué)習(xí)方法能夠媲美甚至超越很多 DNN 模型。
過去幾年,時間序列領(lǐng)域的經(jīng)典參數(shù)方法(自回歸)已經(jīng)在很大程度上被復(fù)雜的深度學(xué)習(xí)框架(如 DeepGIO 或 LSTNet 等)更新替代。這是因為傳統(tǒng)方法可能無法捕獲長期和短期序列混合傳遞的信息,而深度學(xué)習(xí)方法的思路是掌握數(shù)據(jù)中的跨時非線性依賴。從結(jié)果來看,這些深度學(xué)習(xí)方法不僅優(yōu)于 ARIMA 等傳統(tǒng)方法和梯度提升回歸樹(Gradient Boosting Regression Tree, GBRT)等簡單機(jī)器學(xué)習(xí)模型,而且增強(qiáng)了這樣一種預(yù)期,即機(jī)器學(xué)習(xí)領(lǐng)域的時間序列預(yù)測模型需要以深度學(xué)習(xí)工作為基礎(chǔ),才能得到 SOTA 結(jié)果。
但是,推薦系列領(lǐng)域的最新啟示表明,深度學(xué)習(xí)方法在機(jī)器學(xué)習(xí)各種研究分支取得的成就需要對簡單高效模型定期確認(rèn)和評估,以保持各自研究領(lǐng)域進(jìn)展的真實性。除了時間序列預(yù)測模型越來越復(fù)雜之外,另一個動機(jī)包括文獻(xiàn)中正在完善的深度學(xué)習(xí)模型在處理時間序列預(yù)測問題上的片面性,因此限制了現(xiàn)有解決方案方法的多樣性。
在前段時間的一篇論文《Do We Really Need Deep Learning Models for Time Series Forecasting?》中,來自德國希爾德斯海姆大學(xué)計算機(jī)科學(xué)系的研究者展示了通過精心配置的輸入處理結(jié)構(gòu),GBRT 等簡單但強(qiáng)大的集成模型在時間序列預(yù)測領(lǐng)域能夠媲美甚至超越很多 DNN 模型。
論文地址:https://arxiv.org/pdf/2101.02118.pdf
研究者對特征工程多輸出 GBRT 模型進(jìn)行了評估,并提出了以下兩個研究問題:
對于用于時間序列預(yù)測的基于窗口的學(xué)習(xí)框架來說,精心配置 GBRT 模型的輸入和輸出結(jié)構(gòu)有什么效果?
一個雖簡單但配置良好的 GBRT 模型與 SOTA 深度學(xué)習(xí)時間序列預(yù)測框架相比如何?
為了回答這兩個問題,研究者選擇了雙重實驗設(shè)置,分別解決兩類預(yù)測任務(wù),即系統(tǒng)化方式中的單變量和多變量預(yù)測。目的是評估 GBRT 模型以及在頂會(NeurIPS、KDD、SIGIR、ECML、ICML、CIKM、IJCAI、ICLR 等)中出現(xiàn)的 SOTA 深度學(xué)習(xí)方法。這項研究的整體貢獻(xiàn)可以總結(jié)如下:
一,研究者將一個簡單的機(jī)器學(xué)習(xí)方法 GBRT 提升了競品 DNN 時間序列預(yù)測模型的標(biāo)準(zhǔn)。首先將 GBRT 轉(zhuǎn)換成一個基于窗口的回歸框架,接著對它的輸入和輸出結(jié)構(gòu)進(jìn)行特征工程,如此便能從額外上下文信息中獲益最多;二,為了突出輸入處理對時間序列預(yù)測模型的重要性,研究者通過實證證明了為什么基于窗口的 GBRT 輸入設(shè)置可以在時間序列預(yù)測領(lǐng)域提高 ARIMA 和原版 GBRT 等精心配置的模型所產(chǎn)生的預(yù)測性能;三,研究者比較了 GBRT 與各種 SOTA 深度學(xué)習(xí)時間序列預(yù)測模型的性能,并驗證了它在單變量和雙變量時間序列預(yù)測任務(wù)中的競爭力。
這項研究也引起了不少人的共鳴。有人認(rèn)為,時間序列分類任務(wù)同樣也沒有必要用深度學(xué)習(xí)方法。在一些情況下,SVMs 或邏輯回歸方法表現(xiàn)更好,速度也更快。
研究設(shè)計
選擇基線。研究者系統(tǒng)地過濾了 2016 年至 2020 年在 NeurIPS、KDD、SIGIR、SDM、ECML、ICML、CIKM、IJCAI、ICLR 等會議表現(xiàn)較好的論文集。論文需滿足以下要求:
主題:只考慮時間序列預(yù)測領(lǐng)域的研究;
數(shù)據(jù)結(jié)構(gòu):專用數(shù)據(jù)類型,但如異步時間序列和概念化為圖形的數(shù)據(jù)被排除在外;
可復(fù)現(xiàn):數(shù)據(jù)、源代碼應(yīng)公開。如果源代碼不可用,但實驗設(shè)置有清晰的文檔,研究也可以從實驗中復(fù)制結(jié)果;
計算的可行性:研究中得出的結(jié)果能夠以易于處理的方式復(fù)現(xiàn),并在合理的時間內(nèi)可計算。
評估。該研究在兩個層次上對時間序列預(yù)測 GBRT 模型進(jìn)行評估:一個單變量和一個多變量。為了使所選的深度學(xué)習(xí)基線和 GBRT 之間具有顯著的可比性,該研究在相同的數(shù)據(jù)集上評估了所有模型,數(shù)據(jù)集如下表 1 所示:左邊提供了關(guān)于用來評估模型數(shù)據(jù)集,而右邊則列出了各自的實驗規(guī)范:
問題公式化。時間序列預(yù)測問題,就監(jiān)督學(xué)習(xí)而言,時間序列預(yù)測可以表述為:給定一個集合和一個集合,經(jīng)過一系列假設(shè)后,得到如下期望損失最小化模型:
GBRT
GBRT 模型,特別是 XGBoost 實現(xiàn),其優(yōu)點(diǎn)是易于應(yīng)用,而且在結(jié)構(gòu)化數(shù)據(jù)上特別成功。但是當(dāng)涉及時間序列預(yù)測的初始(naive)實現(xiàn)時,GBRT 模型失去了很大一部分靈活性,因為它們沒有被投射到基于窗口的回歸問題中,而是被配置為適合大部分時間序列作為完整且連續(xù)的數(shù)據(jù)點(diǎn)序列來預(yù)測時間序列的后續(xù)和剩余測試部分。
與上述初始實現(xiàn)不同,該研究通過將時間序列重新配置為窗口輸入,并在多個訓(xùn)練實例(窗口)上進(jìn)行訓(xùn)練,以模擬成功的時間序列預(yù)測模型中使用的輸入處理行為,為此該研究定義了一個可調(diào)窗口,。這種基于窗口的 GBRT 模型輸入設(shè)置如圖 1 所示:
第一步是使用變換函數(shù)將典型的 2D 訓(xùn)練實例(時間序列輸入窗口)變換為適合 GBRT 的 1D 形狀向量(扁平窗口)。該函數(shù)將所有 w 實例的目標(biāo)值 y_i 連接起來,然后將最后一個時間點(diǎn)實例 t 的協(xié)變量向量附加到輸入窗口 w 中,表示為 。
基于窗口的 GBRT 輸入設(shè)置極大地提高了其預(yù)測性能,因為 GBRT 模型現(xiàn)在能夠掌握數(shù)據(jù)的底層時間序列結(jié)構(gòu),并且現(xiàn)在可以被認(rèn)為是先進(jìn) DNN 時間序列預(yù)測模型的適當(dāng)機(jī)器學(xué)習(xí)基線。另一方面,簡單配置的 GBRT 模型是一個簡單的逐點(diǎn)回歸模型,將時間點(diǎn) 的協(xié)變量作為輸入,預(yù)測單一目標(biāo)值 Y_i、j 為同一時間點(diǎn)訓(xùn)練損失如下:
實驗結(jié)果
單變量時間序列的結(jié)果
下表 2 總體結(jié)果表明,除了 traffic 預(yù)測外,基于窗口的 GBRT 具有較強(qiáng)的競爭力。另一方面,具有傳統(tǒng)配置的預(yù)測模型(例如 ARIMA 和 GBRT(Naive))的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于預(yù)期。
而在 electricity 預(yù)測方面,基于窗口的 GBRT 在所有模型中均顯示出最佳的 RMSE 性能,其在 WAPE 和 MAE 方面的性能僅優(yōu)于 2016 年推出的 TRMF,基于注意力的 DARNN 模型表現(xiàn)較差。關(guān)于 exchange rate 任務(wù),LSTNet(以 w = 24 重新實現(xiàn))和 TMRF 顯示出相當(dāng)強(qiáng)的結(jié)果,優(yōu)于基于窗口的 GBRT 基線。
在不考慮時間預(yù)測器的情況下,traffic 預(yù)測的結(jié)果是混合的,因此 DARNN 和 LSTNet 實現(xiàn)了 traffic 數(shù)據(jù)集的最佳結(jié)果,而對于 PeMSD7 數(shù)據(jù)集,基于窗口的 GBRT 基線在兩個方面優(yōu)于 DNN 模型三個指標(biāo)。然而,時間協(xié)變量的包含顯著提高了 GBRT 的性能(下表 3),因此,對于 traffic 預(yù)測,所有 DNN 方法,包括 DeepGlo [18] 和 STGCN(spatio-temporal traffic forecasting model ) [19],其在 PeMSD7 上實現(xiàn)了 6.77 的 RMSE,優(yōu)于重新配置的 GBRT 基線。
下表 4 顯示了 LSTNet 與 GBRT(W-b) 的結(jié)果:
下表 5 中的結(jié)果表明 GBRT 的競爭力,但也表明基于 transformer 的模型相當(dāng)強(qiáng)大,例如 TFT 超過了提升回歸樹性能。然而,作為一個例外,TFT 構(gòu)成了本研究中唯一一個始終優(yōu)于 GBRT 的 DNN 模型,而 DeepAR 和 DeepState 等概率模型在這些單變量數(shù)據(jù)集上的表現(xiàn)優(yōu)于其他模型。
多元數(shù)據(jù)集
下表 6 中為 DARNN 與基于窗口 GBRT 比較:簡單、配置良好的 GBRT 基線可以超越 DNN 框架。
從下表 7 可以看出,即使是專門為某一預(yù)測任務(wù)設(shè)計的 DNN 模型,也沒有達(dá)到預(yù)期效果。相反,DAQFF 的性能比簡單的基于窗口、特征工程的梯度提升回歸樹模型更差。在本實驗中,值得注意的是,即使是傳統(tǒng)應(yīng)用預(yù)測意義上的 GBRT 模型也能在 air quality 數(shù)據(jù)集上提供更好的結(jié)果。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。