博客專欄

EEPW首頁(yè) > 博客 > 2022年深度學(xué)習(xí)在時(shí)間序列預(yù)測(cè)和分類(lèi)中的研究進(jìn)展綜述

2022年深度學(xué)習(xí)在時(shí)間序列預(yù)測(cè)和分類(lèi)中的研究進(jìn)展綜述

發(fā)布人:大數(shù)據(jù)文摘 時(shí)間:2023-02-18 來(lái)源:工程師 發(fā)布文章
大數(shù)據(jù)文摘轉(zhuǎn)載自數(shù)據(jù)派THU

來(lái)源:Deephub Imba
時(shí)間序列預(yù)測(cè)的transformers的衰落和時(shí)間序列嵌入方法的興起,還有異常檢測(cè)、分類(lèi)也取得了進(jìn)步。
2022年整個(gè)領(lǐng)域在幾個(gè)不同的方面取得了進(jìn)展,本文將嘗試介紹一些在過(guò)去一年左右的時(shí)間里出現(xiàn)的更有前景和關(guān)鍵的論文,以及Flow Forecast [FF]預(yù)測(cè)框架。
圖片


時(shí)間序列預(yù)測(cè)

1.Are Transformers Really Effective for Time Series Forecasting?


https://arxiv.org/pdf/2205.13504.pdf
Transformer相關(guān)研究對(duì)比Autoformer、Pyraformer、Fedformer等,它們的效果和問(wèn)題:
圖片
隨著 Autoformer (Neurips 2021)、Pyraformer (ICLR 2022)、Fedformer (ICML 2022)、EarthFormer (Neurips 2022) 和 Non-Stationary Transformer (Neurips) 等模型的出現(xiàn),時(shí)間序列預(yù)測(cè)架構(gòu)的 Transformer 系列不斷發(fā)展壯)。但是這些模型準(zhǔn)確預(yù)測(cè)數(shù)據(jù)并優(yōu)于現(xiàn)有方法的能力仍然存在疑問(wèn),特別是根據(jù)新研究(我們將在稍后討論)。
Autoformer :擴(kuò)展并改進(jìn)了 Informer 模型的性能。Autoformer 具有自動(dòng)關(guān)聯(lián)機(jī)制,使模型能夠比標(biāo)準(zhǔn)注意力更好地學(xué)習(xí)時(shí)間依賴性。它旨在準(zhǔn)確分解時(shí)態(tài)數(shù)據(jù)的趨勢(shì)和季節(jié)成分。
圖片
Pyraformer:作者介紹了“金字塔注意模塊 (PAM),其中尺度間樹(shù)結(jié)構(gòu)總結(jié)了不同分辨率下的特征,尺度內(nèi)相鄰連接對(duì)不同范圍的時(shí)間依賴性進(jìn)行建模?!?/span>
Fedformer:該模型側(cè)重于在時(shí)間序列數(shù)據(jù)中捕捉全球趨勢(shì)。作者提出了一個(gè)季節(jié)性趨勢(shì)分解模塊,旨在捕捉時(shí)間序列的全局特征。
Earthformer: 可能是這些論文中最獨(dú)特的一個(gè),它特別專注于預(yù)測(cè)地球系統(tǒng),如天氣、氣候和農(nóng)業(yè)等。介紹了一種新的cuboid 注意力架構(gòu)。這篇論文應(yīng)該是潛力巨大的望,因?yàn)樵诤恿骱捅┖轭A(yù)測(cè)方面的研究,許多經(jīng)典的Transformer都失敗了。
Non-Stationary Transformer:這是使用transformer 用于預(yù)測(cè)的最新論文。作者旨在更好地調(diào)整 Transformer 以處理非平穩(wěn)時(shí)間序列。他們采用兩種機(jī)制:去平穩(wěn)注意里和一系列平穩(wěn)化機(jī)制。這些機(jī)制可以插入到任何現(xiàn)有的Transformer模型中,作者測(cè)試將它們插入 Informer、Autoformer 和傳統(tǒng)的Transformer 中,都可以提高性能(在附錄中,還表明它可以提高 Fedformer 的性能)。
論文的評(píng)估方法:與 Informer 類(lèi)似,所有這些模型(Earthformer 除外)都在電力、交通、金融和天氣數(shù)據(jù)集上進(jìn)行了評(píng)估。主要根據(jù)均方誤差 (MSE) 和平均絕對(duì)誤差 (MAE) 指標(biāo)進(jìn)行評(píng)估:
圖片
這篇論文很好,但是它只對(duì)比了Transformer相關(guān)的論文,其實(shí)應(yīng)該與更簡(jiǎn)單的方法進(jìn)行比較,比如簡(jiǎn)單的線性回歸、LSTM/GRU、甚至是XGB等樹(shù)形模型。另外就是它們應(yīng)該不僅僅局限在一些標(biāo)準(zhǔn)數(shù)據(jù)集,因?yàn)槲以谄渌麜r(shí)間序列相關(guān)數(shù)據(jù)集上沒(méi)有看到很好的表現(xiàn)。比如說(shuō)informer準(zhǔn)確預(yù)測(cè)河流流量方面遇到了巨大的問(wèn)題,與LSTM或甚至是普通的Transformer相比,它的表現(xiàn)通常很差。
另外就是由于與計(jì)算機(jī)視覺(jué)不同,圖像維度至少保持不變,時(shí)間序列數(shù)據(jù)在長(zhǎng)度、周期性、趨勢(shì)和季節(jié)性方面可能存在巨大差異,因此需要更大范圍的數(shù)據(jù)集。
在OpenReview的Non-Stationary Transformer的評(píng)論中,一位評(píng)論者也表達(dá)了這些問(wèn)題,但它在最終的元評(píng)論中被否決了:
“由于該模型屬于Transformer領(lǐng)域,而且Transformer之前已經(jīng)在許多任務(wù)中表現(xiàn)出了最先進(jìn)的水平,我認(rèn)為沒(méi)有必要與其他‘家族’方法進(jìn)行比較?!?/span>
這是一個(gè)非常有問(wèn)題的論點(diǎn),并導(dǎo)致研究在現(xiàn)實(shí)世界中缺乏適用性。就像我們所認(rèn)知的:XGB在表格數(shù)據(jù)的壓倒性優(yōu)勢(shì)還沒(méi)有改變,Transformer的閉門(mén)造車(chē)又有什么意義?每次都超越,每次都被吊打。
作為一個(gè)在實(shí)踐中重視最先進(jìn)的方法和創(chuàng)新模型的人,當(dāng)我花了幾個(gè)月的時(shí)間試圖讓一個(gè)所謂的“好”模型工作時(shí),但是最后卻發(fā)現(xiàn),他的表現(xiàn)還不如簡(jiǎn)單的線性回歸,那這幾個(gè)月有什么意思?這個(gè)所謂的好”模型又有什么意義。
所有的 transformer 論文都同樣存在有限評(píng)估的問(wèn)題。我們應(yīng)該從一開(kāi)始就要求更嚴(yán)格的比較和對(duì)缺點(diǎn)的明確說(shuō)明。一個(gè)復(fù)雜的模型最初可能并不總是優(yōu)于簡(jiǎn)單模型,但需要在論文中明確指出這一點(diǎn),而不是掩蓋或簡(jiǎn)單地假設(shè)沒(méi)有這種情況。
但是這篇論文還是很好的,比如Earthformer 在MovingMNIST 數(shù)據(jù)集和N-body MNIST數(shù)據(jù)集上進(jìn)行了評(píng)估,作者用它來(lái)驗(yàn)證cuboid 注意力的有效性,評(píng)估了它的降水量即時(shí)預(yù)報(bào)和厄爾尼諾周期預(yù)報(bào)。我認(rèn)為這是一個(gè)很好的例子,將物理知識(shí)整合到具有注意力的模型架構(gòu)中,然后設(shè)計(jì)出好的測(cè)試。

2.Are Transformers Effective for Time Series Forecasting (2022)?


https://arxiv.org/pdf/2205.13504.pdf
圖片
這篇論文探討了 Transformer 預(yù)測(cè)數(shù)據(jù)與基線方法的能力。結(jié)果在某種程度上再次證實(shí)了Transformers 的性能通常比更簡(jiǎn)單的模型差,而且難以調(diào)整。這篇論文中的幾個(gè)有趣的觀點(diǎn):

  • 用基本的線性層替換自注意力并發(fā)現(xiàn):“Informer 的性能隨著逐漸簡(jiǎn)化而增長(zhǎng),表明至少對(duì)于現(xiàn)有的 LTSF 基準(zhǔn)來(lái)說(shuō),自注意力方案和其他復(fù)雜模塊是不必要的”
  • 調(diào)查了增加回溯窗口( look-back window )是否會(huì)提高 Transformer 的性能并發(fā)現(xiàn):“SOTA Transformers 的性能略有下降,表明這些模型僅從相鄰的時(shí)間序列序列中捕獲相似的時(shí)間信息?!?/span>
  • 探討了位置嵌入是否真的能很好地捕捉時(shí)間序列的時(shí)間順序。通過(guò)將輸入序列隨機(jī)混洗到Transformer中來(lái)做到這一點(diǎn)。他們?cè)趲讉€(gè)數(shù)據(jù)集上發(fā)現(xiàn)這種改組并沒(méi)有影響結(jié)果(這個(gè)編碼很麻煩)。


在過(guò)去的幾年里,Transformer模型的無(wú)數(shù)次時(shí)間序列實(shí)驗(yàn)在絕大多數(shù)情況下結(jié)果都不太理想。在很長(zhǎng)一段時(shí)間里,我們都認(rèn)為一定是做錯(cuò)了什么,或者遺漏了一些小的實(shí)現(xiàn)細(xì)節(jié)。所有這些都被認(rèn)為是下一個(gè)SOTA模型的思路。但是這個(gè)論文卻有一致的思路就是?如果一個(gè)簡(jiǎn)單的模型勝過(guò)Transformer,我們應(yīng)該繼續(xù)使用它們嗎?是所有的Transformer都有固有的缺陷,還是只是當(dāng)前的機(jī)制?我們是否應(yīng)該回到lstm、gru或簡(jiǎn)單的前饋模型這樣的架構(gòu)?這些問(wèn)題我都不知道答案,但是這篇論文的整體影響還有待觀察。到目前為止,我認(rèn)為答案可能是退一步,專注于學(xué)習(xí)有效的時(shí)間序列表示。畢竟最初BERT在NLP環(huán)境中成功地形成了良好的表示。
也就是說(shuō),我不認(rèn)為我們應(yīng)該把時(shí)間序列的Transformer視為完全死亡。Fedformer的表現(xiàn)非常接近簡(jiǎn)單模型,并且在各種消融打亂任務(wù)中表現(xiàn)更好。雖然的基準(zhǔn)在很多情況下都難以進(jìn)行預(yù)測(cè),但他們對(duì)數(shù)據(jù)的內(nèi)部表示卻相當(dāng)不錯(cuò)。我認(rèn)為還需要進(jìn)一步了解內(nèi)部表示和實(shí)際預(yù)測(cè)輸出之間的脫節(jié)。另外就是正如作者所建議的那樣,改進(jìn)位置嵌入可以在提高整體性能方面發(fā)揮關(guān)鍵作用。最后有一個(gè)Transformer的模型,在各種異常檢測(cè)數(shù)據(jù)集上表現(xiàn)非常好,下面就會(huì)介紹。

3.Anomaly Transformer (ICLR Spolight 2022)


https://arxiv.org/abs/2110.02642
相當(dāng)多的研究都集中在將 transformers 應(yīng)用于預(yù)測(cè),但是異常檢測(cè)的研究相對(duì)較少。這篇介紹了一種(無(wú)監(jiān)督)Transformer 來(lái)檢測(cè)異常。該模型結(jié)合使用特別構(gòu)建的異常注意機(jī)制和 minmax 策略。
圖片
本文在五個(gè)真實(shí)世界的數(shù)據(jù)集上評(píng)估了模型的性能,包括Server Machine Dataset, Pooled Server Metrics, Soil Moisture Active Passive和NeurIPS-TS(它本身由五個(gè)不同的數(shù)據(jù)集組成)。雖然有人可能會(huì)對(duì)這個(gè)模型持懷疑態(tài)度,特別是關(guān)于第二篇論文的觀點(diǎn),但這個(gè)評(píng)估是相當(dāng)嚴(yán)格的。Neurips-TS是一個(gè)最近創(chuàng)建的,專門(mén)用于提供更嚴(yán)格的異常檢測(cè)模型評(píng)估的數(shù)據(jù)集。與更簡(jiǎn)單的異常檢測(cè)模型相比,該模型似乎確實(shí)提高了性能。
作者提出了一種獨(dú)特的無(wú)監(jiān)督Transformer,它在過(guò)多的異常檢測(cè)數(shù)據(jù)集上表現(xiàn)良好。這是過(guò)去幾年時(shí)間序列Transformer領(lǐng)域最有前途的論文之一。因?yàn)轭A(yù)測(cè)比分類(lèi)甚至異常檢測(cè)更具挑戰(zhàn)性,因?yàn)槟阍噲D預(yù)測(cè)未來(lái)多個(gè)時(shí)間步驟的巨大可能值范圍。這么多的研究都集中在預(yù)測(cè)上,而忽略了分類(lèi)或異常檢測(cè),對(duì)于Transformer我們是不是應(yīng)該從簡(jiǎn)單的開(kāi)始呢?

4.WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting (Neurips 2022):


https://openreview.net/forum?id=vsNQkquutZk
論文介紹了一種新的正則化形式,可以改進(jìn)深度時(shí)間序列預(yù)測(cè)模型(特別是上述transformers )的訓(xùn)練。
作者通過(guò)將其插入現(xiàn)有的 transformer + LSTNet模型來(lái)評(píng)估。他們發(fā)現(xiàn)它在大多數(shù)情況下顯著提高了性能。盡管他們只測(cè)試了Autoformer 模型,而沒(méi)有測(cè)試 Fedformer 這樣的更新模型。
新形式的正則化或損失函數(shù)總是有用的,因?yàn)樗鼈兺ǔ?梢圆迦肴魏维F(xiàn)有的時(shí)間序列模型中。如果你 Fedformer + 非平穩(wěn)機(jī)制 + Wavebound 結(jié)合起來(lái),你可能會(huì)在性能上擊敗簡(jiǎn)單的線性回歸 :)。
時(shí)間序列表示
雖然Transformer 再預(yù)測(cè)方向上的效果并不好,但在創(chuàng)建有用的時(shí)間序列表示方面Transformer還是取得了許多進(jìn)展。我認(rèn)為這是時(shí)間序列深度學(xué)習(xí)領(lǐng)域中一個(gè)令人印象深刻的新領(lǐng)域,應(yīng)該進(jìn)行更深入的探索。

5.TS2Vec: Towards Universal Representation of Time Series (AAAI 2022)


https://arxiv.org/abs/2106.10466
TS2Vec是一個(gè)學(xué)習(xí)時(shí)間序列表示/嵌入的通用框架。這篇論文本身已經(jīng)有些過(guò)時(shí)了,但它確實(shí)開(kāi)始了時(shí)間序列表示學(xué)習(xí)論文的趨勢(shì)。
對(duì)使用表示進(jìn)行預(yù)測(cè)和異常檢測(cè)進(jìn)行評(píng)估,該模型優(yōu)于許多模型,例如 Informer 和 Log Transformer。

6.Learning Latent Seasonal-Trend Representations for Time Series Forecasting(Neurips 2022)


https://openreview.net/forum?id=C9yUwd72yy
圖片
作者創(chuàng)建了一個(gè)模型(LAST),使用變分推理創(chuàng)建季節(jié)性和趨勢(shì)的分離表示。
作者對(duì)他們的模型進(jìn)行了下游預(yù)測(cè)任務(wù)的評(píng)價(jià),他們通過(guò)在表示上添加一個(gè)預(yù)測(cè)器(見(jiàn)上圖中的B)來(lái)做到這一點(diǎn)。它們還提供了有趣的圖來(lái)顯示表示的可視化。該模型在幾個(gè)預(yù)測(cè)任務(wù)以及TS2Vec和成本方面都優(yōu)于Autoformer。在一些預(yù)測(cè)任務(wù)上,它看起來(lái)也可能比上面提到的簡(jiǎn)單線性回歸表現(xiàn)更好。圖片
盡管我仍然對(duì)那些只評(píng)估標(biāo)準(zhǔn)預(yù)測(cè)任務(wù)的模型持懷疑態(tài)度,但這個(gè)模型的確很亮眼,因?yàn)樗P(guān)注的是表征而不是預(yù)測(cè)任務(wù)本身。如果我們看一下論文中展示的一些圖表,可以看到模型似乎確實(shí)學(xué)會(huì)了區(qū)分季節(jié)性和趨勢(shì)。不同數(shù)據(jù)集的可視化表示也嵌入到相同的空間中,如果它們顯示出實(shí)質(zhì)性的差異,那將是很有趣的。

7.CoST: Contrastive Learning of Disentangled Seasonal-Trend Representations for Time Series Forecasting (ICLR 2022)


https://openreview.net/forum?id=PilZY3omXV2
這是2022年早些時(shí)候在ICLR上發(fā)表的一篇論文,在學(xué)習(xí)季節(jié)和趨勢(shì)表示方面與LaST非常相似。由于LaST在很大程度上已經(jīng)取代了它的性能,這里就不做過(guò)多的描述了。但鏈接在上面供那些想要閱讀的人閱讀。
其他有趣的論文

8.Domain Adaptation for Time Series Forecasting via Attention Sharing(ICML 2022)


https://arxiv.org/abs/2102.06828
圖片
當(dāng)缺乏訓(xùn)練數(shù)據(jù)時(shí),預(yù)測(cè)對(duì) DNN 來(lái)說(shuō)是一項(xiàng)挑戰(zhàn)。這篇論文對(duì)具有豐富數(shù)據(jù)的領(lǐng)域使用共享注意力層,然后對(duì)目標(biāo)領(lǐng)域使用單獨(dú)的模塊。
它所提出的模型使用合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集進(jìn)行評(píng)估。在合成環(huán)境中,測(cè)試了冷啟動(dòng)學(xué)習(xí)和少樣本學(xué)習(xí),發(fā)現(xiàn)他們的模型優(yōu)于普通 Transformer 和 DeepAR。對(duì)于真實(shí)數(shù)據(jù)集采用了 Kaggle 零售數(shù)據(jù)集,該模型在這些實(shí)驗(yàn)中大大優(yōu)于基線。
冷啟動(dòng)、少樣本和有限學(xué)習(xí)是極其重要的主題,但很少有論文涉及時(shí)間序列。該模型為解決其中一些問(wèn)題提供了重要的一步。也就是說(shuō)他們可以在更多不同的有限現(xiàn)實(shí)世界數(shù)據(jù)集上進(jìn)行評(píng)估,并與更多基準(zhǔn)模型進(jìn)行比較, 微調(diào)或正則化的好處在于可以對(duì)任何架構(gòu)進(jìn)行調(diào)整。

9.When to Intervene: Learning Optimal Intervention Policies for Critical Events (Neurips 2022)


https://openreview.net/pdf?id=rP9xfRSF4F
雖然這不是一篇“典型的”時(shí)間序列論文,但我選擇將其列入這個(gè)列表,因?yàn)楸疚牡闹攸c(diǎn)是在機(jī)器發(fā)生故障之前找到進(jìn)行干預(yù)的最佳時(shí)間。這被稱為OTI或最佳時(shí)間干預(yù)。
評(píng)估OTI的問(wèn)題之一是潛在生存分析的準(zhǔn)確性(如果不正確,評(píng)估也會(huì)不正確)。作者根據(jù)兩個(gè)靜態(tài)閾值評(píng)估了他們的模型,發(fā)現(xiàn)它表現(xiàn)得很好,并且繪制了不同政策的預(yù)期表現(xiàn)和命中與失敗的比率。
這是一個(gè)有趣的問(wèn)題,作者提出了一個(gè)新穎的解決方案,Openreview的一位評(píng)論者指出:“如果有一個(gè)圖表顯示失敗概率和預(yù)期干預(yù)時(shí)間之間的權(quán)衡,那么實(shí)驗(yàn)可能會(huì)更有說(shuō)服力,這樣人們就可以直觀地看到這個(gè)權(quán)衡曲線的形狀?!?/span>
下面還有一些相關(guān)論文,如果你有興趣可以看看。
10.FiLM: Frequency improved Legendre Memory Model for Long-term Time Series Forecasting (Neurips 2022)
https://openreview.net/forum?id=zTQdHSQUQWc
11.Adjusting for Autocorrelated Errors in Neural Networks for Time Series (Neurips 2021)
12.Dynamic Sparse Network for Time Series Classification: Learning What to “See” (Neurips 2022)
https://openreview.net/forum?id=ZxOO5jfqSYw
最近的數(shù)據(jù)集/基準(zhǔn)
最后就是數(shù)據(jù)集的測(cè)試的基準(zhǔn)
Monash Time Series Forecasting Archive (Neurips 2021):該存檔旨在形成不同時(shí)間序列數(shù)據(jù)集的“主列表”,并提供更權(quán)威的基準(zhǔn)。該存儲(chǔ)庫(kù)包含 20 多個(gè)不同的數(shù)據(jù)集,涵蓋多個(gè)行業(yè),包括健康、零售、拼車(chē)、人口統(tǒng)計(jì)等等。
https://forecastingdata.org/
Subseasonal Forecasting Microsoft (2021):這是 Microsoft 公開(kāi)發(fā)布的數(shù)據(jù)集,旨在促進(jìn)使用機(jī)器學(xué)習(xí)來(lái)改進(jìn)次季節(jié)預(yù)測(cè)(例如未來(lái)兩到六周)。次季節(jié)預(yù)報(bào)有助于政府機(jī)構(gòu)更好地為天氣事件和農(nóng)民的決定做準(zhǔn)備。微軟為該任務(wù)包含了幾個(gè)基準(zhǔn)模型,與其他方法相比,一般來(lái)說(shuō)深度學(xué)習(xí)模型的表現(xiàn)相當(dāng)差。最好的 DL 模型是一個(gè)簡(jiǎn)單的前饋模型,而 Informer 的表現(xiàn)非常糟糕。
https://www.microsoft.com/en-us/research/project/subseasonal-climate-forecasting/
Revisiting Time Series Outlier Detection:本文評(píng)述了許多現(xiàn)有的異常/異常值檢測(cè)數(shù)據(jù)集,并提出了35個(gè)新的合成數(shù)據(jù)集和4個(gè)真實(shí)世界數(shù)據(jù)集用于基準(zhǔn)測(cè)試。
https://openreview.net/forum?id=r8IvOsnHchr

開(kāi)源的時(shí)序預(yù)測(cè)框架FF


Flow Forecast是一個(gè)開(kāi)源的時(shí)序預(yù)測(cè)框架,它包含了以下模型:
Vanilla LSTM (LSTM)、SimpleTransformer、Multi-Head Attention、Transformer with a linear decoder、DARNN、Transformer XL、Informer、DeepAR、DSANet 、SimpleLinearModel等等。
這是一個(gè)學(xué)習(xí)使用深度學(xué)習(xí)進(jìn)行時(shí)間預(yù)測(cè)的很好的模型代碼來(lái)源,有興趣的可以看看。
https://github.com/AIStream-Peelout/flow-forecast


總結(jié)
在過(guò)去的兩年里,我們已經(jīng)看到了Transformer在時(shí)間序列預(yù)測(cè)中的興起和可能的衰落和時(shí)間序列嵌入方法的興起,以及異常檢測(cè)和分類(lèi)方面的額外突破。
但是對(duì)于深度學(xué)習(xí)的時(shí)間序列來(lái)說(shuō):可解釋性、可視化和基準(zhǔn)測(cè)試方法還是有所欠缺,因?yàn)槟P驮谀睦飯?zhí)行,在哪里出現(xiàn)性能故障是非常重要的。此外,更多形式的正則化、預(yù)處理和遷移學(xué)習(xí)來(lái)提高性能可能會(huì)在未來(lái)中出現(xiàn)。
也許Transformer對(duì)時(shí)間序列預(yù)測(cè)有好處(也許不是),就像VIT那樣如果沒(méi)有Patch的出現(xiàn)Transformer可能還會(huì)被認(rèn)為不行,我們也將繼續(xù)關(guān)注Transformer在時(shí)間序列的發(fā)展或者替代。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉