博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 微軟亞洲研究院推出時(shí)空預(yù)測(cè)開(kāi)源工具FOST,應(yīng)對(duì)各行業(yè)共性預(yù)測(cè)需求

微軟亞洲研究院推出時(shí)空預(yù)測(cè)開(kāi)源工具FOST,應(yīng)對(duì)各行業(yè)共性預(yù)測(cè)需求

發(fā)布人:MSRAsia 時(shí)間:2021-12-18 來(lái)源:工程師 發(fā)布文章

編者按:2020年新冠疫情肆虐全球,為了控制疫情蔓延,找到應(yīng)對(duì)措施,美國(guó)疾病控制中心公布了大量疫情相關(guān)數(shù)據(jù),向全世界頂級(jí)科研機(jī)構(gòu)救助,希望科學(xué)家們可以利用技術(shù)能力,提供具有較高參考價(jià)值的預(yù)測(cè)數(shù)據(jù),從而幫助制定有效的控制策略。微軟亞洲研究院基于時(shí)空預(yù)測(cè)技術(shù),訓(xùn)練了針對(duì)新冠疫情的預(yù)測(cè)模型,并于2020年下半年被美國(guó)疾控中心采納使用。在過(guò)去的近一年中,該預(yù)測(cè)模型的表現(xiàn)整體優(yōu)于全球其它四十幾家科研機(jī)構(gòu)提供的預(yù)測(cè)模型。日前,微軟亞洲研究院基于此前的技術(shù)積累,正式推出了面向全行業(yè)的時(shí)空預(yù)測(cè)開(kāi)源工具 FOST。

什么是時(shí)空概念?“時(shí)”是指時(shí)間序列,“空”即空間上的相互影響和聯(lián)系。例如,物流行業(yè)每個(gè)站點(diǎn)的歷史派件量是時(shí)序關(guān)系,而各中轉(zhuǎn)/配送站點(diǎn)間又存在空間上的聯(lián)系;再比如,在新冠疫情防控中,各級(jí)行政區(qū)域的每日感染病例數(shù)字,單獨(dú)來(lái)看是時(shí)序關(guān)系,而彼此之間的關(guān)聯(lián)則屬于空間關(guān)系。

“時(shí)空”因素在各行業(yè)中的廣泛存在,使時(shí)空預(yù)測(cè)成為眾多行業(yè)進(jìn)行科學(xué)決策、優(yōu)化效率的關(guān)鍵。近日,微軟亞洲研究院推出了面向全行業(yè)、具有高度通用性與易用性的時(shí)空預(yù)測(cè)開(kāi)源工具 FOST(Forecasting Open Source Tool)。存在相關(guān)需求的企業(yè)和機(jī)構(gòu)可以基于這一便捷易用的工具生成高效的時(shí)空預(yù)測(cè)解決方案。

1.jpg

GitHub 鏈接:

https://github.com/microsoft/FOST

共性抽象:時(shí)空預(yù)測(cè)開(kāi)源工具FOST

近年來(lái)在與行業(yè)伙伴的緊密合作中,微軟亞洲研究院的研究員們發(fā)現(xiàn),時(shí)空預(yù)測(cè)需求普遍存在于物流、電信、醫(yī)療、交通等許多行業(yè)中。然而,當(dāng)前大部分的時(shí)空預(yù)測(cè)還只是停留在研究階段,真正應(yīng)用時(shí),大家只是相互借鑒思路,想要解決實(shí)際問(wèn)題還需要各自從頭開(kāi)始一點(diǎn)點(diǎn)摸索,并沒(méi)有一個(gè)簡(jiǎn)單、易上手的通用工具。

基于與多家企業(yè)在時(shí)空預(yù)測(cè)上的合作研究,微軟亞洲研究院的研究員們抽象出了行業(yè)共性問(wèn)題,將多年的技術(shù)和經(jīng)驗(yàn)積累進(jìn)行轉(zhuǎn)化,推出了具有極高行業(yè)通用性的時(shí)空預(yù)測(cè)工具 FOST。

2.png

FOST 架構(gòu)圖 

要使時(shí)空預(yù)測(cè)工具兼顧通用性和可用性,需解決三個(gè)常見(jiàn)問(wèn)題:第一是數(shù)據(jù)的質(zhì)量問(wèn)題,這就需要降低數(shù)據(jù)噪音,減小信息缺失的影響;第二是時(shí)序上要能對(duì)趨勢(shì)、周期、突發(fā)等各類(lèi)維度具有良好的包容性;第三則是在空間維度上打破以往預(yù)測(cè)模型只能單點(diǎn)預(yù)測(cè)的局限性,能夠在空間結(jié)構(gòu)中準(zhǔn)確預(yù)測(cè)并利用關(guān)聯(lián)影響。

為此,微軟亞洲研究院為時(shí)空預(yù)測(cè)工具 FOST 集成了三大功能模塊,來(lái)應(yīng)對(duì)多種復(fù)雜時(shí)空條件下的預(yù)測(cè):

數(shù)據(jù)處理:數(shù)據(jù)降噪,提升數(shù)據(jù)質(zhì)量

在 FOST 中,數(shù)據(jù)的收集由用戶自主完成,這既保證了能夠基于多樣的場(chǎng)景數(shù)據(jù)訓(xùn)練出不同的業(yè)務(wù)場(chǎng)景模型,又保證了用戶數(shù)據(jù)的隱私安全。之后,F(xiàn)OST 會(huì)針對(duì)存在噪音等問(wèn)題的質(zhì)量低下的數(shù)據(jù)進(jìn)行清洗,提升數(shù)據(jù)質(zhì)量,確保模型訓(xùn)練的準(zhǔn)確度。

時(shí)序解碼:輕量級(jí)時(shí)序神經(jīng)網(wǎng)絡(luò)

在時(shí)序預(yù)測(cè)上,微軟亞洲研究院采用了輕量級(jí)深度時(shí)序神經(jīng)網(wǎng)絡(luò)。

深度時(shí)序神經(jīng)網(wǎng)絡(luò)主要用來(lái)捕捉實(shí)際業(yè)務(wù)場(chǎng)景中的復(fù)雜歷史規(guī)律。以物流行業(yè)為例,可能數(shù)據(jù)顯示某幾個(gè)站點(diǎn)在夏季派件量比平時(shí)多,那么是否就可以推測(cè)出下個(gè)夏天派件量同樣會(huì)上漲呢?實(shí)際的關(guān)聯(lián)關(guān)系通常并不是這么簡(jiǎn)單就可以推斷出來(lái)的。深度時(shí)序網(wǎng)絡(luò)的作用就是找出其中的復(fù)雜關(guān)聯(lián)和細(xì)節(jié)規(guī)律。

但深度時(shí)序神經(jīng)網(wǎng)絡(luò)往往面臨訓(xùn)練速度慢,對(duì)于噪聲敏感的問(wèn)題。同時(shí)在數(shù)據(jù)量不充足的情況下,容易過(guò)擬合訓(xùn)練數(shù)據(jù)。因此,微軟亞洲研究院在深度時(shí)序神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過(guò)對(duì)時(shí)序數(shù)據(jù)降維,使結(jié)構(gòu)輕量化,從而加速訓(xùn)練效率并穩(wěn)定預(yù)測(cè)結(jié)果。

空間解碼:圖神經(jīng)網(wǎng)絡(luò)構(gòu)建層次圖

在空間層上,微軟亞洲研究院采用了圖神經(jīng)網(wǎng)絡(luò),通過(guò)節(jié)點(diǎn)間的空間聯(lián)系,來(lái)建模信號(hào)變化在空間上的相互影響和關(guān)聯(lián)。例如在疫情數(shù)據(jù)預(yù)測(cè)中,一個(gè)地區(qū)的疫情結(jié)果會(huì)受到其他區(qū)域,尤其是相鄰地區(qū)的影響,所以預(yù)測(cè)時(shí)也不能忽略空間上的關(guān)聯(lián)。對(duì)此,微軟亞洲研究院利用圖神經(jīng)網(wǎng)絡(luò),在預(yù)測(cè)疫情發(fā)展信息時(shí),也將其他省市的信息參考進(jìn)來(lái),進(jìn)一步提升預(yù)測(cè)的精度。引入圖卷積網(wǎng)絡(luò)后,無(wú)論是針對(duì)縣區(qū)的細(xì)粒度預(yù)測(cè),還是省市級(jí)別的粗粒度預(yù)測(cè),結(jié)果的準(zhǔn)確性都大大提升。

微軟亞洲研究院副院長(zhǎng)劉鐵巖表示,“FOST 不是一個(gè)自上而下的研究產(chǎn)物,也并不是一開(kāi)始就有明確計(jì)劃要進(jìn)行研發(fā)的,而是經(jīng)過(guò)與產(chǎn)業(yè)界的深度接觸后,我們發(fā)現(xiàn)了很多行業(yè)在時(shí)空預(yù)測(cè)方面存在的共性需求,包括問(wèn)題挑戰(zhàn)、解決方案等多個(gè)層面。因此,我們決定將共性問(wèn)題抽象出來(lái)做成一個(gè)通用的開(kāi)源工具,幫助更多企業(yè)借助先進(jìn)的人工智能技術(shù)節(jié)省精力、成本,提升運(yùn)營(yíng)及創(chuàng)新效率?!?nbsp;

憑借高通用性,應(yīng)對(duì)眾多行業(yè)時(shí)空預(yù)測(cè)需求

在與時(shí)間、空間概念密切相關(guān)的行業(yè)中,時(shí)空預(yù)測(cè)工具 FOST 如何運(yùn)作并發(fā)揮作用?

依然以較為典型的物流行業(yè)為例。如果物流企業(yè)希望通過(guò) FOST 對(duì)某個(gè)大站點(diǎn)的次日派件量進(jìn)行預(yù)測(cè),首先,企業(yè)需要在底層的深度時(shí)序神經(jīng)網(wǎng)絡(luò)模塊中輸入近一段時(shí)期的時(shí)間序列數(shù)據(jù),包括這個(gè)站點(diǎn)的每日總出庫(kù)量和總收件量,及以該站點(diǎn)為終點(diǎn)或中轉(zhuǎn)站的派件量,之后模型的時(shí)序模塊會(huì)先學(xué)習(xí)歷史數(shù)據(jù)中的特征,并表示為隱空間中的一組向量。

接下來(lái)則需要進(jìn)一步疊加相鄰站點(diǎn)的時(shí)序規(guī)律信息進(jìn)行空間上的信息聚合。一個(gè)例子是站點(diǎn)與其相鄰站點(diǎn)之間往往存在這樣的關(guān)系——當(dāng)相鄰站點(diǎn)快遞件數(shù)增加時(shí),就會(huì)將一部分快件發(fā)送給該站點(diǎn)。在這種情況下,當(dāng)在時(shí)序上預(yù)測(cè)出該站點(diǎn)次日派件量為200件,同時(shí)又看到空間層上相鄰站點(diǎn)次日快遞件數(shù)預(yù)計(jì)會(huì)急劇增加時(shí),就可以預(yù)估出該站點(diǎn)次日的派件量可能將遠(yuǎn)超200件,這樣就將站點(diǎn)空間上的關(guān)聯(lián)關(guān)系也融入到了模型中。

3.png

上述僅是物流行業(yè)的例子。很多其他行業(yè)場(chǎng)景,如網(wǎng)絡(luò)****流量預(yù)測(cè)、交通流量預(yù)測(cè)、電力輸送預(yù)測(cè),與物流行業(yè)同樣存在共通的時(shí)空概念,時(shí)空預(yù)測(cè)工具 FOST 在這些行業(yè)上的作用原理也基本類(lèi)似。

不過(guò)要注意的是,對(duì)于關(guān)聯(lián)性越大的節(jié)點(diǎn),在預(yù)測(cè)時(shí)就越要優(yōu)先考慮他們的關(guān)聯(lián)關(guān)系,否則如果將所有關(guān)聯(lián)信息都進(jìn)行無(wú)差別計(jì)算,那計(jì)算量將會(huì)巨大到難以承受。比如原本就已經(jīng)有數(shù)千個(gè)地點(diǎn),如果還要將所有地點(diǎn)間的關(guān)系都考慮進(jìn)來(lái),這樣的計(jì)算量對(duì)服務(wù)器的要求會(huì)非常高,是一般企業(yè)所無(wú)法承擔(dān)的一筆開(kāi)銷(xiāo)。對(duì)此,微軟亞洲研究院也做了很多優(yōu)化,包括在圖隨機(jī)采樣時(shí)會(huì)優(yōu)先考慮強(qiáng)關(guān)聯(lián)的信息,從而提高整個(gè)預(yù)測(cè)工具的運(yùn)行效率。

此外,在某些行業(yè)中,空間概念未必僅停留在地理空間層面。例如,在醫(yī)療行業(yè)的糖尿病患者病情預(yù)測(cè)中,同一類(lèi)糖尿病的不同患者,就可視作多個(gè)不同空間。一個(gè)病人的病情發(fā)展規(guī)律可以作為歷史參考,幫助預(yù)測(cè)出其他患者的病情發(fā)展趨勢(shì)。

微軟亞洲研究院的時(shí)空預(yù)測(cè)開(kāi)源工具給各行業(yè)用戶提供了一個(gè)簡(jiǎn)單易用的深度學(xué)習(xí)“利器”。通過(guò)使用 FOST,用戶不僅可以有效提升業(yè)務(wù)場(chǎng)景預(yù)測(cè)的準(zhǔn)確率,還可以避免從頭開(kāi)發(fā)類(lèi)似平臺(tái)的重復(fù)工作。未來(lái),微軟亞洲研究院將在當(dāng)前版本的基礎(chǔ)上,持續(xù)優(yōu)化時(shí)空預(yù)測(cè)工具上模型的準(zhǔn)確性和訓(xùn)練效率,助力更多企業(yè)和機(jī)構(gòu)通過(guò)構(gòu)建時(shí)空預(yù)測(cè)能力創(chuàng)造更大的價(jià)值。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉