處理醫(yī)學時間序列中缺失數(shù)據(jù)的3種方法
來源:Deephub Imba
這些方法都是專為RNN設計,它們都經(jīng)過了廣泛的學術評估,而且十分的簡單。
大量醫(yī)療數(shù)據(jù)例如心電圖、體溫監(jiān)測、血壓監(jiān)測、定期護士檢查等等本質上都是時間序列數(shù)據(jù)。在這些醫(yī)學圖表的趨勢、模式、高峰和低谷中嵌入了大量有價值的信息。醫(yī)療行業(yè)要求對醫(yī)療時間序列數(shù)據(jù)進行有效分析,這被認為是提高醫(yī)療質量、優(yōu)化資源利用率、降低整體醫(yī)療成本的關鍵。
一種有前途的醫(yī)學時間序列分析形式是通過RNN來實現(xiàn)。RNN 因其建模能力和可以處理可變長度輸入序列的能力而受到醫(yī)學研究人員的歡迎。研究人員通常將時間序列數(shù)據(jù)劃分為均勻的時間步長,例如 1 小時或 1 天。一個時間步長內的所有數(shù)據(jù)點將通過平均或其他聚合方案聚合。這種處理方式有兩個優(yōu)點。首先,它減少了時間序列數(shù)據(jù)序列的長度。其次,原始原始數(shù)據(jù)點通常在時間上間隔并不規(guī)則,這種方式可以對時間上下文進行歸一化。在這個預處理步驟之后,數(shù)據(jù)幾乎可以用于 RNN 處理。但是有一個非?,F(xiàn)實的問題:如果在給定的時間步長內沒有數(shù)據(jù)怎么辦?
上述問題在醫(yī)療環(huán)境中很重要,因為丟失的醫(yī)療數(shù)據(jù)通常不是隨機丟失的。數(shù)據(jù)本身的缺失具有臨床意義。例如,醫(yī)院工作人員可能會停止測量被認為已經(jīng)穩(wěn)定的患者的體溫?;蛘咭苍S患者的情況需要另一種不同類型的測量來取代以前的測量方法。因此,通常的零填充或插補方法往往會產(chǎn)生次優(yōu)性能。
在這篇文章,我們將回顧 3 種簡單的方法來處理與 RNN 一起使用的時間序列研究中缺失的醫(yī)學數(shù)據(jù)。后一種方法都是建立在前一種方法的基礎上,具有更高的復雜性。因此強烈建議按照它們出現(xiàn)的順序閱讀。
簡單缺失編碼
假設每個時間步的輸入變量是 x 并帶有下標 t。變量有 d 維,用上標 d 表示。輸入的示例如下圖1 (a)所示,簡化為d=1。陰影部分是缺失的數(shù)據(jù),我們應用前向插補來填充它們最近的觀測值。前向插補是可行的因為一旦醫(yī)院工作人員認為某個指標穩(wěn)定后,他們通常會停止對指標進行進一步測量,在這種情況下,最近觀察到的值可以作為未來的實際值。
這篇論文(arxiv:1606.04130)提出的簡單缺失編碼方法表明,應該明確編碼給定數(shù)據(jù)點實際上是估算的而不是實際觀察到的值。這種顯式編碼為RNN提供了一個信號,可以讓RNN注意到數(shù)據(jù)的缺失。如圖1 (b)所示,其中m表示x的缺失,其中1表示存在,0表示不存在(如公式1所定義)。輸入是x和m的拼接。
確認值是否缺失的公式:
這種方法對該研究論文中提出的實驗產(chǎn)生了有意義的改進。雖然數(shù)據(jù)有可能不同,但這是一個非常簡單直觀的想法,值得一試。
在上述方法的基礎上,除了顯式編碼缺失之外,這篇論文(https://www.nature.com/articles/s41598-018-24271-9)還建議顯式編碼一個值與最近觀察到的值之間的時間距離。所以現(xiàn)在的RNN的輸入是所有三個值編碼的串聯(lián),即輸入 x、缺失信號 m 和時間距離值 δ。公式 2 和圖 2。
以下是時間距離的計算公式:
根據(jù)論文中提出的實驗,該方法在缺失的顯式編碼之上帶來了很好的改進,結果如下所示。
再次以上述方法為基礎,同一篇論文提出了一種估算值的衰減機制。第一步我們應用前向插補來使用最近的觀察值但是如果缺失值的時間很長怎么辦?我們應該無限期地使用那些舊的觀察值嗎?考慮一下現(xiàn)實世界的場景:醫(yī)院工作人員停止跟蹤指標,因為他們認為它已經(jīng)穩(wěn)定。但指標值可能仍處于正常范圍的遠端,但相信它最終會回到一個好的中位數(shù)。這意味著在沒有觀察到的數(shù)據(jù)的情況下,有充分的理由相信當前的指標值會持續(xù)一段時間,但最終會“衰減”回良好的醫(yī)療默認值。
衰減因子 γ 由權重矩陣 W 和偏差 b 確定,應用于時間距離 δ(參見公式 3),然后發(fā)送到上限為 1 的反向 exp 函數(shù)。W 和 b 在時間步長和在訓練期間共同學習。
下圖是衰減因子的計算公式:
在任意給定的時間步長t,如果x被觀測到,我們使用x。否則,我們使用t′最后一次觀測的值,衰減為x的均值。RNN的最終輸入見公式4。
該論文文還將類似的衰減機制應用于它們的RNN模型的隱藏狀態(tài),也產(chǎn)生了最好的結果。但是由于我們討論的是RNN輸入的原始數(shù)據(jù)的處理,就不詳細說明了。
在這篇文章中,我們介紹了醫(yī)學時間序列數(shù)據(jù)研究的背景,并提出了3種專為rnn設計的缺失數(shù)據(jù)填補的簡單方法,這三種方法都可以產(chǎn)生更好的結果,如果你有興趣可以在實際應用中實驗一下。
作者:Eileen Pangu
*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。
高通濾波器相關文章:高通濾波器原理