微軟AI心臟病風險預(yù)測指標面世實現(xiàn)數(shù)據(jù)可視化指日可待

作者：時間：2018-08-22 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　有許多風險因素決定了人們患心臟病的風險，例如生活方式、家族史、職業(yè)、現(xiàn)有疾病等等。了解人們患心臟病的風險可以幫助他們或他們的醫(yī)生優(yōu)先考慮干預(yù)措施。近日，微軟推出了由人工智能支持的心臟病風險評分API，供大型印度醫(yī)院網(wǎng)絡(luò)Apollo使用。

本文引用地址：http://www.butianyuan.cn/article/201808/390903.htm

　　“世界范圍內(nèi)基于人工智能的模型是在幾十年前形成的，并以西方人口為基礎(chǔ)。我們的新API評分基于Apollo Hospitals共享的40萬印度人的數(shù)據(jù)，可以輕松識別每位患者的風險水平，“微軟印度總經(jīng)理Anil Bhansali表示。“作為AI領(lǐng)域的技術(shù)合作伙伴或?qū)＜?，我們與醫(yī)療保健提供商和醫(yī)生合作，整合數(shù)據(jù)以幫助構(gòu)建AI模型，”Bhansali補充說。

　　這個AI工具考慮了21種風險因素，包括飲食、吸煙和吸煙偏好等生活方式屬性以及通過呼吸率、高血壓、收縮壓和舒張壓反映的心理壓力和焦慮，并將對治療計劃提供豐富的見解和早期診斷。

　　“該評分將風險分為高、中、低，并提供了對可修改的最大風險因素的見解，從而幫助醫(yī)生以更全面的方式咨詢患者，同時為患者提供改善生活方式和及時干預(yù)的見解?！盉hansali闡述道。印度每年有近300萬心臟病發(fā)病人數(shù)，3000萬印度人患有冠心病。

　　“AI和ML與我們醫(yī)生的全球?qū)I(yè)知識的合并將有助于預(yù)防心臟病、拯救生命并確?；加行呐K病的人能夠做出明智的健康選擇，”Apollo醫(yī)院常務(wù)董事Sangita Reddy表示。

　　“印度民眾的心臟風險評分是精確醫(yī)療保健如何加速預(yù)防心血管疾病和減輕疾病負擔的真實例子，”Bhansali指出?！半m然我們目前正在與Apollo合作，但我們也正在確定合作伙伴，我們可以在其中實際嘗試此API評分，”他補充說。

　　事實上，微軟并不是第一個利用AI技術(shù)來預(yù)測心臟病的機構(gòu)。在幾個月前，《科學》雜志報道了英國諾丁漢大學流行病學家 Stephen Weng 博士團隊發(fā)表在《PLOS ONE》上的重要研究成果，Weng 博士團隊將機器學習算法應(yīng)用于電子病歷的常規(guī)數(shù)據(jù)分析，發(fā)現(xiàn)與當前的心臟病預(yù)測方法相比，深度學習算法不僅可以更準確地預(yù)測心臟病發(fā)病風險，還可以降低假陽性患者數(shù)量。

　　「這項研究的重要性再怎么強調(diào)都不過分」，沒有參與這項研究的斯坦福大學血管外科醫(yī)生 Elsie Ross 博士在接受《科學》雜志采訪時表示，「我真的希望醫(yī)生敞開胸懷擁抱人工智能，利用這個工具更好地幫助患者。」

　　我相信大部分心血管醫(yī)生對人工智能的期待與 Ross 博士一樣。因為據(jù)世界衛(wèi)生組織統(tǒng)計，在 2012 年，全球非傳染病導致的死亡人數(shù)為 3800 萬，其中心血管疾病(心臟病和中風等)為 1750 萬人，占所有非傳染疾病導致死亡病例的 46.2%;而讓人感到畏懼的癌癥導致的死亡為 820 萬，占所有非傳染疾病導致死亡病例的 21.7% 。心血管疾病的預(yù)防與治療確實刻不容緩。

　　實際上科學家也一直在努力尋找與心腦血管疾病相關(guān)的風險因子，以達到預(yù)防疾病的目的。例如美國心臟病學院與美國心臟病協(xié)會(American College of Cardiology/American Heart Association;ACC/AHA)等機構(gòu)通過多年的研究，將高血壓、膽固醇、年齡、吸煙和糖尿病等一系列因素列為與心血管疾病風險高相關(guān)的因素，并推出了 ACC/AHA 預(yù)測模型。除此之外，還有其他組織機構(gòu)推出的 QRISK2、Framingham 和 Reynolds 等預(yù)測模型。

　　ACC/AHA 的預(yù)測主要風險因子組合

　　然而，在 Weng 博士看來，這些方法都不給力。因為所有標準的心血管病風險評估模型都有一個隱含的假設(shè)，即每個風險因子與心血管疾病之間的關(guān)系都是線性的，這些模型可能過度簡化了它們之間的關(guān)系。

　　相對于復(fù)雜的生命活動，這顯然太簡單了，無法揭示患者服用的藥物，或其他疾病和生活方式因素對疾病的影響。甚至還有一些因素是反直覺的，很多人認為脂肪對身體有害，會增加健康人患心血管疾病的風險。但在一些情況下，它實際上是保護心臟的。「這些例外在人體內(nèi)實實在在地發(fā)生，」Weng 博士說?！赣嬎憧茖W給了我們探索那些復(fù)雜關(guān)系的機會。」

　　為了探索利用機器學習預(yù)測心血管病發(fā)病風險的方法，Weng 博士團隊從 Clinical Practice Research Datalink (CPRD)數(shù)據(jù)庫篩選了 378256 名符合標準居民的 10 年(2005 年 1 月 1 日起)電子病歷，這些居民在 2005 年都是各方面指標正常的健康人。

　　然后隨機將這個龐大的數(shù)據(jù)庫分成兩份，其中 295267(78%)個居民的電子病歷，用來訓練機器學習算法，剩下的 82989 個居民的 10 年電子病歷用來驗證算法的準確性。據(jù) Weng 博士了解，這是全世界范圍內(nèi)，首次在如此大規(guī)模的群體中，使用機器學習預(yù)測人類患心血管疾病的風險。

　　為了找到更合適的機器學習算法，Weng 博士和其同事采用了 4 種機器學習算法，它們分別是：隨機森林(random forest)、邏輯回歸(logistic regression)、梯度提升(gradient boosting)和神經(jīng)網(wǎng)絡(luò)(neural networks)。將 ACC/AHA 模型作為對照。

　　第一步工作是讓 4 種機器學習算法在沒有人類指示的情況下，通過分析 295267 的電子病歷數(shù)據(jù)，各自「創(chuàng)造」一個預(yù)測模型。當研究人員將標準化的數(shù)據(jù)「喂」給這四種算法之后，它們很快找到了各自認為的與心血管病發(fā)生相關(guān)性較高的風險因子。

　　在這一步，機器學習算法就顯現(xiàn)出了它的優(yōu)勢。與 ACC/AHA 指南相比，年齡、性別和吸煙三項風險因素，也被四種機器學習算法列為首要風險因素。然而，現(xiàn)行的許多心血管疾病算法認為糖尿病是風險因子之一，四種機器學習模型要么不考慮這項因素，要么只認為糖化血紅蛋白是風險因素。

　　四種深度學習算法自己「摸索」出來的重要風險因子

　　更有意思的是，這四種機器學習模型認為房顫、種族差異、慢性腎病、慢性阻塞性肺疾病和嚴重精神病等疾病，以及是否服用皮質(zhì)類固醇，以及甘油三酯水平等生物標志物等是重要風險因素。但是這些在現(xiàn)存的模型里都是不存在的。

　　這再一次表明，機器學習可以幫助研究人員發(fā)現(xiàn)一些潛在的風險因子，這些變量憑人力是很難發(fā)現(xiàn)的，但是機器學習可以從其他變量中推斷出來。那機器學習的這幾套模型到底靠譜嗎?

　　第二步，Weng 博士將四種機器學習算法自主建立的模型與 ACC/AHA 模型進行比較，讓它們分別預(yù)測剩下的 82989 個居民哪些 10 年后會患心血管疾病(實際總發(fā)病人數(shù)為 7404 人，當然研究人員沒有把這個信息告訴深度學習模型)，哪些不會發(fā)病。它們的預(yù)測結(jié)果如下。

　　四種深度學習「摸索」出的模型預(yù)測能力與 ACC/AHA 模型的比較

　　不難看出，四種機器算法自主創(chuàng)建的模型要優(yōu)于 ACC/AHA 模型。隨機森林模型的敏感性比 ACC/AHA 高出 2.6%，邏輯回歸模型的敏感性比 ACC/AHA 高出 4.4%，梯度提升機和神經(jīng)網(wǎng)絡(luò)模型的敏感性比 ACC/AHA 高出 4.8%。從本研究的結(jié)果看來，最好的神經(jīng)網(wǎng)絡(luò)算法比傳統(tǒng)模型多正確預(yù)測了 355 個居民的發(fā)病風險。這意味著，在更大的人群里，將有數(shù)以萬計的人會因此而得救。

　　實現(xiàn)數(shù)據(jù)處理過程可視化的方法

　　然而，我們也不難發(fā)現(xiàn)，即使引入深度學習算法之后，還有 30% 以上的高風險居民沒有被提前預(yù)測出來。這意味著深度學習算法還需要大幅改進。Weng 希望在將來能將更多的生活因素和遺傳因素納入分析范圍，進而提升其精確度。

　　這件事情卻未必那么容易。因為機器學習算法就像「黑箱」，你輸入數(shù)據(jù)，它反饋結(jié)果，然而在這個黑箱之中到底發(fā)生了什么，目前研究人員是很難知道的，這使得科學家難以在算法上做調(diào)整。不過，科學家正在努力改進這一現(xiàn)狀，爭取實現(xiàn)數(shù)據(jù)處理過程的可視化。