《紐約客》:人工智能之于醫(yī)生,是助手還是對手?
雷鋒網(wǎng)按:今年,人工智能在各個(gè)垂直領(lǐng)域的應(yīng)用備受關(guān)注,其中醫(yī)療又是一個(gè)關(guān)鍵領(lǐng)域?!都~約客》發(fā)表的這篇深度長文,從醫(yī)學(xué)和計(jì)算機(jī)兩個(gè)領(lǐng)域詳細(xì)描述了業(yè)內(nèi)人士如何看待人工智能在醫(yī)療診斷方面的應(yīng)用。作者 Siddhartha Mukherjee 是醫(yī)學(xué)領(lǐng)域?qū)<?。本文發(fā)布在《紐約客》網(wǎng)站,雷鋒網(wǎng)整理編譯。
本文引用地址:http://butianyuan.cn/article/201704/346252.htm去年 11 月的一個(gè)深夜,一位 Bronx 的 54 歲老婦來到哥倫比亞大學(xué)醫(yī)療中心,她說自己頭痛欲裂,視力已經(jīng)開始模糊,左手也變得麻木且不聽使喚了。醫(yī)生進(jìn)行初步檢查后決定對老婦的頭部進(jìn)行 CT 掃描。
轉(zhuǎn)眼幾個(gè)月過去了,今年 1 月份的一個(gè)早晨,四位還在培訓(xùn)中的放射科醫(yī)生擠在醫(yī)院三樓的一臺電腦前。放置這臺電腦的房間沒有窗戶,除了屏幕的光,里面完全是漆黑一片,就像一片深海。四位醫(yī)生盯著屏幕看時(shí),哥倫比亞大學(xué)的神經(jīng)放射科主任 Angela Lignelli-Dipple 正拿著鉛筆和平板電腦站在他們身后。他們可不是在搞什么秘密項(xiàng)目,主任只是在訓(xùn)練這些菜鳥醫(yī)生如何看懂 CT 掃描而已。
“如果 CT 上大腦的區(qū)域變灰,我們很容易就能診斷出病人是否中風(fēng)了,”主任說道?!耙肴〉幂^好的治療效果,就必須趕在神經(jīng)細(xì)胞大量死亡前診斷出病因?!敝酗L(fēng)一般因堵塞或出血引起,神經(jīng)放射學(xué)家有大約 45 分鐘的窗口期進(jìn)行診斷,這樣醫(yī)生才能及時(shí)采取干預(yù)措施,如溶解正在不斷膨大的凝塊?!叭绻銈儺?dāng)時(shí)身處急診室,每分鐘都是極端寶貴的,因?yàn)榇竽X的某部分正在死亡,時(shí)間就是生命?!敝魅窝a(bǔ)充道。
時(shí)間一分一秒流逝,主任看了看墻上的掛鐘,問道:“找到問題出在哪了嗎?”
中風(fēng)通常是不對稱發(fā)展的,畢竟腦部供血會分左右,繼而細(xì)化為細(xì)小分支。不過,一旦出現(xiàn)凝塊或出血,就會影響一個(gè)分支,使大腦部分區(qū)域出現(xiàn)異常。隨著神經(jīng)細(xì)胞因?yàn)槿毖饾u死亡,組織會略微腫脹,在掃描時(shí),解剖結(jié)構(gòu)之間清晰的邊界可能會變模糊,最終組織會皺縮,并產(chǎn)生干燥的陰影。但需要注意的是,這塊陰影通常在中風(fēng)后幾小時(shí)或幾天才出現(xiàn),而這時(shí)醫(yī)生干預(yù)的窗口期已經(jīng)結(jié)束了。主任表示:“在這之前進(jìn)行掃描的話,你只能在 CT 圖像上看到一些蛛絲馬跡?!倍@就是中風(fēng)的前兆。
好啦, 現(xiàn)在說回文章開頭提到的 54 歲老婦,她的 CT 掃描是對頭骨的橫切面切割額圖,看起來就像從底部一劈到頂?shù)奶鸸?。坐在電腦前的醫(yī)生們?yōu)g覽著圖層,把小腦、海馬區(qū)、島狀皮層、紋狀體、胼胝體、腦室等都分得清清楚楚。隨后,其中一名快 30 歲的男醫(yī)生在一張照片上停了下來,他拿鉛筆指著大腦右側(cè)邊緣區(qū)域說道:“這一塊有點(diǎn)不對勁,邊緣區(qū)域看起來有些模糊了。”不過,對筆者來說,從這張像素不怎么清晰的模糊照片怎么能看出有用的信息啊,但那位男醫(yī)生顯然看到了一些不同尋常之處。
“哪里模糊了?”主任問道。“你能說清楚點(diǎn)嗎?”
這名醫(yī)生沒著急回答,他停下來在腦中組織了詞語,想想到底該怎么解釋。隨后,他聳聳肩表示:“它確實(shí)不太正常,我也不知道有什么毛病,只是看起來比較有趣?!?/p>
接下來,主任又拿出了第二張 CT 片,這是第一張拍攝后 20 小時(shí)后掃描的。剛剛那位醫(yī)生指出的部位在這張片子中已經(jīng)腫脹的像葡萄那么大了,而且顏色也暗了下來。隨后主任又拿了一系列的片子讓他們看,圖中慢慢出現(xiàn)了一個(gè)明顯的灰色楔形區(qū)域。
當(dāng)那位老婦到達(dá)醫(yī)院時(shí),神經(jīng)科大夫試圖用溶栓類藥物幫她疏通動脈,但很遺憾,她來的太晚了。第一次掃描過去幾小時(shí)后,老婦就失去了意識,醫(yī)生趕緊將她送去 ICU 病房。兩個(gè)月后,老婦還是沒有好轉(zhuǎn),她的整個(gè)左側(cè)身體(從左臂到左腿)都癱瘓了。
從小黑屋出來后,筆者跟著主任去了她的辦公室,我想知道醫(yī)生是怎么學(xué)習(xí)的,機(jī)器也能學(xué)會這些方法嗎?
能力不是看書得來的
筆者涉足醫(yī)學(xué)診斷行業(yè)并不晚,1997 年就在波士頓開始了臨床輪轉(zhuǎn)。為了更好地完成工作,我讀了一本有關(guān)醫(yī)學(xué)教育的經(jīng)典讀物,這本書將診斷行為明確分為四個(gè)階段:第一,醫(yī)生需要借助病人病歷和最新的體檢來搜集有關(guān)病人的疾病或身體狀況的事實(shí);第二,整理以上信息并總結(jié)出一份可能病因的綜合列表;第三,通過對病人的詢問和初步測試完成所謂的“鑒別診斷”,即排除某種疾病的假設(shè)并增強(qiáng)另一種疾病的可能性。這一步,還要對疾病是否常見下定義,并結(jié)合病人既往病史對風(fēng)險(xiǎn)和暴露情況進(jìn)行判斷(謹(jǐn)記“不可掉以輕心”的臨床思維),這樣列表中的可能病因就減少了;最后,醫(yī)生需要重新通過實(shí)驗(yàn)室檢查、X 光或 CT 掃描來確認(rèn)假設(shè)。數(shù)十年來,這些步驟及實(shí)踐中出現(xiàn)的變體都如實(shí)出現(xiàn)在教科書中,我們也從一代代醫(yī)學(xué)院學(xué)生的身上看到了這幅圖景:他們從癥狀中尋找病因。
不過,隨著從業(yè)經(jīng)歷的豐富,我很快發(fā)現(xiàn),真正的診斷可不像教科書上那么簡單。我所在醫(yī)學(xué)院的主任是一個(gè)優(yōu)雅的新英格蘭人,他總穿著拋光的便鞋,口音濃重,并以成為專家診斷醫(yī)師而自豪。在診斷時(shí),他會要求病人表現(xiàn)出某種癥狀,如咳嗽。隨后他會靠在自己的椅子上思考片刻,然后嘴中冒出一串形容詞,如“微弱但刺耳”,“底噪有點(diǎn)大”,仿佛是在描述一瓶陳年波爾多紅酒。對我來說,這些咳嗽聲聽起來都一個(gè)樣,但我會不自覺地應(yīng)和這位主任,就像一個(gè)對品酒一竅不通但還要硬裝專家的傻瓜。
這位主任的做法確實(shí)有其依據(jù),因?yàn)榭人苑诸悓W(xué)家會很快通過聲音來縮小可能的病因范圍。如醫(yī)生可能會認(rèn)為“這聲音聽起來像一種肺炎”或“充血性心力衰竭的濕疹”,隨后通過一系列問題,醫(yī)生就能判斷病人的大致情況,最后借助測試來證明自己的判斷,大多數(shù)情況下,醫(yī)院的“老司機(jī)”們準(zhǔn)確率還是非常高的。
幾年前,巴西的研究人員研究了放射科醫(yī)生的大腦,為的就是理解他們到底如何做出診斷的。這些經(jīng)驗(yàn)豐富的醫(yī)師在看 CT 圖像時(shí)是不是心里有一份“對照表”?或者說他們使用了“模式識別或非分析推理?”
參與這次研究的放射科醫(yī)生共 25 人,他們被要求評估肺部的 X 光,而核磁共振成像機(jī)則會隨時(shí)跟蹤他們的大腦活動。X 光圖像在他們面前一晃而過,其中一些包含很常見的單一病理性損傷,如肺炎時(shí)出現(xiàn)的棕櫚狀陰影或積聚在肺內(nèi)襯層后面發(fā)暗且不透明的流體壁。第二組圖像中鑲嵌了動物的圖像來干擾,第三組則加入了字母表的字母輪廓。在測試時(shí),這三組圖像會隨即展示給參與的 25 位醫(yī)生,他們必須快速說出圖像的屬性,而核磁共振機(jī)則一刻不停的監(jiān)視著醫(yī)生的大腦。測試結(jié)果顯示,醫(yī)生做出診斷的平均時(shí)間為 1.33 秒,而在分辨三種圖像時(shí),大腦亮起的區(qū)域相同,即左耳附近的神經(jīng)元寬三角洲以及顱骨后基上方的蛾形帶。
“我們的測試結(jié)果能支持這樣的假設(shè):醫(yī)生發(fā)現(xiàn)一種特征和已知病變的過程與日常生活中命名事物的過程相似?!毖芯咳藛T總結(jié)道。也就是說,識別病變與為動物命名的過程非常相似,當(dāng)你認(rèn)出一頭犀牛,你不會再想想其他替代動物,更不會將犀牛與獨(dú)角獸、犰狳和小象等動物弄混。對你來說,辨認(rèn)犀牛已經(jīng)是一種模式,而放射科專家也是如此。他們不需要沉思、回憶以及區(qū)分,他們看到的是一個(gè)常規(guī)現(xiàn)象。對我的主任來說,那些咳嗽聲音也像叮當(dāng)聲一樣容易辨認(rèn)。
“紙上談兵”與“實(shí)踐出真知”
1945 年時(shí),英國哲學(xué)家 Gilbert Ryle 舉辦了一場影響力巨大的講座,其主題涉及兩大知識。一個(gè)孩子知道自行車有兩個(gè)輪子,輪子充氣,車通過踩踏腳踏板來獲得前進(jìn)動力。Ryle 將這種知識稱之為“書面知識”。不過,學(xué)習(xí)騎自行車光懂得這些可不夠,一個(gè)孩子要經(jīng)歷摔倒才能學(xué)會平衡,學(xué)會通過坑坑洼洼的路面。Ryle 將這種隱性的、體驗(yàn)式的、基于技能的知識稱為“實(shí)踐知識”。
這兩種知識看起來是相互依賴的,因?yàn)槟憧梢杂脮嬷R來強(qiáng)化實(shí)踐知識,反之亦然。不過,Ryle 警告大家要抵制所謂“書面知識”可以轉(zhuǎn)化為“實(shí)踐知識”的想法。光看看自行車說明書孩子不可能學(xué)會騎車。Ryle 認(rèn)為,只有當(dāng)我們知道如何運(yùn)用規(guī)則時(shí),規(guī)則才能真正發(fā)揮作用,“規(guī)則就像小鳥,必須吃飽了才能生存?!币惶煜挛?,筆者 7 歲的女兒正騎著車爬上一個(gè)小山丘。她第一次嘗試時(shí)停在了斜坡最陡峭的部分,然后摔倒了。第二次嘗試時(shí)她屈身向前傾斜,最初角度很小,隨后越來越明顯;而當(dāng)坡度減小時(shí),她會向后增加重量。但是,我可沒教過她騎自行車爬上那座小丘的規(guī)則。我想,當(dāng)我的孫女學(xué)習(xí)騎自行車翻過這座小丘時(shí),家長也不會教她這些規(guī)則。我們會傳授一些與宇宙有關(guān)的規(guī)則,但是會將剩下的留給大腦來解決。
旁聽了 Lignelli-Dipple 的教程后,我與 Steffen Haider 交談了一番,他是個(gè)通過 CT 掃描就能發(fā)現(xiàn)早期中風(fēng)的年輕人。他是怎么發(fā)現(xiàn)病變的?靠的是“書面知識”還是“實(shí)踐知識”呢?
Steffen Haider 表示自己先要學(xué)習(xí)規(guī)則,在書中他得知中風(fēng)往往發(fā)生在一邊,組織在 CT 中會輕微“變灰”,且常常伴有略微腫脹,造成解剖邊界模糊。“在某些部位,大腦的供血特別脆弱。”他說道。要想認(rèn)出這些病變,他必須在大腦的一側(cè)尋找那些另一側(cè)沒有出現(xiàn)的跡象。
筆者提醒他忽視了圖像中很多不對稱的情況。這個(gè) CT 掃描與大多數(shù)情況一樣,在腦部左側(cè)存在其他灰色的波紋,但右側(cè)卻沒有,它們可能是婦女中風(fēng)前大腦中的異常運(yùn)動或潛在變化。他是如何把重點(diǎn)縮小到這片區(qū)域的?他停了下來,沉思了一會,隨后說道:“我也不知道,有一部分是存在于潛意識里的?!?/p>
“對于一個(gè)放射學(xué)家來說,這是在學(xué)習(xí)和成長中自然習(xí)得的?!盠ignelli-Dipple 說道。于是筆者開始思考,機(jī)器是否也能用同樣的方式進(jìn)行“學(xué)習(xí)和成長”。
Thrun 的理想世界
2015 年 1 月,計(jì)算機(jī)科學(xué)家 Sebastian Thrun 開始迷上了醫(yī)學(xué)診斷這個(gè)課題。Thrun 在德國長大,他身材消瘦,剃了光頭,看起來就像漫畫里的人物。Thrun 以前是斯坦福大學(xué)教授,領(lǐng)導(dǎo)該校的人工智能實(shí)驗(yàn)室,后來他離職創(chuàng)建 Google X,領(lǐng)導(dǎo)會自學(xué)的機(jī)器人和自動駕駛汽車的研發(fā)。但是,他發(fā)現(xiàn)自己對有著學(xué)習(xí)能力的醫(yī)療設(shè)備有很大的興趣。Thrun 的母親因乳腺癌離世,當(dāng)時(shí)她才 49 歲?!按蠖鄶?shù)癌癥病人一開始沒有癥狀?!盩hrun 說道?!拔夷赣H就是這樣,但當(dāng)她去看醫(yī)生時(shí),一切都晚了。因此,我一直想找到一個(gè)能盡早發(fā)現(xiàn)癌癥的方法,畢竟那時(shí)我們還能將病人從死亡線上拉回來。機(jī)器學(xué)習(xí)算法在這里能起到作用嗎?”
學(xué)界關(guān)于自動診斷的早期研究往往與教科書上的顯性知識緊密相關(guān)。以心電圖為例,過去的二十年來,電腦解讀的通常是這些系統(tǒng)的特征,執(zhí)行這些工作的程序也比較直接,特征波形與多種情況相關(guān),如心房顫動或血管阻塞。此外,還有識別這些特征波形并輸入到應(yīng)用中的規(guī)則。當(dāng)機(jī)器識別到這些特征波形時(shí),它會把這種心跳標(biāo)記為“心房顫動”。
乳腺癌的檢查與心電圖類似,眼下“計(jì)算機(jī)輔助檢查”的方式已經(jīng)不再新鮮。在檢查中,模式識別軟件會標(biāo)記那些疑似出現(xiàn)病變的區(qū)域,隨后醫(yī)生需要對這些可疑區(qū)域進(jìn)行復(fù)查以確定診斷結(jié)果是否正確。不過,如今的診斷軟件大多數(shù)利用的還是基于規(guī)則的系統(tǒng),它們沒有自行學(xué)習(xí)的能力。因此,一個(gè)看過 3000 張 X 光片的機(jī)器人其實(shí)水平跟只看過 4 張的差不多。2007 年的研究進(jìn)一步證明了這種檢測方法的局限性。人們通常認(rèn)為機(jī)器介入后,準(zhǔn)確率會明顯提高,但事實(shí)上機(jī)器產(chǎn)生的影響很復(fù)雜。在計(jì)算機(jī)輔助診斷組中,活體檢查的準(zhǔn)確率上升,但腫瘤學(xué)家最希望檢測到的小型侵入性乳腺癌準(zhǔn)確率卻有所降低(后續(xù)檢測中甚至出現(xiàn)了“假陽性”問題)。
Thrun 相信,他能將第一代診斷設(shè)備上基于規(guī)則的算法替換為基于學(xué)習(xí)的算法,這樣一來設(shè)備就拋棄了“書面知識”,學(xué)會了“實(shí)踐知識”。Thrun 的學(xué)習(xí)算法還加入了現(xiàn)在最為火熱的“神經(jīng)網(wǎng)絡(luò)”技術(shù),因?yàn)樵摷夹g(shù)的靈感源于大腦運(yùn)作的模型,所以它能完成這一學(xué)習(xí)過程。在大腦中,神經(jīng)突出會通過反復(fù)激活而遭到增強(qiáng)或削弱;這些數(shù)字系統(tǒng)旨在通過數(shù)學(xué)手段實(shí)現(xiàn)類似的目的,調(diào)整連接的“權(quán)重”向預(yù)期輸出靠攏。更強(qiáng)大的系統(tǒng)會與神經(jīng)元層級相似,每個(gè)系統(tǒng)會分別處理輸入的數(shù)據(jù)并將結(jié)果傳送給下一層,而這就是我們所說的“深度學(xué)習(xí)”。
Thrun 首先拿皮膚癌開刀,特別是美國人非常容易罹患的角化細(xì)胞癌和黑色素瘤(非誠勿擾 2 里孫紅雷得的,最恐怖的皮膚癌)。機(jī)器經(jīng)過學(xué)習(xí),能在圖片上分清皮膚癌和那些良性皮膚病(如痘痘、皮疹等)嗎?“如果皮膚科醫(yī)生能做到,那么機(jī)器肯定也能搞定,而且可能會做得更好?!?/p>
通常情況下,關(guān)于黑色素瘤的教學(xué)會從基于規(guī)則的系統(tǒng)開始,就像皮膚病醫(yī)生入門一樣。學(xué)習(xí)過程中會有一系列便于記憶的符號,如 ABCD。這些符號有其特殊含義,如黑色素瘤通常是不對稱的(Asymmetrical),它們的邊界(Borders)參差不齊,顏色(Color)呈斑塊狀,而直徑(Diameter)則超過 6 毫米。不過,Thrun 查了醫(yī)書和網(wǎng)絡(luò)上的標(biāo)本后卻發(fā)現(xiàn),一些黑色素瘤的的標(biāo)本并不適用于這些固定的規(guī)則。
Thrun 找了斯坦福的兩名學(xué)生幫他搞研究。學(xué)生們的首個(gè)任務(wù)就是創(chuàng)建一個(gè)“教學(xué)集”:這是一個(gè)龐大的圖片庫,機(jī)器可以通過對圖片庫的學(xué)習(xí)識別出惡性腫瘤。在網(wǎng)上搜索一番后,Esteva 和 Kuprel 找到了 18 個(gè)已經(jīng)成型的皮膚損傷圖片庫,其中包含了近 13 萬張有關(guān)痤瘡、皮疹、蟲咬、過敏反應(yīng)和皮膚癌等疾病的圖片,皮膚病專家將它們分為近 2000 種疾病。值得注意的是,這些圖片庫中有一個(gè)包含 2000 個(gè)病變的集合已經(jīng)由病理學(xué)家切片檢查過了,因而它們幾乎可以算是已經(jīng)確診的了。
隨后,Esteva 和 Kuprel 開始了對系統(tǒng)的訓(xùn)練,他們并沒有依據(jù)規(guī)則對其進(jìn)行編程,也沒有教系統(tǒng)“ABCD”的順口溜。相反,這套系統(tǒng)只是不斷將圖像和醫(yī)生做出的診斷分類加入神經(jīng)網(wǎng)絡(luò)中。
Thrun 將這個(gè)神經(jīng)網(wǎng)絡(luò)的工作內(nèi)容描述為:“如果用一個(gè)老舊的程序去識別狗狗,軟件工程師可能會寫一千行下定義的語句,比如如果它有耳朵,一個(gè)鼻子,并有頭發(fā),且不是一只老鼠等。事實(shí)上,這并不是孩子學(xué)會辨識狗狗的方法。孩子會先通過觀察狗狗和大人的描述來學(xué)習(xí)相關(guān)的識別知識。如果她把狼當(dāng)成了狗,家人會及時(shí)進(jìn)行糾正,這時(shí)孩子就會改變最初的認(rèn)識。機(jī)器學(xué)習(xí)算法就像小孩子,它能從已經(jīng)標(biāo)注好準(zhǔn)確信息的訓(xùn)練集中汲取信息,隨后再從中汲取狗的特征,接著它會自行用成千上萬的圖片進(jìn)行對比測試并最終學(xué)會識別狗狗的方法,整個(gè)過程與孩子識別狗狗完全一樣?!蓖ㄟ^這個(gè)過程,系統(tǒng)學(xué)會了“實(shí)踐知識”。
2015 年 6 月,Thrun 的團(tuán)隊(duì)開始通過“驗(yàn)證集”來測試機(jī)器從圖像中都學(xué)到了什么。這次測試中共包含了 1.4 萬張經(jīng)過皮膚病專家診斷的圖片(并不一定經(jīng)過活檢),機(jī)器的任務(wù)就是將這些圖像分成 3 組:良性病變、惡性病變和非癌生長。結(jié)果顯示,該系統(tǒng)的準(zhǔn)確率達(dá)到了 72%。兩位得到認(rèn)證的皮膚病醫(yī)生也一同做了測試,但他們的準(zhǔn)確率卻只有 66%。
隨后,Thrun 師徒三人將研究擴(kuò)展到了 25 位皮膚病學(xué)家,而這一次他們使用了一個(gè)黃金標(biāo)準(zhǔn)——約 2000 張經(jīng)由活檢證實(shí)的圖像“測試集”,結(jié)果顯示,醫(yī)生們完全不是機(jī)器的對手,機(jī)器沒有錯過任何一個(gè)黑色素瘤。此外它還更加精確,不會將某個(gè)腫瘤錯診斷為黑色素瘤。
“在論文中,其實(shí)還有個(gè)關(guān)于網(wǎng)絡(luò)的關(guān)鍵問題沒有重點(diǎn)強(qiáng)調(diào)?!盩hrun 說道。在第一次涉足該領(lǐng)域時(shí),Thrun 的團(tuán)隊(duì)用的還是個(gè)“很傻很天真”的神經(jīng)網(wǎng)絡(luò),不過他們發(fā)現(xiàn)如果用的神經(jīng)網(wǎng)絡(luò)已經(jīng)會識別一些不相關(guān)特征(比如狗和貓),它就會學(xué)的更快也更好,也許我們的大腦也遵循類似的原理?;叵敫咧心切┝钊藷o語的枯燥訓(xùn)練,如多項(xiàng)式因式分解、動詞變化和元素周期表,反而讓人記憶更加敏捷。
在訓(xùn)練機(jī)器時(shí),Thrun 的團(tuán)隊(duì)需要對圖片進(jìn)行處理。Thrun 希望有一天人們能通過智能機(jī)圖片上傳獲得精確的診斷,不過這就意味著該系統(tǒng)必須適用于多種角度和照明條件。Thrun 也有擔(dān)心,因?yàn)椤霸谝恍﹫D片中,黑色素瘤的部位被用黃色記號筆標(biāo)注了,因此他們必須將這些部位裁剪掉,否則 Thrun 的團(tuán)隊(duì)可能就是在教計(jì)算機(jī)如何識別圖中的黃色標(biāo)記?!?/p>
其實(shí)這難題古已有之:一個(gè)世紀(jì)前,德國公眾就被聰明的 Hans 深深吸引了,這匹馬靠的不是日行千里,而是可以做加減運(yùn)算并用敲蹄子的方法給出答案。進(jìn)行一番研究后人們發(fā)現(xiàn),Hans 并不是什么聰明馬,它只是能感受自家主人的表情和動作。當(dāng) Hans 回答正確,主人的表情和動作都會放松下來。因此,Hans 的神經(jīng)網(wǎng)絡(luò)并沒有學(xué)會計(jì)算方法,它只是學(xué)會了閱讀人類的肢體語言。“這就是神經(jīng)網(wǎng)絡(luò)的奇怪之處?!盩hrun 說道?!澳愀静恢浪鼈冇昧耸裁磾?shù)據(jù),它們自己搞了個(gè)黑箱,內(nèi)部的工作非常神秘?!?/p>
“黑箱”問題是深度學(xué)習(xí)的專屬,這套系統(tǒng)并不是由醫(yī)學(xué)知識和診療規(guī)定引導(dǎo)的,相反它會有效的進(jìn)行自我教育,通過大量內(nèi)部調(diào)整(類似于加強(qiáng)和減弱大腦中的突觸連接),學(xué)會區(qū)分普通的痣和黑色素瘤。那么它到底如何確定某個(gè)病變部位是黑色素瘤呢?我們也沒有答案,深度學(xué)習(xí)也無法解釋原因,一切的內(nèi)部調(diào)整和處理方式都在我們的監(jiān)視之外秘密發(fā)生著。當(dāng)然,這樣類似的“黑箱”在我們大腦中也存在。當(dāng)你控制自行車慢慢轉(zhuǎn)向時(shí),身體會自動向相反方向傾斜,筆者的女兒也知道這個(gè)技巧,但她做出這些動作時(shí)自己根本就不知道。黑色素瘤診斷機(jī)器必須從圖片中看出所以然來,不過如果它不能將技巧告訴人類,會有什么影響嗎?它就像微笑的知識之神,遇見這樣的機(jī)器,你就能得以一窺動物感知人類心靈的某種方式:無所不知但卻無法理解。
Thrun 設(shè)想的世界是這樣的:在這里人類時(shí)刻處在診斷機(jī)器的監(jiān)控下,我們的手機(jī)能通過語音模式的轉(zhuǎn)變發(fā)現(xiàn)老年癡呆癥的先兆,而方向盤則能通過手部的遲鈍和抖動來確定人是否有可能患上帕金森癥。在洗澡時(shí),浴缸則會通過無害的超聲波或磁共振來執(zhí)行掃描工作,并以此來判斷女性卵巢中是否有需要檢查的部位。大數(shù)據(jù)會注視、記錄并時(shí)刻對你的身體狀況進(jìn)行評估,我們將在不同算法的眼皮底下生活。一旦進(jìn)入了 Thrun 設(shè)想的世界,就進(jìn)了滿是診斷鏡的大廳,這里的檢測項(xiàng)目一個(gè)接著一個(gè)。
這樣的愿景確實(shí)讓人心生向往,不過這樣的醫(yī)學(xué)“全景監(jiān)獄”能通過無死角甚至細(xì)小到細(xì)胞的掃描來提前探知癌癥的出現(xiàn)嗎?它能為癌癥檢測帶來什么突破嗎?聽起來好像一如反掌,但這里卻有個(gè)大坑:許多癌癥都屬于自限性疾病,我們會與它們一起死去,而不是被它們害死。一旦這種診斷引擎誕生,醫(yī)生可能會突然多出數(shù)百萬不必要的活檢任務(wù)。在醫(yī)學(xué)上,早期診斷可以挽救或延長生命。但有時(shí),你會陷入恐懼之中,根本無法享受最后的時(shí)光,因此人對診斷結(jié)果的接受程度根本無法精確拿捏。
當(dāng)被問到這種系統(tǒng)對人體診斷的影響時(shí),Thrun 表示:“我對放大人類能力方面感興趣。機(jī)械化的農(nóng)業(yè)確實(shí)消除了一些傳統(tǒng)的農(nóng)業(yè)形態(tài),但它卻提高了我們的農(nóng)業(yè)生產(chǎn)力。事情都有好有壞,不過新型態(tài)的農(nóng)業(yè)確實(shí)能養(yǎng)活更多人了?!惫I(yè)革命就增強(qiáng)了人類肌肉的力量,當(dāng)我們用手機(jī)時(shí),人類語言的力量也得到了放大。畢竟用肉嗓子喊,紐約的人可聽不到加州的聲音?!盩hrun 和筆者當(dāng)時(shí)就身處兩地。“你手中的這個(gè)小方塊讓人的聲音能快速傳遞 3000 英里,它替代人類聲音了嗎?當(dāng)然沒有,它只是人類聲音的放大器。未來,認(rèn)知革命將讓計(jì)算機(jī)將以同樣的方式增強(qiáng)人類的思維能力。就像機(jī)器使人類肌肉增強(qiáng)了一千倍一樣,機(jī)器也將令人類的大腦變聰明一千倍?!盩hrun 堅(jiān)持認(rèn)為深度學(xué)習(xí)設(shè)備不會取代皮膚病醫(yī)生和放射科醫(yī)生,它們會成為專家們的力量倍增器,為他們提供專業(yè)知識和必要的輔助。
Hinton:醫(yī)院不用培養(yǎng)放射科醫(yī)生了
Geoffrey Hinton 是來自多倫多大學(xué)的計(jì)算機(jī)科學(xué)家,他對學(xué)習(xí)機(jī)器在臨床醫(yī)學(xué)中的作用看的也很重。Hinton 是著名數(shù)學(xué)家 George Boole 的玄孫,后者發(fā)現(xiàn)的布爾代數(shù)是數(shù)字計(jì)算的關(guān)鍵基石,有時(shí)人們甚至稱他為深度學(xué)習(xí)之父。Boole 在 19 世紀(jì) 70 年代中葉開始研究相關(guān)課題,他的許多學(xué)生都成了該領(lǐng)域的超級大牛。
“我覺得如果你是個(gè)放射科醫(yī)生,那其實(shí)你就像動畫里的 Wile E。 Coyote(歪心狼)?!盚inton 說道?!澳阋呀?jīng)沖的太快飛下了懸崖,但自己都不知道往下看看,下面已經(jīng)沒路了。”專用于乳腺和心臟造影的深度學(xué)習(xí)系統(tǒng)已經(jīng)完成了商業(yè)化開發(fā)?!昂翢o疑問,五年之內(nèi)深度學(xué)習(xí)的診斷能力就會超過放射科醫(yī)生。當(dāng)然,也可能需要花十年,我此前就曾亮明這一觀點(diǎn),但許多人不愿接受?!?/p>
當(dāng)年 Hinton 的觀點(diǎn)很直率,他在醫(yī)院表示:“醫(yī)院無需繼續(xù)訓(xùn)練放射科醫(yī)生了?!惫P者拿這個(gè)問題詢問 Angela Lignelli Dipple 時(shí)她表示,放射科醫(yī)師可不是僅僅在做“是或不是”的分類工作。除了定位導(dǎo)致中風(fēng)的栓塞,他們還在關(guān)注其它地方的小出血,這些小出血可能會令溶栓藥物的使用造成災(zāi)難性的后果。他們在尋找一種意料之外的、或許依然處于無癥狀狀態(tài)的腫瘤。
現(xiàn)在,Hinton 確實(shí)有資格說這話。“放射科醫(yī)生的職責(zé)將從完成感知任務(wù)變成解決認(rèn)知任務(wù)?!彼麑︶t(yī)學(xué)未來的預(yù)測是基于一個(gè)簡單的原則,即“如果你掌握某種舊式分類問題的大量數(shù)據(jù),那么就考慮去解決它吧,而深度學(xué)習(xí)就能完成這個(gè)任務(wù)。到時(shí)會有數(shù)以千計(jì)的深度學(xué)習(xí)應(yīng)用程序出現(xiàn)。”他想用深度學(xué)習(xí)算法來分析 X 光片,CT 掃描和核磁共振等醫(yī)學(xué)數(shù)據(jù)。不過這只是近期規(guī)劃,未來“深度學(xué)習(xí)算法將做出病理學(xué)診斷?!彼鼈兡芸炊?Pap 涂片,也能聽懂心跳或預(yù)測精神病患者復(fù)發(fā)的可能性。
隨后,筆者還與 Hinton 探討了黑箱問題。雖然計(jì)算機(jī)科學(xué)家也在努力找答案,但 Hinton 明確表示那些試圖打開黑箱,或找出深度學(xué)習(xí)系統(tǒng)到底如何學(xué)習(xí)技能的努力都是微不足道的,誰要是說自己解決了黑箱問題,一定是在騙人。
不過,這個(gè)問題可以伴隨我們一起成長。Hinton 表示:“想象在某場比賽中,一名棒球運(yùn)動員與一名物理學(xué)家比賽來猜球會在哪落地。棒球運(yùn)動員在訓(xùn)練和比賽中一次又一次的練習(xí)拋球,他可能不了解任何方程式,但是他知道球到底會有多高、能達(dá)到多大的速度以及它會落在哪里。當(dāng)然,物理學(xué)家也可以通過方程式來判斷同一件事物。雖然方式方法不同,但兩者能得到同樣的答案。”
雖然前途光明,但在此前的乳腺 X 射線檢測中,計(jì)算機(jī)輔助系統(tǒng)的表現(xiàn)卻非常令人失望。因此,任何新系統(tǒng)都必須通過嚴(yán)格的臨床測試完成評估。不過,Hinton 也強(qiáng)調(diào),新的智能系統(tǒng)是為了從其錯誤中吸取教訓(xùn),從而隨著時(shí)間的推移而不斷改進(jìn)?!拔覀冃枰罱ㄒ粋€(gè)能搜集每個(gè)錯誤診斷的系統(tǒng),并將其反饋到機(jī)器學(xué)習(xí)系統(tǒng)中。到時(shí)我們就能詢問機(jī)器,這里你遺失了什么?能改進(jìn)下自己的診斷結(jié)果嗎?放射科醫(yī)生現(xiàn)在還享受不到這樣的系統(tǒng)。如果你遺漏了某件事,導(dǎo)致 5 年后你的一個(gè)病人患上了癌癥,這時(shí)沒有系統(tǒng)的例行程序來告訴你如何糾正自己,但你可以在系統(tǒng)中建立這種機(jī)制來教計(jì)算機(jī)完成這一任務(wù)?!?/p>
眼下,一些野心最大的機(jī)器學(xué)習(xí)診斷算法在試圖整合自然語言處理技術(shù)(好讓計(jì)算機(jī)能讀懂病例)和從教科書、期刊和醫(yī)學(xué)數(shù)據(jù)庫獲得的醫(yī)療方面的百科知識,著名的 IBM 和 DeepMind 都是其中的佼佼者。筆者見過多個(gè)系統(tǒng)的演示,但它們的許多功能,特別是與深度學(xué)習(xí)有關(guān)的,都還在開發(fā)中。
Hinton 對未來的深度學(xué)習(xí)診斷充滿熱情,這份熱情的來源有一部分就是他自己的經(jīng)驗(yàn)。在 Hinton 開發(fā)此類算法時(shí),他的夫人被發(fā)現(xiàn)得了晚期胰腺癌。禍不單行,Hinton 的兒子也被查出得了惡性黑色素瘤,但隨后活檢結(jié)果顯示該病變是一個(gè)基底細(xì)胞癌,并沒有想象那么嚴(yán)重?!霸谶@方面我們還有很多要學(xué)?!盚inton 說道?!氨M早盡快的診斷非常重要,為什么不讓機(jī)器幫我們一把呢?”
手藝出神入化的 Bordone
早春三月一個(gè)寒冷的早晨,筆者拜訪了位于曼哈頓第一大街 50 號的哥倫比亞大學(xué)皮膚診所。診所的主治醫(yī)師 Lindsey Bordone 當(dāng)天共有 49 個(gè)病人預(yù)約,才早上十點(diǎn),他的候診室就已經(jīng)人滿為患。一位 60 歲左右留大胡子的男子坐在角落,用羊毛圍巾把脖子上的疹子擋了起來,而另一對心神不寧的夫婦則在看著自己手中的《時(shí)代周刊》。
Bordone 眼看病人快速涌來,在一個(gè)由熒光燈照明的里屋內(nèi),一個(gè)護(hù)士坐在計(jì)算機(jī)前對病人的病情做了簡單總結(jié):“55歲,無既往病史,但其皮膚上卻有可疑點(diǎn)?!彪S后,Bordone 進(jìn)入化驗(yàn)室,她的金發(fā)甚至因?yàn)榕艿奶於h了起來。
隨后,Bordone 又看了一個(gè) 30 多歲的男病人,他臉上起了紅色的疹子。在檢查過程中,這個(gè)病人的皮膚甚至開始從鼻子上掉了下來。Bordone 讓他躺在燈下并細(xì)細(xì)觀察他的皮膚,最后又拿起了手持皮膚鏡對病人進(jìn)行檢查。
“你頭發(fā)里有頭皮屑嗎?”Bordone 問道。病人有點(diǎn)懵,他回答稱“當(dāng)然有?!?/p>
“這是面部皮屑,”Bordone 告訴他?!澳阌龅降那闆r有些糟糕,但問題是它現(xiàn)在為什么會出現(xiàn)并且情況變得越來越糟了呢?你在頭發(fā)上使用過什么新產(chǎn)品嗎?或者你家人會給你一些比較大的家庭壓力嗎?”
“壓力肯定有的。”病人說道。最近他丟了工作,需要處理一些經(jīng)濟(jì)上的問題。
“以后你著手寫日記把?!盉ordone 建議道?!巴ㄟ^日記我們能找到你的病情是否與生活壓力有關(guān)?!备舯诜块g是一個(gè)年輕的律師助理,他的頭皮上起了一片發(fā)癢的疙瘩。Bordone 摸他的疙瘩時(shí)他趕緊避開了。“只是脂溢性皮炎而已?!彼杆偻瓿闪诉@個(gè)檢查。
另一個(gè)房間的女病人則換上了病號服,她過去被醫(yī)生診斷為黑色素瘤,因此非常注意自我保護(hù),以防惡化。Bordone 詳細(xì)的掃了一遍她的皮膚,每個(gè)可能的部位都看了看,整個(gè)過程花了 20 分鐘。結(jié)果相當(dāng)喜人,只有一些痣和角化病,并沒有黑色素瘤或者癌。
“看起來一起都很好?!彼吲d的說道,女病人心里的擔(dān)子也終于落下了。
整個(gè)過程就像凱撒大帝的名言,只不過人物換成了 Bordone:她來、她看、她診斷。與 Hinton 這樣的“草原狼”不同,她更像是瘋狂的尋路者,試圖用接二連三趕來的病例來跟上時(shí)代的步伐。Bordone 在屋里寫筆記時(shí),筆者詢問了她對 Thrun 未來診斷愿景的想法:就像一張 iPhone 拍的照片通過 email 發(fā)給外部網(wǎng)絡(luò),召集了一群專家來評價(jià)。
像 Bordone 這樣的全職皮膚科醫(yī)生,一生中會看到約 20 萬個(gè)病例。斯坦福的機(jī)器算法卻在 3 個(gè)月內(nèi)獲取了近 13 萬的病例。與其相比,每位新晉的皮膚科醫(yī)師都需要從零開始,但是 Thrun 的算法卻一直都處于獲取病例、成長和學(xué)習(xí)的過程中。
Bordone 聳聳肩表示:“如果它能提高我診斷的準(zhǔn)確度,我很歡迎機(jī)器的到來。我的病人可以直接將患處的照片發(fā)給我,這樣我能幫到的病人就更多了?!?/p>
Bordone 的回復(fù)聽起來合情合理,讓我想起了 Thrun 的所謂“增強(qiáng)”理論。不過,機(jī)器學(xué)得越來越多,人的知識量是不是會越來越少呢?這種擔(dān)心父母就有,孩子經(jīng)常用手機(jī)中的拼寫檢查功能,是不是慢慢的忘記字母拼寫呢?這種現(xiàn)象被稱為“自動化偏見”。當(dāng)汽車有了一定的自動駕駛能力后,司機(jī)就容易開小差,這樣的情況在醫(yī)療行業(yè)也會出現(xiàn)。
當(dāng)然,Bordone 可能是新時(shí)代的 John Henry(美國民間傳說中的黑人英雄,對抗蒸汽機(jī)),但無法忽視的是,她的心確實(shí)在自己的工作上,檢查每塊皮膚時(shí)她都是那么認(rèn)真。如果機(jī)器來幫忙,Bordone 還能維持自己的優(yōu)良作風(fēng)嗎?
除了檢查認(rèn)真,Bordone 與病人間還有其他互動模式。舉例來說,病人離開診室時(shí)心情看起來都不錯,Bordone 認(rèn)真撫摸和檢查過他們的皮膚,且愿意與他們友好交談。因此即使話語中會出現(xiàn)類似“痣”和“角化病”這樣的名詞,人們心中也會稍感欣慰。
除了豐富的人文關(guān)懷,Bordone 在診斷技術(shù)上也出神入化,她能在短時(shí)間內(nèi)認(rèn)出患者皮膚病的類型。巴西研究人員認(rèn)為,當(dāng) Bordone 識別出某一模式時(shí),你幾乎可以看到她大腦后下方的神經(jīng)元角錐狀物所迸發(fā)出的火花。不過送走病人并不意味著 Bordone 工作的結(jié)束,她還會花大量時(shí)間來研究病人出現(xiàn)病變的原因。是因?yàn)閴毫?還是洗發(fā)水有毒?難道是因?yàn)閷τ斡境刂械穆冗^敏?為什么在這個(gè)季節(jié)患上皮膚病?
筆者認(rèn)識到,原來臨床實(shí)踐中的最有力的因素,不是了解它或是知道如何去掌握案例的事實(shí)情況,或是識別出醫(yī)生們所構(gòu)建的模式,而是那存在于知識第三個(gè)領(lǐng)域中的“了解原因”。
機(jī)器是否會讓醫(yī)生丟掉初心?
對問題的解釋可淺可深。舉例來說,你手指上出了一個(gè)紅色的水泡可能是因?yàn)槟闩龅搅艘粔K熱鐵,也可能是因?yàn)闊齻ぐl(fā)了前列腺素和細(xì)胞因子的一個(gè)炎癥級聯(lián)反應(yīng),但其中的調(diào)控過程依然讓人摸不著頭腦。因此,知道為什么、提問為什么,是我們通向各種解釋的關(guān)鍵渠道,而解釋正逐漸成為掌控醫(yī)學(xué)進(jìn)步的核心。Hinton 還曾談到棒球運(yùn)動員和物理學(xué)家,他認(rèn)為醫(yī)師、人工智能或普通人都能成為棒球運(yùn)動員,但習(xí)得球技后恐怕大家都說不出到底如何打好棒球。醫(yī)學(xué)研究者也能成為物理學(xué)家,就像棒球場上也能出理論家,但他們有知道“為什么”的渴望。這是一個(gè)方便的職責(zé)分工,但是否也意味著損失?
“深度學(xué)習(xí)系統(tǒng)可不會自我解釋?!盚inton 直截了當(dāng)?shù)恼f道。既然是黑箱,就意味著原因無法調(diào)查。Hinton 表示:“深度學(xué)習(xí)系統(tǒng)越強(qiáng)大,就會變的越不透明。由于掌握了更多病因,診斷將變得越發(fā)準(zhǔn)確,但為什么這些特征會從數(shù)以百萬計(jì)的其它特征中被提取出來,仍然是一個(gè)無法回答的問題?!彼惴芙鉀Q一個(gè)病癥,但它卻無法創(chuàng)建病癥。
在筆者從事的腫瘤學(xué)領(lǐng)域,那些技術(shù)高超的大牛們通常也是喜愛鉆研之人。事實(shí)上,在過去幾十年間,有 夢想的醫(yī)生曾經(jīng)努力想成為上面所提到的棒球運(yùn)動員和物理學(xué)家:他們試圖用敏銳的診斷來理解疾病的病理生理學(xué)。為什么皮膚病變后的不對稱邊緣意味著黑色素瘤的出現(xiàn)?為什么有些黑色素瘤會自然消退?為什么黑色素瘤的案例中會出現(xiàn)皮膚變白的情況?有趣的是,醫(yī)生們在臨床上觀察到的情況,最終都與如今臨床使用的特效免疫藥的發(fā)明息息相關(guān)。這就意味著,臨床是許多疾病治療藥物的起點(diǎn)。如果越來越多的臨床實(shí)踐被黑箱所取代,我們是否會逐漸退化,變成只把能做的做得更好的人,但對于重新審視我們所應(yīng)該做的事情或跳出黑箱進(jìn)行思考時(shí)卻變得無能為力?
關(guān)于人類自動化的未來,筆者還與哥倫比亞大學(xué)皮膚病專家 David Bickers 進(jìn)行過深入的交談。Bickers 表示:“相信我,我已經(jīng)試著理解了 Thrun 論文的相關(guān)知識。雖然不理解其背后的數(shù)學(xué)思維,但他提到的算法確實(shí)能改變皮膚病學(xué)的實(shí)踐。皮膚病專家會因此失業(yè)嗎?我看難,不過我認(rèn)為學(xué)界應(yīng)該多思考怎樣將這種技術(shù)引入醫(yī)療實(shí)踐。我們該怎么為這樣的協(xié)助付費(fèi)?如果機(jī)器診斷錯誤,誰該負(fù)這個(gè)法律責(zé)任呢?如果依靠這樣的算法,是否會削弱我們的實(shí)踐,或者作為診斷專家的自身形象?最終,我們訓(xùn)練的是否會成為技術(shù)人員而不再是醫(yī)生?”
談了一段時(shí)間后,Bickers 看了看時(shí)間,稱病人在等他,所以要先走了?!拔疫@一輩子只從事了診斷學(xué)家和科學(xué)家兩個(gè)職業(yè)。我了解病人對我的依賴,我也知道醫(yī)學(xué)知識來源于診斷?!盉ickers 說道。
英語中“診斷”一詞,其實(shí)是來源于希臘語中的“知道如何區(qū)分”,機(jī)器學(xué)習(xí)算法在疾病的區(qū)分上確實(shí)會越來越強(qiáng),從全局來看它也會超越那些專注于解決任務(wù)的單一算法。在醫(yī)學(xué)領(lǐng)域中,也許只有獲得整體理解的能力,才能拿到終極回報(bào)。
評論