AI挺進生命科學領域,分子動力學模擬加速新冠病毒致病機理研究進程
編者按:我們身體的三分之一是蘑菇?因為人類與真菌共享三分之一的 DNA。我們一直在與異類共生?因為人體內有一半外來細胞。
這些看似不相關的現象其實都有著深層次的聯(lián)系,隨著科學家們的研究探索,生命神奇的本質正在逐漸被揭開。而近年來大數據、AI 等技術的發(fā)展和應用,更是為生命科學研究開啟了新范式。利用新技術,科學家們可以模擬瞬間變化的生命現象、發(fā)現生命機理的規(guī)律、降低研究成本、獲得更好的研究結果。近日,微軟亞洲研究院就與清華大學合作,利用分子動力學模擬技術,取得了新冠病毒機理研究的重要成果。
不同領域的科學家協(xié)同合作的秘籍是什么?如何在 AI for Science 的趨勢中拔得頭籌?讓我們從微軟亞洲研究院與清華大學的合作分享中一探究竟吧。
新冠疫情自爆發(fā)以來,已造成全球范圍內近2.8億人感染,540多萬人死亡,給全球的經濟和社會生活帶來了巨大的損失和傷害,且至今仍未有緩和的跡象。相比之下,2003年的 SARS 疫情持續(xù)一年多,累計報告病例8000多例,死亡900多人;2012年的中東呼吸綜合征則主要在中東地區(qū)流行。同樣是冠狀病毒所引起的傳染病,為什么新冠病毒有如此高的傳染性?它又是如何侵染人體的?
面對這場病毒遭遇戰(zhàn),全球的科學家們迅速行動對新冠病毒展開研究,同時也推動了人工智能等新技術與生命科學之間的進一步加速融合。近兩年來,微軟亞洲研究院的研究員們也一直在思考,如何利用自身在人工智能、深度學習等計算機領域的優(yōu)勢,與生物學、病毒學專家深度合作,結合生命科學的專業(yè)知識,為緩解新冠疫情貢獻自己的力量。就在不久前,微軟亞洲研究院與清華大學生命科學學院以及傳染病研究中心合作,在新冠病毒的跨領域、跨學科研究中取得了兩項重要成果,為厘清新冠病毒機理提供了新的方向。
新冠病毒致病機理研究兩開花,計算生物學潛力凸顯
研究發(fā)現 COVID-19 新型冠狀病毒是由 SARS-CoV-2 病毒所引起的。和其它冠狀病毒一樣,它的表面由刺突糖蛋白結構組成,也就是 S(Spike)蛋白。若病毒要想進入人體細胞,S 蛋白就需要與人體細胞的受體結合。S 蛋白的構型很像英文字母“Y”,豎著的 S2 區(qū)域起支持作用,向上伸出的兩枝杈,一個是 RBD,另一個是 NTD。科學家們已經認識到直接造成侵染的是 RBD 區(qū)域,而且它的狀態(tài)是站立(up)還是躺平(down)會直接影響受體結合,只有站立時 RBD 才能進行受體結合,從而感染人體。
基于這些背景知識,微軟亞洲研究院的研究員們產生了一連串的疑問:RBD 的功能已經清楚了,那 NTD 在感染過程中扮演著怎樣的角色?在病毒侵染的過程中 NTD 對 RBD 的狀態(tài)變化是否有協(xié)同作用?如果找到了 RBD 站立與躺平的規(guī)律,是不是就有可能抑制病毒的入侵?因此,研究員們希望利用計算生物學,特別是分子動力學模擬技術對 NTD 展開深入研究。當他們把這一想法與清華大學生命科學學院龔海鵬教授討論后,雙方立即開啟了合作研究。
龔海鵬教授在微軟亞洲研究院做研究分享
經過分析研究員們發(fā)現,以往很多研究只對 RBD 或 NTD 的一小部分進行了模擬,只見樹木,不見森林,無法還原其在整個 S 蛋白上的變化情況,模擬精度也有所欠缺。雖然只是對一個蛋白質進行模擬,但其中包含了百萬級的原子數,計算量和復雜度可想而知。對此,微軟亞洲研究院的研究員們采用了增強采樣、加速算法等手段,基于強大的計算平臺,建立了大體系、全原子的分子動力學模擬模型,實現了長時間的計算。
大體系、全原子是指構建擁有百萬級原子的完整 S 蛋白,而不是只對10萬個或1萬個點進行抽象模擬,從而提升模擬精度。
長時間是指研究員們通過數十億步的計算,每步代表1飛秒(1秒的一千萬億分之一),模擬運行了20微秒。不能小看這個數字,20微妙相當于2*1011步,在分子動力學模擬中這屬于相當長的時間,以此可以更真實地模擬 NTD 和 RBD 之間的相對運動。
最終,微軟亞洲研究院首次提出了 NTD 在病毒侵染過程中發(fā)揮調控作用的“楔形”模型,相關成果于21年10月在著名期刊《Advanced Theory and Simulations》上作為封面文章發(fā)表?!捌鋵?RBD 是傾向于躺平的,這和人一樣,躺著肯定更舒服,但當 RBD 想躺下的時候,NTD 會像楔子一樣堵住 RBD 下方的空隙,從而使其維持站立的狀態(tài),感染人體?!蔽④泚喼扪芯吭褐鞴苎芯繂T王童形象地解釋了他們從模擬中取得的發(fā)現。
NTD 在 SARS-CoV-2 的 S 蛋白構象變化中發(fā)揮調控功能示意圖
利用這種“楔形”模型,研究員們進一步在對中草****數據庫 TCMSP 中的中****化合物進行虛擬篩選,檢測到了8種中****中的18種化合物與 NTD 作用的該位點具有很強的結合能力,從而為新冠病毒****物研發(fā)提供了一定的參考價值。
像這樣利用計算機模擬的方式去做生物學實驗,甚至去預測和推論,被稱為“干實驗”。但生物學研究還是不能離開“濕實驗”,也就是基于分子、細胞、生理等層面的生物實驗。在開展 NTD 探索性研究的同時,王童了解到清華大學王新泉教授和張林琦教授的團隊正在合作開展新冠病毒致病機理的研究。于是三方一拍即合,通過清華兩位老師團隊的結構生物學和免疫學實驗發(fā)現,與其他冠狀病毒相比,新冠病毒 S 蛋白372號位點的突變使得370號位點缺失了糖基化。這一變化促使 RBD 更多處于站立狀態(tài),增強了病毒的感染性。而微軟亞洲研究院利用分子動力學模擬等計算手段進一步具體分析了 S 蛋白370位點糖基化對 S 蛋白構象變化和病毒感染能力的影響。最終,通過干濕結合的手段驗證了結論的正確性,相關論文也已被生物學領域的頂級期刊《Cell Research》接收。
對于這項三方合作開展的前瞻性科研工作,張林琦教授表示“我們在眾多信息和生命活性的相互作用中找到了一個極其重要的點。它是在大量數據分析、實驗驗證以及預測的基礎之上得到的結果。通過與微軟亞洲研究院合作,我們看到將計算機科學與生命科學系統(tǒng)對接,可以加速找到生命現象的關鍵環(huán)節(jié),解決一些生命科學的問題,并進一步了解生命科學本身,從而對研發(fā)新****物來阻斷或者促進某些生命現象起到了標桿性的作用?!?/p>
AI為生命科學研究開辟新方向,開拓新產業(yè)
正如張林琦教授所言,AI、大數據等創(chuàng)新手段與生命科學的深度融合正在為生命科學研究開辟新的方向,甚至改變生命科學的研究范式。生命科學研究發(fā)展至今,經歷了不同的階段,從20世紀前的描述觀察,到20世紀的實驗分析,在科學家們的努力下,生命的密碼正在逐漸被破解。但這些傳統(tǒng)生物學研究方式依賴于不斷地試錯和積累,不僅耗資巨大,周期往往也很長。同時,基因組學等底層數據采集技術的發(fā)展以及****物試驗中持續(xù)產生的數據等等,也讓生物數據呈現爆發(fā)式增長。雖然這為個性化的靶向****物研發(fā)、精準醫(yī)療提供了可能,但海量數據也注定了單靠人力完成數據的整理、分析和挖掘已是不可能完成的任務。
如今,隨著算力的提升、機器學習等模型的精進,大數據使得計算生物學的研究條件越來越完善,在基礎科學研究中扮演著越來越重要的角色。對于 AI 與生命科學的結合,龔海鵬教授說道,“我們能不能從濕實驗得到的數據中發(fā)現規(guī)律?人的邏輯思維可以有一個大致的判斷,但還不夠細致,AI 在這方面就能體現出它的優(yōu)勢。”對此張林琦教授也表示認同,他認為生命科學不能只靠感覺,而是要朝定量化和精準化的方向發(fā)展,“濕實驗看到的結果往往是靜態(tài)的,但所有的生命過程都是動態(tài)的,分子結構變化更是瞬時反應,在自然條件下一閃而過,人的肉眼連看到的機會都沒有。在模擬分子動態(tài)變化以及定量評判方面,一些新的算法和技術能發(fā)揮非常大的作用,”張林琦教授說。
張林琦教授(左),劉鐵巖博士(右)
除了促進病毒、致病機理等基礎科學研究的發(fā)展,計算機科學與生命科學的結合也可能會創(chuàng)造一個全新的生物醫(yī)****產業(yè)。早在2018年,埃森哲(Accenture)就曾在一份統(tǒng)計報告中指出,“到2026年,大數據與醫(yī)學和制****領域的機器學習相結合將產生每年1500億美元的驚人價值”。
傳統(tǒng)的新****研發(fā)極具風險和難度,周期長、費用高,過去十年****物開發(fā)項目從1期臨床到獲得 FDA 批準上市的成功率僅為7.9%。對此張林琦教授深有感觸,不久前由他領銜研發(fā)的新冠“特效****”——單克隆中和抗體安巴韋單抗/羅米司韋單抗聯(lián)合療法獲得中國****品監(jiān)督管理局(NMPA)的上市批準,有助于治療新型冠狀病毒陽性患者。他說,“AI 在新****研發(fā)整個過程中的每個節(jié)點都可以發(fā)揮巨大的作用,比如為抗體的篩選、評估、預測、優(yōu)化等提供支持,縮短研發(fā)時間,降低研發(fā)成本。另外,如果能在大數據分析的基礎上利用 AI 技術總結規(guī)律、進行預測,在病毒突變之前,設計出專門針對突變的抗體,那么我們就能先下手為強,化被動為主動。”未來,從原始研究到臨床試驗,在生命科學產業(yè)的全鏈條上,通過跨界研究把干實驗和濕實驗無縫銜接,形成真實世界和理論數據的閉環(huán),將為生命科學帶來更廣闊的發(fā)展前景。
跨領域、交叉學科協(xié)同合作,打破次元壁的秘籍
盡管計算機科學與生命科學的跨界合作大有可為,但協(xié)作過程還需要更多的磨合。兩個領域的科學家所面對的是兩類不同的知識結構、語言體系,如何打破行業(yè)壁壘、共建合作生態(tài)是關鍵。微軟亞洲研究院與清華大學通過上述兩項合作研究,為跨學科交叉實踐積累了一定的經驗。
那么不同背景的科學家協(xié)同合作的秘籍是什么?
首先,明己之長,知己所短,優(yōu)勢互補。張林琦教授長期專注于艾滋病等人類重大病毒性傳染病的致病機理、抗病毒****物、抗體和疫苗的研究;王新泉教授的主要研究方向是結構生物學;龔海鵬教授則致力于把分子動力學模擬等新方法用于分析生物大分子的大尺度構象變化。他們及團隊在各自的領域都有著深厚的積淀和世界級的影響力。這些專家對生命科學專業(yè)、前沿的洞察為算法提供了實現基礎,可以幫助算法專家理解數據背后的科學意義。而微軟本身是以計算機技術為核心能力的平臺公司,在人工智能、云計算等領域能為其他學科提供強有力且最先進的計算機科學加持。
“微軟亞洲研究院在生物學、材料科學、物理和化學方面并不是專家,所以我們需要與真正的領域專家共同努力、密切合作。在這個過程中,雙方會互相影響,相互改變。AI 科學家可以提供基于數據的端到端解決問題的思路,提供比傳統(tǒng)科學計算更加高效的解決方案;自然科學領域的學者則可以提供獨到的領域知識,讓這些計算能力以一種符合科學規(guī)律的方式用到刀刃上,”微軟亞洲研究院副院長劉鐵巖表示。
其次,跨領域合作需要提出最具有前瞻性、挑戰(zhàn)性的科學問題。只有前沿課題才能發(fā)揮雙方實力,激勵科研人員克服困難,合理調配資源。劉鐵巖表示,“雖然人們認為 AI 能夠在任何領域發(fā)揮作用,但如何找到關鍵的科學問題才是關鍵所在,這需要領域專家與 AI 專家坐下來細致地討論,不斷淬煉出真正重要的問題?!焙献饕潦?,微軟亞洲研究院的研究員們與清華大學的師生團隊也遇到了預期不匹配、溝通鴻溝等問題。通過隨后定期的會議與學術討論,雙方逐漸明確了彼此的優(yōu)勢所在,找到了“最難啃的骨頭”。當實驗結果出現差異時,大家會從不同角度共同分析問題產生的原因,不斷磨合,增強了彼此的信任。
最后,是要有耐心與恒心。生命科學研究是一個漫長而枯燥的過程,很多基礎研究短時間內都無法帶來直接的收益。對此龔海鵬教授認為“做科研需要踏踏實實。解決生物學的實際問題,要以推動科學發(fā)展為目標,而不是以發(fā)論文為目標。微軟亞洲研究院在提供強大的計算資源、AI 算法的同時,在合作研究中也極具耐心,這是跨領域合作的基礎。”
在雙方的合作中,大家也加深了對彼此所在行業(yè)和機構的理解。在合作之前清華大學的老師們還有些疑慮,“在我們眼中,企業(yè)的研究部門更多的是以短期業(yè)績?yōu)閷虻?。但合作之后我們發(fā)現微軟亞洲研究院是一個真正的學術機構,尤其是‘頂天立地’的價值取向和學術定位與清華大學的理念非常吻合。也只有這樣才能開展更具學術性的研究合作,”王新泉教授說。
王新泉教授在微軟亞洲研究院做研究分享
無論是用深度學習優(yōu)化大氣污染排放量、把 Graphormer 用于催化劑設計、神經網絡用于新物理發(fā)現,還是近期 AI 領域頂會 NeurIPS 上火熱的科學相關主題演講,都昭示著 AI for Science 已經成為一種趨勢。計算機科學、人工智能與生命科學、生物醫(yī)****、量子科學、天文學等一系列基礎科學研究交織碰撞,將為科學發(fā)展注入新的強勁動力。而在這一浪潮中,微軟亞洲研究院也將繼續(xù)與科學界合作,取得更加亮眼的成績。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。