DeepMind劃時(shí)代杰作！AlphaFold蛋白結(jié)構(gòu)預(yù)測擊敗人類奪冠

作者：時(shí)間：2018-12-05 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　AI如何成功預(yù)測蛋白質(zhì)3D結(jié)構(gòu)?

本文引用地址：http://www.butianyuan.cn/article/201812/395247.htm

　　此次讓DeepMind再一次嶄露頭角的CASP，被認(rèn)為是蛋白質(zhì)結(jié)構(gòu)領(lǐng)域“奧林匹克競賽”。在這次比賽上，DeepMind團(tuán)隊(duì)(參賽名為“A7D”)成功在43個(gè)參賽蛋白中拿到25個(gè)單項(xiàng)最佳模型，累計(jì)總分120.35排名第一。

　　而根據(jù)第13屆全球蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽官方披露的成績，總分第2名的團(tuán)隊(duì)是一支名為“Zhang”的團(tuán)隊(duì)，總分為107.03。

　　據(jù)DeepMind介紹，該項(xiàng)成果的設(shè)計(jì)源于使用神經(jīng)網(wǎng)絡(luò)預(yù)測物理特性以及構(gòu)建蛋白質(zhì)結(jié)構(gòu)預(yù)測的新方法。

　　這兩種方法都依賴于深度神經(jīng)網(wǎng)絡(luò)，這些神經(jīng)網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以從其基因序列中預(yù)測蛋白質(zhì)的特性。DeepMind的網(wǎng)絡(luò)預(yù)測的屬性是：(a)氨基酸對之間的距離和(b)連接這些氨基酸的化學(xué)鍵之間的角度。第一個(gè)發(fā)展是對常用技術(shù)的進(jìn)步，這些技術(shù)估計(jì)氨基酸對是否彼此接近。

　　鑒于要研究的新蛋白質(zhì)，AlphaFold使用神經(jīng)網(wǎng)絡(luò)預(yù)測氨基酸對之間的距離，以及連接它們的化學(xué)鍵之間的角度。在第二步中，AlphaFold調(diào)整草圖結(jié)構(gòu)以找到最節(jié)能的布置。

　　DeepMind訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)來預(yù)測蛋白質(zhì)中每對殘基之間的距離的單獨(dú)分布。然后將這些概率組合成評估所提出的蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確度的分?jǐn)?shù)。此外，還訓(xùn)練了一個(gè)單獨(dú)的神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)使用匯總的所有距離來估計(jì)建議的結(jié)構(gòu)與正確答案的接近程度。

　　使用神經(jīng)網(wǎng)絡(luò)預(yù)測物理特性(圖片來源：DeepMind官網(wǎng))

　　第二種方法通過梯度下降優(yōu)化得分- 通常用于機(jī)器學(xué)習(xí)的數(shù)學(xué)技術(shù)，用于進(jìn)行小的、漸進(jìn)的改進(jìn)這導(dǎo)致高度精確的結(jié)構(gòu)。該技術(shù)應(yīng)用于整個(gè)蛋白質(zhì)鏈而不是在組裝之前必須單獨(dú)折疊的碎片，降低了預(yù)測過程的復(fù)雜性。

　　構(gòu)建蛋白質(zhì)結(jié)構(gòu)預(yù)測的新方法(圖片來源：DeepMind官網(wǎng))

　　使用這些評分函數(shù)，DeepMind能夠搜索蛋白質(zhì)圖像，找到與我們的預(yù)測相匹配的結(jié)構(gòu)。第一種方法建立在結(jié)構(gòu)生物學(xué)中常用的技術(shù)上，并且用新的蛋白質(zhì)片段反復(fù)替換蛋白質(zhì)結(jié)構(gòu)的片段。

　　為了構(gòu)建AlphaFold，DeepMind在數(shù)千種已知蛋白質(zhì)上訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)，直到它可以預(yù)測單獨(dú)使用氨基酸的3D結(jié)構(gòu)。

　　一旦AlphaFold被提供了一種新蛋白質(zhì)，它就會利用其神經(jīng)網(wǎng)絡(luò)來預(yù)測其組成氨基酸對之間的距離，以及它們連接化學(xué)鍵之間的角度，形成一個(gè)牽伸結(jié)構(gòu)。然后，AlphaFold調(diào)整此結(jié)構(gòu)以找到最節(jié)能的結(jié)構(gòu)。

　　雖然AlphaFold花了兩周的時(shí)間來預(yù)測第一個(gè)蛋白質(zhì)結(jié)構(gòu)，但該程序現(xiàn)在可以在幾個(gè)小時(shí)內(nèi)完成。

　　AI將漫長費(fèi)力的預(yù)測過程縮短至幾小時(shí)

　　根據(jù)英國《衛(wèi)報(bào)》報(bào)道中的數(shù)據(jù)顯示，截至2010年，只有0.6%的已知蛋白序列被解析出了相應(yīng)的結(jié)構(gòu)。

　　在過去的五十年中，科學(xué)家們已經(jīng)能夠使用冷凍電子顯微鏡，核磁共振或X射線晶體學(xué)等實(shí)驗(yàn)技術(shù)來確定實(shí)驗(yàn)室中蛋白質(zhì)的形狀，但每種方法都依賴于大量的試驗(yàn)和錯(cuò)誤，這可能需要每年高達(dá)數(shù)萬美元的成本。這就是為什么生物學(xué)家正在轉(zhuǎn)向人工智能方法，以此作為這一漫長而費(fèi)力的過程的替代方案。

　　對于蛋白質(zhì)折疊的復(fù)雜性，曾有外媒載文稱，用當(dāng)今最快的計(jì)算機(jī)模擬計(jì)算蛋白質(zhì)折疊，要花100年。不過是在當(dāng)時(shí)最快的計(jì)算機(jī)每秒幾萬億甚至十幾萬億次浮點(diǎn)運(yùn)算的速度下，雖然目前性能最強(qiáng)悍的超級計(jì)算機(jī)每秒運(yùn)算速度峰值可達(dá)20億億次，對于蛋白質(zhì)折疊的模擬計(jì)算仍有可能耗費(fèi)科學(xué)家數(shù)年乃至數(shù)十年的時(shí)間。

　　每個(gè)蛋白質(zhì)都是一個(gè)氨基酸鏈，而后者的類型就有 20 種。蛋白質(zhì)可以在氨基酸之間扭曲、折疊，因此一種含有數(shù)百個(gè)氨基酸的蛋白質(zhì)有可能呈現(xiàn)出數(shù)量驚人(10 的 300 次方)的結(jié)構(gòu)類型。通常，已經(jīng)發(fā)現(xiàn)功能失常的蛋白質(zhì)會導(dǎo)致疾病，并且歷史上，用藥物瞄準(zhǔn)其結(jié)構(gòu)、激活或停用它們會產(chǎn)生治愈效果。由于計(jì)算機(jī)的算法和算力局限，直到現(xiàn)在，了解蛋白質(zhì)的結(jié)構(gòu)并不容易。

　　根據(jù)中國科學(xué)院生物物理研究所生物大分子國家重點(diǎn)實(shí)驗(yàn)室研究員，中國科學(xué)院院士王志珍的觀點(diǎn)，蛋白質(zhì)的折疊和構(gòu)象發(fā)生錯(cuò)誤將會造成一些疾病，如阿爾茨海默氏癥，帕金森氏癥，亨廷頓氏癥和囊性纖維化等。隨著蛋白質(zhì)折疊研究的深入，人們會發(fā)現(xiàn)更多疾病的真正病因和更加針對性的治療方法，從而設(shè)計(jì)更有效的要素。

　　如果科學(xué)家能夠?qū)W會從化學(xué)成分中預(yù)測蛋白質(zhì)的形狀，他們可以弄清楚它的作用，它可能會誤導(dǎo)和造成傷害，并設(shè)計(jì)新的抗擊疾病或履行其他職責(zé)。簡而言之，了解蛋白質(zhì)如何折疊，研究人員可以開創(chuàng)科學(xué)和醫(yī)學(xué)進(jìn)步的新時(shí)代。

　　以老年癡呆癥(學(xué)名為阿爾茨海默氏癥)為例，它在人體的潛伏期長達(dá)十幾年之久，且病因復(fù)雜，以目前的醫(yī)學(xué)技術(shù)，臨床上甚至很難在發(fā)病前幾年檢測出這一疾病。

　　幸運(yùn)的是，由于基因測序成本的快速降低，基因組學(xué)領(lǐng)域的數(shù)據(jù)非常豐富。因此，在過去幾年中，依賴于基因組數(shù)據(jù)的預(yù)測問題的深度學(xué)習(xí)方法變得越來越流行。DeepMind關(guān)于這個(gè)問題的工作產(chǎn)生了AlphaFold，并于今年提交給了CASP。

　　DeepMind在博客中稱：“我們很自豪能成為CASP組織者稱之為‘計(jì)算方法預(yù)測蛋白質(zhì)結(jié)構(gòu)能力的前所未有的進(jìn)步’的一部分，在進(jìn)入的團(tuán)隊(duì)中排名第一。我們的團(tuán)隊(duì)專注于從頭開始建模目標(biāo)形狀的難題，而不使用先前解析的蛋白質(zhì)作為模板。我們在預(yù)測蛋白質(zhì)結(jié)構(gòu)的物理性質(zhì)時(shí)達(dá)到了高度的準(zhǔn)確性，然后使用兩種不同的方法來構(gòu)建完整蛋白質(zhì)結(jié)構(gòu)的預(yù)測。”

　　在2013年的某科技課題年度報(bào)告中我們發(fā)現(xiàn)這樣的描述：“虛擬藥物篩選及計(jì)算生物學(xué)受計(jì)算機(jī)資源及計(jì)算方法與軟件的限制，難以對數(shù)千萬個(gè)化合物進(jìn)行比較系統(tǒng)的虛擬篩選，也難以實(shí)現(xiàn)一般蛋白質(zhì)結(jié)構(gòu)的從頭折疊模擬，無法滿足創(chuàng)新藥物和計(jì)算生物學(xué)研究的需求。因此，迫切需要開發(fā)超大規(guī)模并行的虛擬篩選，蛋白質(zhì)折疊分子動(dòng)力學(xué)模擬平臺，來滿足生命科學(xué)及創(chuàng)新藥物研究的需求?！?/p>

　　從這個(gè)方向來看，DeepMind的蛋白質(zhì)結(jié)構(gòu)預(yù)測的應(yīng)用場景之一將是用于藥物創(chuàng)新的化合物篩選。

　　實(shí)際上，早在2016年AlphaGo計(jì)劃擊敗李世石之后，DeepMind就迅速將目光投向了蛋白質(zhì)折疊。2017年10月，DeepMind在一次公開采訪中表示，團(tuán)隊(duì)開始對人工智能在藥物開發(fā)中的應(yīng)用感興趣，而新藥開發(fā)的關(guān)鍵一步，就是對靶點(diǎn)蛋白質(zhì)三維結(jié)構(gòu)的精準(zhǔn)測算。

　　雷丁大學(xué)研究員Liam McGuffin表示：“預(yù)測任何蛋白質(zhì)折疊形狀的能力是一個(gè)大問題。它對解決許多21世紀(jì)的問題具有重大意義，影響健康、生態(tài)、環(huán)境，并基本上解決任何涉及生命系統(tǒng)的問題?！?/p>

　　屢屢突破技術(shù)創(chuàng)新，DeepMind在醫(yī)療領(lǐng)域的探索

　　在AlphaGo一戰(zhàn)成名后，DeepMind曾經(jīng)嘗試過許多用于數(shù)據(jù)驅(qū)動(dòng)的工具和技術(shù)，特別是支持人工智能的機(jī)器學(xué)習(xí)方法，為改善醫(yī)療保健系統(tǒng)和服務(wù)提供了希望。Alphabet的執(zhí)行主席 Eric Schmidt曾表示，以AlphaGo為代表的新的深度學(xué)習(xí)能力可以提高日常生產(chǎn)力，為企業(yè)帶來無數(shù)的機(jī)會，特別是在醫(yī)療保健、交通運(yùn)輸和政府領(lǐng)域。

　　眼底篩查

　　2016年3月，DeepMind Health(現(xiàn)已納入Google Health)使用與AlphaGo系統(tǒng)相同的深度學(xué)習(xí)技術(shù)。已經(jīng)與倫敦大學(xué)學(xué)院和Moorfields眼科醫(yī)院的研究人員使用深度學(xué)習(xí)技術(shù)創(chuàng)建軟件，通過3D掃描識別數(shù)十種常見眼病，然后建議患者進(jìn)行治療。

　　這項(xiàng)工作是三個(gè)機(jī)構(gòu)之間多年合作的結(jié)果。雖然該軟件尚未準(zhǔn)備好用于臨床，但它可以在幾年內(nèi)部署在醫(yī)院中。

　　根據(jù)發(fā)表在《Nature Science》上的論文中描述，該軟件在基于深度學(xué)習(xí)的既定原則，該原理使用算法來識別數(shù)據(jù)中的常見模式。在這種情況下，數(shù)據(jù)是使用稱為光學(xué)相干斷層掃描或OCT的技術(shù)對患者眼睛進(jìn)行3D掃描，創(chuàng)建這些掃描大約需要10分鐘，并且需要從眼睛內(nèi)部表面反射近紅外光，這樣做可以創(chuàng)建組織的3D圖像，這是評估眼睛健康的常用方法。

　　該軟件接受了來自約7,500名患者的近15,000次OCT掃描的培訓(xùn)。這些人都在Moorfields眼科醫(yī)院接受治療。在一項(xiàng)測試中，AI的判斷與八位醫(yī)生組成的診斷進(jìn)行了比較，該軟件在94%的時(shí)間內(nèi)提出了同樣的建議。

　　乳腺癌篩查

　　2018年4月，Deepmind 加入了倫敦帝國理工學(xué)院英國帝國癌癥研究中心領(lǐng)導(dǎo)的一項(xiàng)開創(chuàng)性的新研究合作伙伴關(guān)系，探討人工智能技術(shù)是否可以幫助臨床醫(yī)生更快更有效地診斷乳腺癌乳腺癌。

　　研究將分析2007年至2018年期間在醫(yī)院采集的大約30,000名婦女乳房X線照片。這些將通過AI技術(shù)與已經(jīng)提供的歷史去除乳房X線照片一起進(jìn)行分析。通過英國OPTIMAM乳腺X線攝影數(shù)據(jù)庫，研究該技術(shù)是否能夠比現(xiàn)有的篩查技術(shù)更有效地發(fā)現(xiàn)這些X射線上癌組織的跡象。在項(xiàng)目過程中，Jikei大學(xué)醫(yī)院也將分享來自大約30,000名女性的乳房超聲檢查和3,500次乳房MRI檢查。

　　這些合作為通過提供DeepMind可用于培訓(xùn)醫(yī)療保健工作算法的數(shù)據(jù)在NHS中更多地使用AI奠定了基礎(chǔ)。

　　協(xié)助醫(yī)生制定放療計(jì)劃

　　2018年9月，Deepmind 倫敦大學(xué)醫(yī)院NHS基金會信托基金放射治療部門正在開發(fā)一種人工智能(AI)系統(tǒng)，該系統(tǒng)能夠分析頭頸癌的醫(yī)學(xué)掃描圖像并作為專家臨床醫(yī)生以類似的標(biāo)準(zhǔn)將其分類。在計(jì)劃放射治療時(shí)，器官分割過程是一個(gè)必不可少但耗時(shí)的步驟。Deepmind正在開發(fā)一種新的性能指標(biāo)，用于評估認(rèn)為更能代表臨床過程的模型性能，以及一個(gè)測試集，幫助醫(yī)生進(jìn)行器官分割與危及器官勾畫。

　　預(yù)測急性腎損傷惡化風(fēng)險(xiǎn)

　　2018年2月，Deepmind與美國退伍軍人事務(wù)部(VA)建立醫(yī)學(xué)研究合作伙伴關(guān)系，該部門是世界領(lǐng)先的醫(yī)療保健組織之一，負(fù)責(zé)為美國各地的退伍軍人及其家人提供高質(zhì)量的醫(yī)療服務(wù)。

　　該項(xiàng)目正在與世界知名的VA臨床醫(yī)生和研究人員一起，分析來自大約700,000個(gè)歷史脫敏醫(yī)療記錄，以確定機(jī)器學(xué)習(xí)是否能夠準(zhǔn)確地識別患者惡化的風(fēng)險(xiǎn)因素并正確預(yù)測其發(fā)病，主要專注于急性腎損傷(AKI)。

　　從DeepMind的上述研究可以發(fā)現(xiàn)，其在人工智能技術(shù)在諸多領(lǐng)域的探索仍處于試驗(yàn)階段，并未進(jìn)入臨床階段。

　　有媒體觀點(diǎn)認(rèn)為，實(shí)際上，AI在生物學(xué)的整合并非個(gè)例。近年來以google為首的人工智能團(tuán)隊(duì)在生物醫(yī)藥領(lǐng)域全面開花，已經(jīng)在癌癥病理圖片識別，基因組突變檢測，疾病風(fēng)險(xiǎn)評估等諸多領(lǐng)域取得了等于與人類水平，甚至超過人類水平的耀眼成績。但這些表面看上去很成功的模型也都不可避免地受到普適性、可用性、可解釋性的障礙。

　　從算法上來看，DeepMind對于蛋白質(zhì)折疊基礎(chǔ)研究的技術(shù)突破具有劃時(shí)代的意義。盡管Hassabis表示，DeepMind并沒有完全解決蛋白質(zhì)折疊問題，預(yù)測只是第一步?！暗鞍踪|(zhì)折疊是一個(gè)極具挑戰(zhàn)的問題，但我們有一個(gè)很好的系統(tǒng)，以及一些尚未實(shí)施的想法。”

　　一個(gè)事實(shí)是，雖然AlphaFold的成就確實(shí)值得稱贊，但只有在研究論文中詳細(xì)介紹并進(jìn)行同行評審時(shí)，才能理解該方法的獨(dú)創(chuàng)性，并成為一項(xiàng)研究成果。

　　話雖如此，AlphaFold在該事件中的全面成功是一個(gè)明顯的跡象，科學(xué)界可能很快就能夠借助技術(shù)有效地預(yù)測蛋白質(zhì)的結(jié)構(gòu)。

　　隨著其視野從游戲轉(zhuǎn)向現(xiàn)實(shí)世界的問題，看看DeepMind下一步把目光投向哪些科學(xué)問題也將是有趣的。