Transformer新玩法登Nature子刊:DeepMind用新變體讀取DNA長序列,瞄準(zhǔn)遺傳病高發(fā)區(qū)域
繼蛋白質(zhì)結(jié)構(gòu)預(yù)測之后,一路領(lǐng)跑的 DeepMind 又將 AI 的觸角伸向了 DNA。
當(dāng)人類基因組計劃成功地繪制出人類基因組的 DNA 序列時,整個國際研究界都為之一振。因為這樣一來,人類就有機會進一步了解影響人類健康和發(fā)展的遺傳指令。
從眼球顏色到是否容易患某種疾病,DNA 攜帶著決定一切的基因信息。人體內(nèi)大約有 2 萬個 DNA 片段被確定為基因,其中包含有關(guān)蛋白質(zhì)氨基酸序列的指令,這些蛋白質(zhì)在我們的細胞中執(zhí)行許多基本功能。然而,這些基因占整個基因組的比重還不到 2%。剩下的堿基對——占基因組 30 億個「字母」的 98%——被稱為「非編碼」,包含一些不太為人所知的指令,這些指令讓基因知道應(yīng)該在何時、何地產(chǎn)生或表達。為了更好地完成人類遺傳學(xué)的很多下游應(yīng)用任務(wù),我們必須弄清楚非編碼區(qū) DNA 如何決定不同細胞類型中的基因表達。
10 月 4 日,DeepMind 與谷歌旗下生物科技公司 Calico 的一項研究登上了國際頂級方法學(xué)期刊《Nature Methods》。在這篇論文中,他們引入了一種叫做 Enformer 的神經(jīng)網(wǎng)絡(luò)架構(gòu),大大提高了根據(jù) DNA 序列預(yù)測基因表達的準(zhǔn)確性。為了進一步研究疾病中的基因調(diào)控和致病因素,研究者還公開了他們的模型及其對常見遺傳變異的初步預(yù)測。
論文鏈接:https://www.nature.com/articles/s41592-021-01252-x.pdf
項目鏈接:https://github.com/deepmind/deepmind-research/tree/master/enformer
DeepMind 的研究者表示,「我們相信 AI 可以幫助我們深入理解這些復(fù)雜的領(lǐng)域,加速科學(xué)進步,并未人類健康帶來潛在收益?!?/p>
以往關(guān)于基因表達的研究通常使用卷積神經(jīng)網(wǎng)絡(luò)作為基本構(gòu)建塊,但這些網(wǎng)絡(luò)在建模遠端增強子(enhancer)對基因表達的影響方面存在局限。增強子是 DNA 上一小段可與蛋白質(zhì)結(jié)合的區(qū)域,與蛋白質(zhì)結(jié)合之后,基因的轉(zhuǎn)錄作用將會加強。增強子可能位于基因上游,也可能位于下游,且不一定接近所要作用的基因,這是因為染色質(zhì)的纏繞結(jié)構(gòu),使序列上相隔很遠的位置也有機會相互接觸。因此,要想精確研究增強子對基因表達的影響,模型需要「閱讀」盡可能長的 DNA 序列。
DeepMind 表示,他們最初的探索依賴于 Calico 的 Basenji2 模型,它可以從相對較長的 DNA 序列(40, 000 個堿基對)中預(yù)測調(diào)控活性,但這個長度還是不夠。
基于這些認識,研究者意識到,要想捕獲長序列,必須在基本架構(gòu)層面進行改變。
于是,他們開發(fā)了一個基于 Transformer 的新模型——Enformer,以利用自注意力機制處理更大范圍的 DNA 上下文。和擅長閱讀長文本的 Transformer 類似,改造后的 Enformer 能夠「閱讀」很長的 DNA 序列,可處理的序列長度達到之前的 5 倍(200, 000 個堿基對)。有了這樣一個模型,研究者就能從更長的 DNA 序列上建模增強子對基因表達的影響。
研究者訓(xùn)練 Enformer 以預(yù)測功能性基因組數(shù)據(jù),包括來自輸入 DNA 的 200, 000 個堿基對的基因表達。上圖的示例展示了 5000 多種可能的基因組軌跡中的 3 種。
為了更好地理解 Enformer 是如何解釋 DNA 序列以得到更準(zhǔn)確的預(yù)測的,研究者使用貢獻分(contribution score)來突出輸入序列中對預(yù)測影響最大的部分。如同生物直覺一般,研究者發(fā)現(xiàn)即使距離基因超過 50000 個堿基對,模型也會注意到增強子。
預(yù)測哪些增強子調(diào)控哪些基因仍然是基因組學(xué)中一個尚未解決的問題,研究顯示, Enformer 的貢獻分與專門為此任務(wù)開發(fā)的現(xiàn)有方法(使用實驗數(shù)據(jù)作為輸入)表現(xiàn)相當(dāng)。此外,Enformer 還理解了絕緣子元件(insulator element),后者將 DNA 的兩個獨立調(diào)控區(qū)域分隔開。
Enformer 注意到的相關(guān)的調(diào)控 DNA 區(qū)域(藍色),增強子為灰色塊。
目前全面研究生物體的 DNA 已經(jīng)成為了可能的事,但要想理解基因組還需要復(fù)雜的實驗。盡管進行了大量的實驗,大多數(shù) DNA 對基因表達的控制仍然是個謎。借助人工智能技術(shù),人類可以探索在基因組中發(fā)現(xiàn)模式的新的可能性,并提供關(guān)于序列變化的機制假設(shè)。與拼寫檢查器的原理類似,Enformer 能夠部分理解 DNA 序列的「詞匯」,因此能夠「高亮」那些可能導(dǎo)致基因表達改變的編輯。
這一新模型的主要應(yīng)用是預(yù)測 DNA 字母的變化,也稱為基因變異,它會改變基因表達。與以前的模型相比,Enformer 在預(yù)測變異對基因表達的影響方面更加準(zhǔn)確,無論是自然遺傳變異還是改變重要調(diào)控序列的合成變異。
借助這一特性,我們可以對越來越多的疾病相關(guān)變異進行研究。要知道,與復(fù)雜遺傳疾病相關(guān)的變異主要位于基因組的非編碼區(qū),可能通過改變基因表達引起疾病。但是由于變異之間的內(nèi)在聯(lián)系,這些疾病相關(guān)的許多變異只是虛假的聯(lián)系,而非因果關(guān)系?,F(xiàn)在,計算工具可以幫助區(qū)分真正的聯(lián)系和假陽性。
當(dāng)然,人類基因組中仍有尚未解開的謎團,Enformer 只是在理解基因組序列的復(fù)雜性方面向前邁出了一步。
DeepMind 的研究者希望這些進展能讓與人類疾病相關(guān)的更高效的精細定位成為可能,并提供一個解釋順式調(diào)控演變的框架。
參考鏈接:https://deepmind.com/blog/article/enformer
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。