博客專欄

EEPW首頁 > 博客 > MIT設(shè)計(jì)深度學(xué)習(xí)框架登Nature封面,預(yù)測非編碼區(qū)DNA突變

MIT設(shè)計(jì)深度學(xué)習(xí)框架登Nature封面,預(yù)測非編碼區(qū)DNA突變

發(fā)布人:機(jī)器之心 時(shí)間:2022-03-19 來源:工程師 發(fā)布文章

來自 MIT 和哈佛大學(xué)博德研究所等機(jī)構(gòu)的一項(xiàng)研究剛剛登上了 Nature 封面。他們創(chuàng)建了一個(gè)數(shù)學(xué)框架來預(yù)測基因組中非編碼序列的突變及其對基因表達(dá)的影響。研究人員將能夠利用這些模型來設(shè)計(jì)細(xì)胞、研發(fā)新****、尋找包括癌癥和自身免疫性疾病在內(nèi)的疾病新療法。

盡管每個(gè)人類細(xì)胞都包含大量基因,但所謂的「編碼」DNA 序列僅占人類整個(gè)基因組的 1%。剩下的 99% 由「非編碼」DNA 組成,非編碼 DNA 不攜帶構(gòu)建蛋白質(zhì)的指令。


這種非編碼 DNA(也稱為調(diào)控 DNA)的一個(gè)重要功能是幫助打開和關(guān)閉基因,控制蛋白質(zhì)的合成量。隨著時(shí)間的推移,細(xì)胞復(fù)制它們的 DNA 以生長和分裂,這些非編碼區(qū)域經(jīng)常會出現(xiàn)突變——有時(shí)會調(diào)整它們的功能并改變它們控制基因表達(dá)的方式。這些突變大多是微不足道的,但有時(shí)可能會增加一些疾病風(fēng)險(xiǎn),包括癌癥。


為了更好地了解此類突變的影響,研究人員一直在努力研究數(shù)學(xué)圖譜,這些圖譜使他們能夠查看生物體的基因組,預(yù)測哪些基因?qū)⒈槐磉_(dá),并確定該表達(dá)將如何影響生物體的可觀察特征。在生物學(xué)中,這些圖譜被稱為「適應(yīng)度地形(fitness landscape)」,大約在一個(gè)世紀(jì)前被概念化,以了解基因構(gòu)成如何影響一種常見的有機(jī)體適應(yīng)度,特別是繁殖成功率。


早期的適應(yīng)度地形非常簡單,通常只關(guān)注有限數(shù)量的突變?,F(xiàn)在有更豐富的數(shù)據(jù)集可以使用,但研究人員仍然需要額外的工具來表征和可視化這些復(fù)雜的數(shù)據(jù)。這種能力不僅有助于更好地理解單個(gè)基因如何隨著時(shí)間的推移而進(jìn)化,而且還有助于預(yù)測未來可能發(fā)生的序列和表達(dá)變化。


近日,來自麻省理工學(xué)院和哈佛大學(xué)博德研究所等機(jī)構(gòu)的研究者開發(fā)了一種新框架來研究調(diào)控 DNA 的適應(yīng)度地形。該研究利用在數(shù)億次實(shí)驗(yàn)測量結(jié)果上進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,預(yù)測酵母菌 DNA 中非編碼序列的變化及其對基因表達(dá)的影響,登上了最新一期《自然》雜志的封面。


圖片


論文地址:https://www.nature.com/articles/s41586-022-04506-6


該研究還設(shè)計(jì)了一種以二維方式表示適應(yīng)度地形的獨(dú)特方式,使其對于酵母以外的其他生物也能夠理解已有的實(shí)驗(yàn)結(jié)果并預(yù)測非編碼序列的未來演變,甚至有望為基因治療和工業(yè)應(yīng)用設(shè)計(jì)自定義的基因表達(dá)模式。


該研究的主要作者之一、MIT 生物學(xué)教授 Aviv Regev 說:「科學(xué)家們現(xiàn)在可以使用該模型解決一些進(jìn)化問題或完成一些設(shè)想,例如以所需方式制作控制基因表達(dá)的序列。」


圖片

Aviv Regev


在這項(xiàng)研究之前,許多研究人員只是簡單地在自然界存在的已知突變上訓(xùn)練他們的模型。然而,Regev 的團(tuán)隊(duì)想要更進(jìn)一步。他們建立了自己的無偏模型,該模型能夠基于任何可能的 DNA 序列,甚至是以前從未見過的序列,預(yù)測生物體的適應(yīng)度和基因表達(dá)。研究人員將能夠利用這些模型來設(shè)計(jì)細(xì)胞,研發(fā)新****,尋找包括癌癥和自身免疫性疾病在內(nèi)的疾病新療法。


為了實(shí)現(xiàn)這一目標(biāo),麻省理工學(xué)院研究生 Eeshit Dhaval Vaishnav、哥倫比亞大學(xué)助理教授 Carl de Boer(論文共同一作)等人創(chuàng)建了一個(gè)神經(jīng)網(wǎng)絡(luò)模型來預(yù)測基因表達(dá)。他們在一個(gè)數(shù)據(jù)集上訓(xùn)練模型,并觀察每個(gè)隨機(jī)序列如何影響基因表達(dá),該數(shù)據(jù)集是通過將數(shù)百萬個(gè)完全隨機(jī)的非編碼 DNA 序列插入酵母菌中生成的。他們專注于非編碼 DNA 序列的一個(gè)特定子集——啟動子,它是蛋白質(zhì)的結(jié)合位點(diǎn),可以打開或關(guān)閉附近的基因。


Regev 說,「這項(xiàng)工作表明,當(dāng)我們設(shè)計(jì)新的實(shí)驗(yàn)來生成正確的數(shù)據(jù)以訓(xùn)練模型時(shí),將會出現(xiàn)什么樣的可能性。從更廣泛的意義上說,我相信這些方法對許多問題都很重要,比如理解人類基因組中帶來疾病風(fēng)險(xiǎn)的調(diào)控區(qū)域的遺傳變異,以及預(yù)測突變組合的影響,或設(shè)計(jì)新的分子?!?/span>


Regev、Vaishnav、de Boer 和他們的合著者繼續(xù)以各種方式測試他們的模型的預(yù)測能力?!竸?chuàng)建一個(gè)準(zhǔn)確的模型當(dāng)然是一項(xiàng)成就,但對我來說,這只是一個(gè)起點(diǎn),」Vaishnav 解釋道。


首先,為了確定他們的模型是否有助于合成生物學(xué)應(yīng)用,如生產(chǎn)抗生素、酶和食物,研究人員使用它來設(shè)計(jì)能夠?yàn)槿魏胃信d趣的基因產(chǎn)生所需表達(dá)水平的啟動子。然后,他們查閱了其他的科學(xué)論文,以確定基本的演化問題,看看他們的模型能否幫助解答這些問題。該團(tuán)隊(duì)甚至還從一項(xiàng)現(xiàn)有研究中獲取了真實(shí)世界的種群數(shù)據(jù)集,其中包含了世界各地酵母菌株的遺傳信息。通過這些方法,他們能夠描繪出過去數(shù)千年的選擇壓力,這種壓力塑造了今天的酵母基因組。


但是,為了創(chuàng)造一個(gè)可以探測所有基因組的強(qiáng)大工具,研究人員需要找到一種方法,在沒有這樣一個(gè)全面的種群數(shù)據(jù)集的情況下預(yù)測非編碼序列的進(jìn)化。為了實(shí)現(xiàn)這一目標(biāo),Vaishnav 和他的同事們設(shè)計(jì)了一種計(jì)算方法,允許他們將來自框架的預(yù)測繪制到二維圖上。這幫助他們以非常簡單的方式展示了任何非編碼 DNA 序列如何影響基因表達(dá)和適應(yīng)度,而無需在實(shí)驗(yàn)室工作臺進(jìn)行任何耗時(shí)的實(shí)驗(yàn)。


圖片


Vaishnav 解釋說:「之前,適應(yīng)度地形中有一個(gè)未解決的問題,即沒有一種方法可以以一種有意義地捕捉序列進(jìn)化特性的方式將它們可視化。我真的很想找到一種方法來填補(bǔ)這一空白,并為創(chuàng)造一個(gè)完整的適應(yīng)度環(huán)境的長期愿景做出貢獻(xiàn)?!?/span>


愛丁堡大學(xué)醫(yī)學(xué)研究委員會人類遺傳學(xué)部門的遺傳學(xué)教授 Martin Taylor 表示,這項(xiàng)研究表明,人工智能不僅可以預(yù)測調(diào)控 DNA 變化的影響,還可以揭示支配數(shù)百萬年進(jìn)化的潛在原則。


盡管該模型只在少數(shù)幾種生長條件下的一小部分酵母調(diào)節(jié) DNA 上進(jìn)行了訓(xùn)練,但讓他印象深刻的是,這個(gè)模型竟然能夠?qū)Σ溉閯游锘蛘{(diào)控的進(jìn)化做出如此有用的預(yù)測。


這項(xiàng)研究因其在設(shè)計(jì)生物 DNA 序列方面的重要影響而受到諸多關(guān)注,甚至在該研究正式發(fā)表之前,Vaishnav 就已經(jīng)收到了一些研究人員的詢問,希望將該模型設(shè)計(jì)用于基因治療的非編碼 DNA 序列。


這項(xiàng)工作近期已經(jīng)有了一些具體的應(yīng)用,包括在釀造、烘焙和生物技術(shù)中為酵母自定義設(shè)計(jì)調(diào)控 DNA。 


Martin Taylor 還評價(jià)稱:「這項(xiàng)工作未來有望幫助識別人類調(diào)控 DNA 中的疾病突變,這些突變目前在臨床上很難找到并且在很大程度上被忽視了。這項(xiàng)工作表明,在更豐富、更復(fù)雜和更多樣化的數(shù)據(jù)集上訓(xùn)練的基因調(diào)控 AI 模型有著光明的未來?!?/span>


原文鏈接:https://news.mit.edu/2022/oracle-predicting-evolution-gene-regulation-0311


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉