博客專欄

EEPW首頁(yè) > 博客 > 一個(gè)基于Transformer的深度學(xué)習(xí)架構(gòu),在基因調(diào)控中組蛋白代碼的定量破譯方面性能超群

一個(gè)基于Transformer的深度學(xué)習(xí)架構(gòu),在基因調(diào)控中組蛋白代碼的定量破譯方面性能超群

發(fā)布人:機(jī)器之心 時(shí)間:2022-11-19 來(lái)源:工程師 發(fā)布文章
編輯 | 蘿卜皮

通過(guò)組蛋白修飾對(duì)轉(zhuǎn)錄控制的定量表征受到許多計(jì)算研究的挑戰(zhàn),但其中大多數(shù)只關(guān)注啟動(dòng)子周圍的狹窄和線性基因組區(qū)域,留下了改進(jìn)的空間。

韓國(guó)首爾大學(xué)的研究人員提出了 Chromoformer,這是一種基于 Transformer 的三維染色質(zhì)構(gòu)象感知深度學(xué)習(xí)架構(gòu),它在基因調(diào)控中組蛋白代碼的定量破譯方面實(shí)現(xiàn)了最先進(jìn)的性能。Chromoformer 架構(gòu)的核心本質(zhì)在于注意力操作的三個(gè)變體,每個(gè)變體都專門模擬轉(zhuǎn)錄調(diào)控的個(gè)體層次,涉及從核心啟動(dòng)子到通過(guò)三維染色質(zhì)相互作用與啟動(dòng)子接觸的遠(yuǎn)端元件。

對(duì) Chromoformer 的深入解釋表明,它自適應(yīng)地利用了與轉(zhuǎn)錄起始和延伸相關(guān)的組蛋白修飾之間的長(zhǎng)程依賴性。研究表明,Chromoformer 可以捕獲轉(zhuǎn)錄工廠和 Polycomb 基團(tuán)的定量動(dòng)力學(xué)。總之,這項(xiàng)研究突出了基于注意力的表觀基因組中復(fù)雜相互作用的深度建模的巨大優(yōu)勢(shì)。

該研究以「Learning the histone codes with large genomic windows and three-dimensional chromatin interactions using transformer」為題,于 2022 年 11 月 5 日發(fā)布在《Nature Communications》。

圖片

基因表達(dá)的控制由不同組的調(diào)節(jié)因子進(jìn)行,包括轉(zhuǎn)錄因子、共激活因子、輔助抑制因子以及基因組序列元件。然而,這些因素相互作用背后的基本前提是在相關(guān)基因組區(qū)域中組蛋白尾部或組蛋白修飾(HMs)的共價(jià)修飾的適當(dāng)配置,因?yàn)樗鼈冊(cè)谌旧|(zhì)可及性的調(diào)節(jié)中起關(guān)鍵作用。因此,可以設(shè)想一定數(shù)量的 HM 及其組合編碼了附近基因組區(qū)域的調(diào)節(jié)潛力。

這個(gè)概念被稱為「組蛋白密碼假說(shuō)」。已經(jīng)有許多計(jì)算和定量方法來(lái)破解由 HM 編碼的基因表達(dá)的調(diào)控代碼。它們中的大多數(shù)是預(yù)測(cè)模型,利用轉(zhuǎn)錄起始位點(diǎn)(TSS)周圍啟動(dòng)子的 HMs 水平來(lái)預(yù)測(cè)相應(yīng)基因的表達(dá)水平。值得注意的是,最近的研究表明,在這項(xiàng)任務(wù)中,深度學(xué)習(xí)模型與傳統(tǒng)機(jī)器學(xué)習(xí)模型相比具有卓越的性能。

兩個(gè)挑戰(zhàn)

迄今為止,深度學(xué)習(xí)已經(jīng)在計(jì)算生物學(xué)的各個(gè)領(lǐng)域取得了顯著的突破,從表征結(jié)合 DNA 和 RNA 結(jié)合蛋白的特異性,到長(zhǎng)期存在的基于氨基酸序列的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題。如果沒有新的模型架構(gòu)的發(fā)明以及它們對(duì)復(fù)雜生物學(xué)問(wèn)題的巧妙應(yīng)用,就無(wú)法在生物學(xué)中取得深度學(xué)習(xí)的這些成功。從這個(gè)意義上說(shuō),組蛋白代碼的高度復(fù)雜性確實(shí)使其成為深度學(xué)習(xí)的一個(gè)很好的目標(biāo),如現(xiàn)有方法所示,但它們?nèi)匀淮嬖趦蓚€(gè)主要的限制,推動(dòng)了新方法的開發(fā)。

首先,他們只能在 TSS 周圍使用狹窄的基因組窗口。這是因?yàn)檫@些模型所基于的深度學(xué)習(xí)架構(gòu),例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),在對(duì)長(zhǎng)序列內(nèi)的依賴關(guān)系進(jìn)行建模時(shí)效果不佳。CNN 高度專業(yè)于學(xué)習(xí)數(shù)據(jù)的局部模式,但對(duì)它們來(lái)說(shuō)學(xué)習(xí)模式之間的遠(yuǎn)距離依賴關(guān)系具有挑戰(zhàn)性。

盡管 RNN 架構(gòu)是為對(duì)序列數(shù)據(jù)進(jìn)行建模而開發(fā)的,但由于嵌入在單個(gè)位置的信息逐漸被稀釋并被污染,而模型計(jì)算沿著兩個(gè)遙遠(yuǎn)位置之間的位置傳播,RNN 架構(gòu)也難以清楚地捕獲遠(yuǎn)程依賴關(guān)系。事實(shí)上,諸如門控循環(huán)單元或長(zhǎng)短期記憶 (LSTM) 之類的 RNN 單元的高級(jí)形式部分地改善了這個(gè)問(wèn)題,但是由于循環(huán)而對(duì)長(zhǎng)序列進(jìn)行建模的內(nèi)在低效率仍然存在。

其次,大多數(shù)深度學(xué)習(xí)模型不考慮由三維(3D)染色質(zhì)折疊介導(dǎo)的遠(yuǎn)端順式調(diào)節(jié),盡管眾所周知,核心啟動(dòng)子和遠(yuǎn)端順式調(diào)節(jié)元件之間的物理相互作用會(huì)嚴(yán)重調(diào)節(jié)基因表達(dá)。換言之,組蛋白代碼所傳達(dá)的調(diào)控信息不僅可以在本地傳播,還可以通過(guò) 3D 染色質(zhì)相互作用在遙遠(yuǎn)的基因組位點(diǎn)之間跳躍。

幸運(yùn)的是,Hi-C 等高通量測(cè)量技術(shù)的最新進(jìn)展成功地提供了千堿基規(guī)模的 3D 染色質(zhì)相互作用的高分辨率視圖,并為研究人員提供了前所未有的機(jī)會(huì),來(lái)利用這些有價(jià)值的信息來(lái)模擬基因調(diào)控的綜合觀點(diǎn)。很少有新興研究明確考慮 3D 染色質(zhì)相互作用來(lái)預(yù)測(cè)基因表達(dá)。一個(gè)這樣的例子是 GC-MERGE,這是一種圖神經(jīng)網(wǎng)絡(luò) (GNN),用于在相互作用的基因組區(qū)域之間傳播信息以預(yù)測(cè)基因的表達(dá)水平。

雖然它是一個(gè)概念驗(yàn)證模型,不能應(yīng)用于沒有任何染色質(zhì)相互作用的基因,并且只能執(zhí)行 10 kbp 基因組 bin 級(jí)別的預(yù)測(cè),但不能在基因級(jí)別進(jìn)行預(yù)測(cè),它仍然強(qiáng)調(diào)了對(duì)遠(yuǎn)端基因組區(qū)域以及啟動(dòng)子的表觀基因組環(huán)境進(jìn)行建模的前景。

Transformer 也許是****方

與此同時(shí),最初為自然語(yǔ)言處理而開發(fā)的名為 Transformer 的深度學(xué)習(xí)模型架構(gòu),在理解 DNA 序列、氨基酸序列甚至它們的比對(duì)的潛在語(yǔ)法方面表現(xiàn)出巨大的潛力。在這項(xiàng)研究中,研究人員注意到 Transformer 架構(gòu)的兩個(gè)主要功能非常適合解決上述兩個(gè)挑戰(zhàn)。

首先,Transformer 可以精確地建模序列數(shù)據(jù)中的長(zhǎng)期依賴關(guān)系。這是通過(guò)向輸入序列添加位置編碼來(lái)優(yōu)雅地完成的。這些包含位置信息的輸入特征被獨(dú)立處理,并被輸入到隨后的自注意力模塊中,該模塊計(jì)算輸入特征之間的所有成對(duì)依賴關(guān)系。因此,可以在不受位于對(duì)之間的特征干擾的情況下捕獲遠(yuǎn)程依賴關(guān)系。

其次,Transformer 架構(gòu)也可以應(yīng)用于建模無(wú)序的實(shí)體集以及它們之間的交互。值得注意的是,對(duì)于大多數(shù)深度學(xué)習(xí)架構(gòu)來(lái)說(shuō),這并不簡(jiǎn)單,因?yàn)榘鼈兊牟僮魅Q于輸入位置。另一方面,構(gòu)成變換器的操作基本上是置換不變的。

輸入特征之間的交互僅在 self-attention 操作中考慮,所有其他操作都以位置方式完成,因此它們可以應(yīng)用于模型的無(wú)序特征集。總之,Transformer 架構(gòu)的這兩個(gè)優(yōu)勢(shì)使其成為組蛋白代碼定量建模的有希望的選擇,因?yàn)樗试S研究人員同時(shí)在多個(gè)遠(yuǎn)端調(diào)控區(qū)域利用 TSS 附近更寬的基因組窗口和組蛋白代碼。

基于Transformer 的深度學(xué)習(xí)架構(gòu) Chromoformer

圖片

圖示:Chromoformer 模型架構(gòu)。(來(lái)源:論文)

在這里,首爾大學(xué)的研究人員提出了一種名為 Chromoformer 的基于 Transformer 的深度學(xué)習(xí)架構(gòu),以模擬組蛋白代碼在基因表達(dá)調(diào)控中的定量作用。Chromoformer 通過(guò)對(duì)涉及核心啟動(dòng)子和 pCRE 的三級(jí)順式調(diào)節(jié)層次進(jìn)行建模,極大地提高了基因表達(dá)預(yù)測(cè)的性能。

通過(guò)對(duì) self-attention 權(quán)重、潛在嵌入動(dòng)力學(xué)和幾個(gè)特征消融研究的分析,研究人員對(duì) Chromoformer 模型的行為提供了深入的生物學(xué)解釋。

圖片

圖示:促成 Chromoformer 卓越性能的因素。(來(lái)源:論文)

由于 Transformer 能夠理解序列中的遠(yuǎn)距離依賴性,Chromoformer 可以成功地學(xué)習(xí)關(guān)注基因體內(nèi)的特定區(qū)域,在該區(qū)域中,與基因表達(dá)相關(guān)的 HM 在高表達(dá)和低表達(dá)基因之間最為獨(dú)特。有趣的是,對(duì)基因體的關(guān)注程度取決于 TSS 的表觀遺傳背景,這意味著 Chromoformer 模型捕獲了放置在 TSS 和基因體的 HM 的遠(yuǎn)距離依賴性。

另一方面,通過(guò)使用 Transformer 對(duì)一組無(wú)序特征中的成對(duì)關(guān)系進(jìn)行建模,Chromoformer 可以了解由組蛋白代碼介導(dǎo)的信息如何通過(guò) 3D 染色質(zhì)折疊從 pCRE 傳播到核心啟動(dòng)子以調(diào)節(jié)基因表達(dá)。對(duì)模型學(xué)習(xí)的組蛋白密碼的潛在表示的分析強(qiáng)調(diào),持家基因和細(xì)胞類型特異性基因的表達(dá)通過(guò)與增強(qiáng)子的相互作用得到加強(qiáng),而發(fā)育基因的表達(dá)主要通過(guò)與 PRC2 結(jié)合的消音器的相互作用受到抑制。

該團(tuán)隊(duì)使用 3D 染色質(zhì)相互作用的預(yù)編譯知識(shí)來(lái)指導(dǎo) Chromoformer 學(xué)習(xí)。那些通過(guò)實(shí)驗(yàn)測(cè)量的交互頻率被用來(lái)確定將參與模型訓(xùn)練的 pCRE 的優(yōu)先級(jí),這些 pCRE 被顯式地注入到自我注意得分矩陣中。

然而,僅從基因組序列信息中推斷 pCRE 和核心啟動(dòng)子之間的相互作用頻率似乎也是可能的。這是因?yàn)轫樖秸{(diào)控相互作用的特異性很大程度上取決于 DNA 結(jié)合蛋白對(duì) DNA 序列基序的識(shí)別,包括轉(zhuǎn)錄因子或 CCCTC 結(jié)合因子 (CTCF),它們作為分隔 3D 基因組構(gòu)象的絕緣體。因此,嵌入基因組中的那些結(jié)合基序可以作為隱藏的詞匯表,允許僅基于 DNA 序列推斷所需的染色質(zhì)構(gòu)象。

圖片

圖示:Chromoformer 學(xué)習(xí)的順式調(diào)節(jié)特征。(來(lái)源:論文)

同時(shí),來(lái)自最近名為 Enformer 的模型的結(jié)果強(qiáng)烈支持,當(dāng)使用更廣泛的序列信息時(shí),pCRE 的這種從頭排序更有效,從而表明通過(guò)使用 Transformer 架構(gòu)整合基因組和表觀基因組特征,實(shí)現(xiàn)基因表達(dá)調(diào)控的完全數(shù)據(jù)驅(qū)動(dòng)建模的令人興奮的可能性。該團(tuán)隊(duì)將這種基于 Transformer 的多組學(xué)集成作為進(jìn)一步的工作。

從活躍的 TSS 跳轉(zhuǎn)到基因體的嵌入 Transformer 所學(xué)到的注意力表明,在預(yù)測(cè)穩(wěn)態(tài)基因表達(dá)水平時(shí),放置在基因體上的 HM 確實(shí)是有用的,即使不是最關(guān)鍵的信息。從這個(gè)結(jié)果中,研究人員考慮使用分布在單個(gè)基因中的整個(gè)組蛋白代碼景觀,可以進(jìn)一步提高穩(wěn)態(tài) mRNA 水平的預(yù)測(cè)準(zhǔn)確性的可能性。

此外,由于研究所用的 H3K36me3 的外顯子比內(nèi)含子豐富得多,因此利用全長(zhǎng)基因注釋將是模型訓(xùn)練的另一個(gè)有效指導(dǎo)。由于基因長(zhǎng)度和外顯子-內(nèi)含子分布顯示出很大的可變性,研究人員需要對(duì)這種生物學(xué)先驗(yàn)知識(shí)進(jìn)行一些巧妙的表示。

同樣,Transformer 架構(gòu)將是最強(qiáng)大的選擇之一,因?yàn)榭梢造`活地應(yīng)用掩碼來(lái)處理可變長(zhǎng)度輸入,還可以擴(kuò)展位置編碼以形成復(fù)合編碼,同時(shí)包含基因組位置和基因結(jié)構(gòu)注釋的信息。

為 Chromoformer 模型提出的訓(xùn)練方案具有高度可擴(kuò)展性。例如,該團(tuán)隊(duì)展示了 Chromoformer 模型可以針對(duì)來(lái)自人類以外物種的細(xì)胞類型進(jìn)行訓(xùn)練,即小鼠胚胎干細(xì)胞,使用相關(guān)的組蛋白 ChIP-seq 和 Hi-C 配置文件,通過(guò)跨物種預(yù)測(cè)性能證明了兩個(gè)物種之間組蛋白代碼語(yǔ)法之間的總體相似性。

圖片

圖示:Chromoformer 的跨物種和跨細(xì)胞類型預(yù)測(cè)性能。(來(lái)源:論文)

此外,跨細(xì)胞類型預(yù)測(cè)實(shí)驗(yàn)表明,在一種細(xì)胞類型中訓(xùn)練的 Chromoformer 模型在一定程度上仍適用于其他細(xì)胞類型(相對(duì)驗(yàn)證AUC?>?92%),相似細(xì)胞類型的交叉預(yù)測(cè)性能更高。

這意味著以細(xì)胞類型特異性方式訓(xùn)練的 Chromoformer 不僅學(xué)習(xí)了基因調(diào)控的細(xì)胞類型特異性特征,而且仍然捕獲了可普遍應(yīng)用于其他細(xì)胞類型的一般規(guī)則。如果它可以表示為全基因組信號(hào)值的數(shù)組,則可以擴(kuò)展顯色體訓(xùn)練以包含任何額外的表觀基因組特征。這些特征包括轉(zhuǎn)錄因子 ChIP-seq 信號(hào)或用于隔間識(shí)別的第一主成分 (PC1) 信號(hào)。

圖片

圖示:在 Chromoformer 訓(xùn)練中加入 CTCF 結(jié)合信號(hào)。(來(lái)源:論文)

論文中介紹,CTCF 結(jié)合是 3D 基因組結(jié)構(gòu)的關(guān)鍵決定因素,并且通過(guò)遠(yuǎn)端增強(qiáng)子 - 啟動(dòng)子相互作用在基因激活中也突出了啟動(dòng)子 - 近端 CTCF 結(jié)合,如上圖所示。該團(tuán)隊(duì)證明,包括 CTCF 在內(nèi)的 Chromoformer-clf 性能有邊際但一致的增加,而嵌入 Transformer 的 Chromoformer-clf 模型的增加更大。

另一方面,使用 PC1 值作為附加特征通知 Chromoformer 細(xì)胞類型特異性基因組劃分狀態(tài)不會(huì)導(dǎo)致顯著的整體性能提升。盡管區(qū)室化與基因表達(dá)水平相關(guān),但由于關(guān)聯(lián)的絕對(duì)水平(皮爾遜相關(guān)系數(shù) 0.12–0.19)不夠大,該團(tuán)隊(duì)認(rèn)為,區(qū)室級(jí)特征的預(yù)測(cè)能力沒有超過(guò)基因級(jí) HM 特征的預(yù)測(cè)能力。

圖片

圖示:在 Chromoformer 訓(xùn)練中納入基因組劃分狀態(tài)。(來(lái)源:論文)

總之,Chromoformer 是另一個(gè)示例性應(yīng)用,它強(qiáng)調(diào)了 Transformer 架構(gòu)在生物序列建模方面的巨大潛力。該研究還強(qiáng)調(diào)了開發(fā)有效嵌入生物先驗(yàn)知識(shí)的專業(yè)深度學(xué)習(xí)架構(gòu)的重要性,不僅可以提高預(yù)測(cè)任務(wù)的性能,還可以定量表征生物實(shí)體之間的復(fù)雜關(guān)系。

論文鏈接:https://www.nature.com/articles/s41467-022-34152-5


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉