一個(gè)基于Transformer的深度學(xué)習(xí)架構(gòu)，在基因調(diào)控中組蛋白代碼的定量破譯方面性能超群

發(fā)布人：機(jī)器之心時(shí)間：2022-11-19 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編輯 | 蘿卜皮

通過(guò)組蛋白修飾對(duì)轉(zhuǎn)錄控制的定量表征受到許多計(jì)算研究的挑戰(zhàn)，但其中大多數(shù)只關(guān)注啟動(dòng)子周圍的狹窄和線性基因組區(qū)域，留下了改進(jìn)的空間。

韓國(guó)首爾大學(xué)的研究人員提出了 Chromoformer，這是一種基于 Transformer 的三維染色質(zhì)構(gòu)象感知深度學(xué)習(xí)架構(gòu)，它在基因調(diào)控中組蛋白代碼的定量破譯方面實(shí)現(xiàn)了最先進(jìn)的性能。Chromoformer 架構(gòu)的核心本質(zhì)在于注意力操作的三個(gè)變體，每個(gè)變體都專門模擬轉(zhuǎn)錄調(diào)控的個(gè)體層次，涉及從核心啟動(dòng)子到通過(guò)三維染色質(zhì)相互作用與啟動(dòng)子接觸的遠(yuǎn)端元件。

對(duì) Chromoformer 的深入解釋表明，它自適應(yīng)地利用了與轉(zhuǎn)錄起始和延伸相關(guān)的組蛋白修飾之間的長(zhǎng)程依賴性。研究表明，Chromoformer 可以捕獲轉(zhuǎn)錄工廠和 Polycomb 基團(tuán)的定量動(dòng)力學(xué)。總之，這項(xiàng)研究突出了基于注意力的表觀基因組中復(fù)雜相互作用的深度建模的巨大優(yōu)勢(shì)。

該研究以「Learning the histone codes with large genomic windows and three-dimensional chromatin interactions using transformer」為題，于 2022 年 11 月 5 日發(fā)布在《Nature Communications》。

基因表達(dá)的控制由不同組的調(diào)節(jié)因子進(jìn)行，包括轉(zhuǎn)錄因子、共激活因子、輔助抑制因子以及基因組序列元件。然而，這些因素相互作用背后的基本前提是在相關(guān)基因組區(qū)域中組蛋白尾部或組蛋白修飾（HMs）的共價(jià)修飾的適當(dāng)配置，因?yàn)樗鼈冊(cè)谌旧|(zhì)可及性的調(diào)節(jié)中起關(guān)鍵作用。因此，可以設(shè)想一定數(shù)量的 HM 及其組合編碼了附近基因組區(qū)域的調(diào)節(jié)潛力。

這個(gè)概念被稱為「組蛋白密碼假說(shuō)」。已經(jīng)有許多計(jì)算和定量方法來(lái)破解由 HM 編碼的基因表達(dá)的調(diào)控代碼。它們中的大多數(shù)是預(yù)測(cè)模型，利用轉(zhuǎn)錄起始位點(diǎn)（TSS）周圍啟動(dòng)子的 HMs 水平來(lái)預(yù)測(cè)相應(yīng)基因的表達(dá)水平。值得注意的是，最近的研究表明，在這項(xiàng)任務(wù)中，深度學(xué)習(xí)模型與傳統(tǒng)機(jī)器學(xué)習(xí)模型相比具有卓越的性能。

兩個(gè)挑戰(zhàn)

迄今為止，深度學(xué)習(xí)已經(jīng)在計(jì)算生物學(xué)的各個(gè)領(lǐng)域取得了顯著的突破，從表征結(jié)合 DNA 和 RNA 結(jié)合蛋白的特異性，到長(zhǎng)期存在的基于氨基酸序列的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題。如果沒有新的模型架構(gòu)的發(fā)明以及它們對(duì)復(fù)雜生物學(xué)問(wèn)題的巧妙應(yīng)用，就無(wú)法在生物學(xué)中取得深度學(xué)習(xí)的這些成功。從這個(gè)意義上說(shuō)，組蛋白代碼的高度復(fù)雜性確實(shí)使其成為深度學(xué)習(xí)的一個(gè)很好的目標(biāo)，如現(xiàn)有方法所示，但它們?nèi)匀淮嬖趦蓚€(gè)主要的限制，推動(dòng)了新方法的開發(fā)。

首先，他們只能在 TSS 周圍使用狹窄的基因組窗口。這是因?yàn)檫@些模型所基于的深度學(xué)習(xí)架構(gòu)，例如卷積神經(jīng)網(wǎng)絡(luò)（CNN）和循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），在對(duì)長(zhǎng)序列內(nèi)的依賴關(guān)系進(jìn)行建模時(shí)效果不佳。CNN 高度專業(yè)于學(xué)習(xí)數(shù)據(jù)的局部模式，但對(duì)它們來(lái)說(shuō)學(xué)習(xí)模式之間的遠(yuǎn)距離依賴關(guān)系具有挑戰(zhàn)性。

盡管 RNN 架構(gòu)是為對(duì)序列數(shù)據(jù)進(jìn)行建模而開發(fā)的，但由于嵌入在單個(gè)位置的信息逐漸被稀釋并被污染，而模型計(jì)算沿著兩個(gè)遙遠(yuǎn)位置之間的位置傳播，RNN 架構(gòu)也難以清楚地捕獲遠(yuǎn)程依賴關(guān)系。事實(shí)上，諸如門控循環(huán)單元或長(zhǎng)短期記憶 (LSTM) 之類的 RNN 單元的高級(jí)形式部分地改善了這個(gè)問(wèn)題，但是由于循環(huán)而對(duì)長(zhǎng)序列進(jìn)行建模的內(nèi)在低效率仍然存在。

其次，大多數(shù)深度學(xué)習(xí)模型不考慮由三維（3D）染色質(zhì)折疊介導(dǎo)的遠(yuǎn)端順式調(diào)節(jié)，盡管眾所周知，核心啟動(dòng)子和遠(yuǎn)端順式調(diào)節(jié)元件之間的物理相互作用會(huì)嚴(yán)重調(diào)節(jié)基因表達(dá)。換言之，組蛋白代碼所傳達(dá)的調(diào)控信息不僅可以在本地傳播，還可以通過(guò) 3D 染色質(zhì)相互作用在遙遠(yuǎn)的基因組位點(diǎn)之間跳躍。

幸運(yùn)的是，Hi-C 等高通量測(cè)量技術(shù)的最新進(jìn)展成功地提供了千堿基規(guī)模的 3D 染色質(zhì)相互作用的高分辨率視圖，并為研究人員提供了前所未有的機(jī)會(huì)，來(lái)利用這些有價(jià)值的信息來(lái)模擬基因調(diào)控的綜合觀點(diǎn)。很少有新興研究明確考慮 3D 染色質(zhì)相互作用來(lái)預(yù)測(cè)基因表達(dá)。一個(gè)這樣的例子是 GC-MERGE，這是一種圖神經(jīng)網(wǎng)絡(luò) (GNN)，用于在相互作用的基因組區(qū)域之間傳播信息以預(yù)測(cè)基因的表達(dá)水平。

雖然它是一個(gè)概念驗(yàn)證模型，不能應(yīng)用于沒有任何染色質(zhì)相互作用的基因，并且只能執(zhí)行 10 kbp 基因組 bin 級(jí)別的預(yù)測(cè)，但不能在基因級(jí)別進(jìn)行預(yù)測(cè)，它仍然強(qiáng)調(diào)了對(duì)遠(yuǎn)端基因組區(qū)域以及啟動(dòng)子的表觀基因組環(huán)境進(jìn)行建模的前景。

Transformer 也許是****方

與此同時(shí)，最初為自然語(yǔ)言處理而開發(fā)的名為 Transformer 的深度學(xué)習(xí)模型架構(gòu)，在理解 DNA 序列、氨基酸序列甚至它們的比對(duì)的潛在語(yǔ)法方面表現(xiàn)出巨大的潛力。在這項(xiàng)研究中，研究人員注意到 Transformer 架構(gòu)的兩個(gè)主要功能非常適合解決上述兩個(gè)挑戰(zhàn)。

首先，Transformer 可以精確地建模序列數(shù)據(jù)中的長(zhǎng)期依賴關(guān)系。這是通過(guò)向輸入序列添加位置編碼來(lái)優(yōu)雅地完成的。這些包含位置信息的輸入特征被獨(dú)立處理，并被輸入到隨后的自注意力模塊中，該模塊計(jì)算輸入特征之間的所有成對(duì)依賴關(guān)系。因此，可以在不受位于對(duì)之間的特征干擾的情況下捕獲遠(yuǎn)程依賴關(guān)系。

其次，Transformer 架構(gòu)也可以應(yīng)用于建模無(wú)序的實(shí)體集以及它們之間的交互。值得注意的是，對(duì)于大多數(shù)深度學(xué)習(xí)架構(gòu)來(lái)說(shuō)，這并不簡(jiǎn)單，因?yàn)榘鼈兊牟僮魅Q于輸入位置。另一方面，構(gòu)成變換器的操作基本上是置換不變的。

輸入特征之間的交互僅在 self-attention 操作中考慮，所有其他操作都以位置方式完成，因此它們可以應(yīng)用于模型的無(wú)序特征集。總之，Transformer 架構(gòu)的這兩個(gè)優(yōu)勢(shì)使其成為組蛋白代碼定量建模的有希望的選擇，因?yàn)樗试S研究人員同時(shí)在多個(gè)遠(yuǎn)端調(diào)控區(qū)域利用 TSS 附近更寬的基因組窗口和組蛋白代碼。

基于Transformer 的深度學(xué)習(xí)架構(gòu) Chromoformer

圖示：Chromoformer 模型架構(gòu)。（來(lái)源：論文）

在這里，首爾大學(xué)的研究人員提出了一種名為 Chromoformer 的基于 Transformer 的深度學(xué)習(xí)架構(gòu)，以模擬組蛋白代碼在基因表達(dá)調(diào)控中的定量作用。Chromoformer 通過(guò)對(duì)涉及核心啟動(dòng)子和 pCRE 的三級(jí)順式調(diào)節(jié)層次進(jìn)行建模，極大地提高了基因表達(dá)預(yù)測(cè)的性能。

通過(guò)對(duì) self-attention 權(quán)重、潛在嵌入動(dòng)力學(xué)和幾個(gè)特征消融研究的分析，研究人員對(duì) Chromoformer 模型的行為提供了深入的生物學(xué)解釋。

圖示：促成 Chromoformer 卓越性能的因素。（來(lái)源：論文）

由于 Transformer 能夠理解序列中的遠(yuǎn)距離依賴性，Chromoformer 可以成功地學(xué)習(xí)關(guān)注基因體內(nèi)的特定區(qū)域，在該區(qū)域中，與基因表達(dá)相關(guān)的 HM 在高表達(dá)和低表達(dá)基因之間最為獨(dú)特。有趣的是，對(duì)基因體的關(guān)注程度取決于 TSS 的表觀遺傳背景，這意味著 Chromoformer 模型捕獲了放置在 TSS 和基因體的 HM 的遠(yuǎn)距離依賴性。

另一方面，通過(guò)使用 Transformer 對(duì)一組無(wú)序特征中的成對(duì)關(guān)系進(jìn)行建模，Chromoformer 可以了解由組蛋白代碼介導(dǎo)的信息如何通過(guò) 3D 染色質(zhì)折疊從 pCRE 傳播到核心啟動(dòng)子以調(diào)節(jié)基因表達(dá)。對(duì)模型學(xué)習(xí)的組蛋白密碼的潛在表示的分析強(qiáng)調(diào)，持家基因和細(xì)胞類型特異性基因的表達(dá)通過(guò)與增強(qiáng)子的相互作用得到加強(qiáng)，而發(fā)育基因的表達(dá)主要通過(guò)與 PRC2 結(jié)合的消音器的相互作用受到抑制。

該團(tuán)隊(duì)使用 3D 染色質(zhì)相互作用的預(yù)編譯知識(shí)來(lái)指導(dǎo) Chromoformer 學(xué)習(xí)。那些通過(guò)實(shí)驗(yàn)測(cè)量的交互頻率被用來(lái)確定將參與模型訓(xùn)練的 pCRE 的優(yōu)先級(jí)，這些 pCRE 被顯式地注入到自我注意得分矩陣中。

然而，僅從基因組序列信息中推斷 pCRE 和核心啟動(dòng)子之間的相互作用頻率似乎也是可能的。這是因?yàn)轫樖秸{(diào)控相互作用的特異性很大程度上取決于 DNA 結(jié)合蛋白對(duì) DNA 序列基序的識(shí)別，包括轉(zhuǎn)錄因子或 CCCTC 結(jié)合因子 (CTCF)，它們作為分隔 3D 基因組構(gòu)象的絕緣體。因此，嵌入基因組中的那些結(jié)合基序可以作為隱藏的詞匯表，允許僅基于 DNA 序列推斷所需的染色質(zhì)構(gòu)象。

圖示：Chromoformer 學(xué)習(xí)的順式調(diào)節(jié)特征。（來(lái)源：論文）

同時(shí)，來(lái)自最近名為 Enformer 的模型的結(jié)果強(qiáng)烈支持，當(dāng)使用更廣泛的序列信息時(shí)，pCRE 的這種從頭排序更有效，從而表明通過(guò)使用 Transformer 架構(gòu)整合基因組和表觀基因組特征，實(shí)現(xiàn)基因表達(dá)調(diào)控的完全數(shù)據(jù)驅(qū)動(dòng)建模的令人興奮的可能性。該團(tuán)隊(duì)將這種基于 Transformer 的多組學(xué)集成作為進(jìn)一步的工作。

從活躍的 TSS 跳轉(zhuǎn)到基因體的嵌入 Transformer 所學(xué)到的注意力表明，在預(yù)測(cè)穩(wěn)態(tài)基因表達(dá)水平時(shí)，放置在基因體上的 HM 確實(shí)是有用的，即使不是最關(guān)鍵的信息。從這個(gè)結(jié)果中，研究人員考慮使用分布在單個(gè)基因中的整個(gè)組蛋白代碼景觀，可以進(jìn)一步提高穩(wěn)態(tài) mRNA 水平的預(yù)測(cè)準(zhǔn)確性的可能性。

此外，由于研究所用的 H3K36me3 的外顯子比內(nèi)含子豐富得多，因此利用全長(zhǎng)基因注釋將是模型訓(xùn)練的另一個(gè)有效指導(dǎo)。由于基因長(zhǎng)度和外顯子-內(nèi)含子分布顯示出很大的可變性，研究人員需要對(duì)這種生物學(xué)先驗(yàn)知識(shí)進(jìn)行一些巧妙的表示。

同樣，Transformer 架構(gòu)將是最強(qiáng)大的選擇之一，因?yàn)榭梢造`活地應(yīng)用掩碼來(lái)處理可變長(zhǎng)度輸入，還可以擴(kuò)展位置編碼以形成復(fù)合編碼，同時(shí)包含基因組位置和基因結(jié)構(gòu)注釋的信息。

為 Chromoformer 模型提出的訓(xùn)練方案具有高度可擴(kuò)展性。例如，該團(tuán)隊(duì)展示了 Chromoformer 模型可以針對(duì)來(lái)自人類以外物種的細(xì)胞類型進(jìn)行訓(xùn)練，即小鼠胚胎干細(xì)胞，使用相關(guān)的組蛋白 ChIP-seq 和 Hi-C 配置文件，通過(guò)跨物種預(yù)測(cè)性能證明了兩個(gè)物種之間組蛋白代碼語(yǔ)法之間的總體相似性。

圖示：Chromoformer 的跨物種和跨細(xì)胞類型預(yù)測(cè)性能。（來(lái)源：論文）

此外，跨細(xì)胞類型預(yù)測(cè)實(shí)驗(yàn)表明，在一種細(xì)胞類型中訓(xùn)練的 Chromoformer 模型在一定程度上仍適用于其他細(xì)胞類型（相對(duì)驗(yàn)證AUC?>?92%），相似細(xì)胞類型的交叉預(yù)測(cè)性能更高。

這意味著以細(xì)胞類型特異性方式訓(xùn)練的 Chromoformer 不僅學(xué)習(xí)了基因調(diào)控的細(xì)胞類型特異性特征，而且仍然捕獲了可普遍應(yīng)用于其他細(xì)胞類型的一般規(guī)則。如果它可以表示為全基因組信號(hào)值的數(shù)組，則可以擴(kuò)展顯色體訓(xùn)練以包含任何額外的表觀基因組特征。這些特征包括轉(zhuǎn)錄因子 ChIP-seq 信號(hào)或用于隔間識(shí)別的第一主成分 (PC1) 信號(hào)。

圖示：在 Chromoformer 訓(xùn)練中加入 CTCF 結(jié)合信號(hào)。（來(lái)源：論文）

論文中介紹，CTCF 結(jié)合是 3D 基因組結(jié)構(gòu)的關(guān)鍵決定因素，并且通過(guò)遠(yuǎn)端增強(qiáng)子 - 啟動(dòng)子相互作用在基因激活中也突出了啟動(dòng)子 - 近端 CTCF 結(jié)合，如上圖所示。該團(tuán)隊(duì)證明，包括 CTCF 在內(nèi)的 Chromoformer-clf 性能有邊際但一致的增加，而嵌入 Transformer 的 Chromoformer-clf 模型的增加更大。

另一方面，使用 PC1 值作為附加特征通知 Chromoformer 細(xì)胞類型特異性基因組劃分狀態(tài)不會(huì)導(dǎo)致顯著的整體性能提升。盡管區(qū)室化與基因表達(dá)水平相關(guān)，但由于關(guān)聯(lián)的絕對(duì)水平（皮爾遜相關(guān)系數(shù) 0.12–0.19）不夠大，該團(tuán)隊(duì)認(rèn)為，區(qū)室級(jí)特征的預(yù)測(cè)能力沒有超過(guò)基因級(jí) HM 特征的預(yù)測(cè)能力。

圖示：在 Chromoformer 訓(xùn)練中納入基因組劃分狀態(tài)。（來(lái)源：論文）

總之，Chromoformer 是另一個(gè)示例性應(yīng)用，它強(qiáng)調(diào)了 Transformer 架構(gòu)在生物序列建模方面的巨大潛力。該研究還強(qiáng)調(diào)了開發(fā)有效嵌入生物先驗(yàn)知識(shí)的專業(yè)深度學(xué)習(xí)架構(gòu)的重要性，不僅可以提高預(yù)測(cè)任務(wù)的性能，還可以定量表征生物實(shí)體之間的復(fù)雜關(guān)系。

論文鏈接：https://www.nature.com/articles/s41467-022-34152-5

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

一個(gè)基于Transformer的深度學(xué)習(xí)架構(gòu)，在基因調(diào)控中組蛋白代碼的定量破譯方面性能超群

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

一個(gè)基于Transformer的深度學(xué)習(xí)架構(gòu)，在基因調(diào)控中組蛋白代碼的定量破譯方面性能超群

相關(guān)推薦

技術(shù)專區(qū)

一個(gè)基于Transformer的深度學(xué)習(xí)架構(gòu)，在基因調(diào)控中組蛋白代碼的定量破譯方面性能超群