通用蛋白質(zhì)設(shè)計(jì)新方法，谷歌研究團(tuán)隊(duì)：具有分層功能的從頭蛋白質(zhì)設(shè)計(jì)的條件生成建模

發(fā)布人：機(jī)器之心時(shí)間：2022-07-21 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

蛋白質(zhì)設(shè)計(jì)對(duì)于醫(yī)學(xué)和生物技術(shù)應(yīng)用變得越來越重要。由于蛋白質(zhì)形成的復(fù)雜機(jī)制，新蛋白質(zhì)的產(chǎn)生需要繁瑣且耗時(shí)的計(jì)算或?qū)嶒?yàn)協(xié)議。同時(shí)，機(jī)器學(xué)習(xí)通過利用大量可用數(shù)據(jù)來解決復(fù)雜問題，最近在生成建模領(lǐng)域有了很大的改進(jìn)。然而，生成模型主要應(yīng)用于蛋白質(zhì)設(shè)計(jì)的特定子問題。

谷歌的研究人員解決了以分層基因本體的功能標(biāo)簽為條件的通用蛋白質(zhì)設(shè)計(jì)問題。由于缺少在該領(lǐng)域評(píng)估生成模型的規(guī)范方法，他們?cè)O(shè)計(jì)了一個(gè)評(píng)估方案，其中包含幾個(gè)生物學(xué)和統(tǒng)計(jì)學(xué)啟發(fā)的指標(biāo)。然后，該團(tuán)隊(duì)開發(fā)了條件生成對(duì)抗網(wǎng)絡(luò) ProteoGAN，并表明它在蛋白質(zhì)序列生成方面優(yōu)于幾個(gè)經(jīng)典和最近的深度學(xué)習(xí)基線。研究人員估計(jì)，功能條件模型可以通過組合標(biāo)簽來生成具有新功能的蛋白質(zhì)，并為這一研究方向邁出第一步。該研究以「Conditional generative modeling for de novo protein design with hierarchical functions」為題，于 2022 年 7 月 1 日刊載在《Bioinformatics》。設(shè)計(jì)具有目標(biāo)生物功能的新蛋白質(zhì)是生物技術(shù)中的一項(xiàng)常見任務(wù)，并且在合成生物學(xué)和****物研究（例如****物發(fā)現(xiàn)）中具有廣泛的應(yīng)用。這項(xiàng)任務(wù)具有挑戰(zhàn)性，因?yàn)榈鞍踪|(zhì)的序列-結(jié)構(gòu)-功能關(guān)系極其復(fù)雜，尚未完全了解。因此，蛋白質(zhì)設(shè)計(jì)主要通過試錯(cuò)法完成，例如定向進(jìn)化，它依賴于已知蛋白質(zhì)的一些隨機(jī)突變和選擇壓力來探索相關(guān)蛋白質(zhì)的空間。這個(gè)過程既費(fèi)時(shí)又費(fèi)錢，而且通常只探索一小部分序列空間。同時(shí)，表征蛋白質(zhì)及其功能的數(shù)據(jù)很容易獲得，并為機(jī)器學(xué)習(xí)在蛋白質(zhì)序列設(shè)計(jì)中的應(yīng)用提供了有希望的機(jī)會(huì)。最近提出了多種生成模型來設(shè)計(jì)用于不同任務(wù)的蛋白質(zhì)，例如開發(fā)新療法、酶、納米抗體序列或?qū)е驴股啬?***性的蛋白質(zhì)。這些模型通常專注于蛋白質(zhì)設(shè)計(jì)的子任務(wù)，因此僅限于給定的應(yīng)用，通常甚至僅限于特定的蛋白質(zhì)家族。這需要對(duì)一項(xiàng)新任務(wù)進(jìn)行重新訓(xùn)練，這限制了模型可以從中學(xué)習(xí)的序列的多樣性和數(shù)量。在其他領(lǐng)域，例如密切相關(guān)的自然語言生成，人們可以觀察到通用模型的趨勢(shì)，然后在各種上下文中使用這些模型。谷歌團(tuán)隊(duì)的研究人員假設(shè)，同樣在蛋白質(zhì)設(shè)計(jì)中，一刀切的模型可以學(xué)習(xí)不同蛋白質(zhì)類別的共同基本原理，從而提高生成序列的質(zhì)量。更進(jìn)一步，它甚至可以通過結(jié)合它在不同蛋白質(zhì)家族中學(xué)到的功能的不同方面來創(chuàng)造不僅新的序列，而且還可以創(chuàng)造新的功能。因此，該團(tuán)隊(duì)開發(fā)了 ProteoGAN，這是一種用于條件蛋白質(zhì)設(shè)計(jì)的通用生成模型，基于分子功能基因本體論（the Molecular Function Gene Ontology，GO），一種描述蛋白質(zhì)功能方面的標(biāo)簽層次結(jié)構(gòu)。這些功能從結(jié)合特異性試劑到轉(zhuǎn)運(yùn)蛋白或傳感器活性、生化反應(yīng)催化等等不一而足。此外，分層組織中編碼的信息可能有助于對(duì)性能進(jìn)行建模。他們的模型基于流行的生成對(duì)抗網(wǎng)絡(luò)（GAN）框架。研究人員通過提出一種條件機(jī)制來擴(kuò)展框架，將蛋白質(zhì)功能的多標(biāo)簽層次信息納入生成過程。然而，開發(fā)這樣的生成模型可能具有挑戰(zhàn)性，尤其是因?yàn)槿狈︶槍?duì)問題的評(píng)估。評(píng)估指標(biāo)需要評(píng)估生成的樣本是否有效（即現(xiàn)實(shí)性和功能性），這本身就是一個(gè)難題，還需要快速計(jì)算大量樣本。生成模型的評(píng)估仍在進(jìn)行中，特別是在蛋白質(zhì)設(shè)計(jì)領(lǐng)域。雖然生成序列的金標(biāo)準(zhǔn)驗(yàn)證意味著在實(shí)驗(yàn)室中合成蛋白質(zhì)，但缺乏計(jì)算機(jī)評(píng)估使得難以有效地比較蛋白質(zhì)序列設(shè)計(jì)的方法。因此，該團(tuán)隊(duì)基于最大平均差異 (MMD) 統(tǒng)計(jì)量為生成蛋白質(zhì)設(shè)計(jì)構(gòu)建了一系列評(píng)估指標(biāo)，以測(cè)量生成序列與真實(shí)蛋白質(zhì)的分布相似性和條件一致性。同時(shí)，進(jìn)一步提出了解釋序列多樣性的措施。蛋白質(zhì)設(shè)計(jì)的相關(guān)生成模型引導(dǎo)和條件蛋白質(zhì)生成模型機(jī)器學(xué)習(xí)模型和最近的深度生成模型已被用于設(shè)計(jì)計(jì)算機(jī)生物序列，例如 RNA、DNA 或蛋白質(zhì)序列，通常旨在創(chuàng)建具有所需特性的序列。實(shí)現(xiàn)這一目標(biāo)有兩種主要策略，一種是有指導(dǎo)的，另一種是有條件的。引導(dǎo)式方法使用預(yù)測(cè)器（也稱為預(yù)言機(jī)）通過迭代的訓(xùn)練-生成-預(yù)測(cè)步驟來引導(dǎo)設(shè)計(jì)朝著目標(biāo)屬性發(fā)展。然而，在具有多個(gè)功能標(biāo)簽的情況下，缺乏用于蛋白質(zhì)功能的高度準(zhǔn)確和快速的多標(biāo)簽預(yù)測(cè)器會(huì)損害功能性蛋白質(zhì)生成中的引導(dǎo)生成技術(shù)。另一方面，條件方法將功能信息集成到生成機(jī)制本身中，從而無需預(yù)測(cè)器。例如，2020 年 Madani 團(tuán)隊(duì)開發(fā)了 ProGen，這是一種條件轉(zhuǎn)換器，可以控制生成大量功能性蛋白質(zhì)，但對(duì)序列上下文的需求可能會(huì)受到實(shí)驗(yàn)限制，并且與從頭設(shè)計(jì)不兼容。2019 年 Ingraham 團(tuán)隊(duì)提出了一種基于圖的條件生成模型，該模型依賴于結(jié)構(gòu)信息，而這種信息很少可用。2018 年 Das 團(tuán)隊(duì)和 Greener 團(tuán)隊(duì)訓(xùn)練條件變分自動(dòng)編碼器（CVAE）以生成特定蛋白質(zhì)，例如金屬蛋白。2020 年 Karimi 團(tuán)隊(duì)使用引導(dǎo)條件 Wasserstein-GAN 生成具有新折疊的蛋白質(zhì)。所有這些模型要么只關(guān)注蛋白質(zhì)設(shè)計(jì)的子任務(wù)，要么依賴于上下文信息，例如 3D 結(jié)構(gòu)或模板序列片段。而谷歌團(tuán)隊(duì)所提出的 ProteoGAN，是一種用于蛋白質(zhì)設(shè)計(jì)的通用模型，該模型只需要指定生成所需的功能特性。生成模型的評(píng)估迄今為止，對(duì)于評(píng)估（條件）生成模型輸出的質(zhì)量、多樣性和條件一致性的最佳評(píng)估措施，還沒有明確的共識(shí)。大多數(shù)在計(jì)算機(jī)視覺中脫穎而出的指標(biāo)，例如初始分?jǐn)?shù)、Frechet 初始距離（FID）或 GAN 訓(xùn)練和 GAN 測(cè)試，都依賴于外部的、特定于領(lǐng)域的預(yù)測(cè)器。對(duì)于功能性蛋白質(zhì)設(shè)計(jì)，這樣的預(yù)測(cè)器在評(píng)估和訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)既不夠好也不夠快，無法完全依賴它們的預(yù)測(cè)。功能注釋的關(guān)鍵評(píng)估 (CAFA) 挑戰(zhàn)報(bào)告了當(dāng)前最佳模型（NetGO），其 Fmax 得分為 0.63，其預(yù)測(cè)速度約為每小時(shí) 1000 個(gè)序列。相反，域無關(guān)對(duì)偶間隙可以在訓(xùn)練和測(cè)試時(shí)計(jì)算，并且已被證明與 FID 有很好的相關(guān)性。在自然語言建模中，困惑度是一種常見的評(píng)估指標(biāo)，與模型下測(cè)試集的概率有關(guān)。然而，這需要訪問在某些模型中不可用的可能性，例如 GAN，并且并不總是樣本質(zhì)量的良好指標(biāo)。另一種方法測(cè)量可以從不完整的序列中恢復(fù)多少野生型殘基，然而，這與從頭蛋白質(zhì)設(shè)計(jì)的想法背道而馳。盡管研究界對(duì)蛋白質(zhì)生成模型的興趣日益濃厚，但還沒有明確的指標(biāo)可以作為比較它們的可靠工具。討論指標(biāo)的元評(píng)估：Spectrum MMD 是蛋白質(zhì)設(shè)計(jì)的有效指標(biāo)不同的嵌入捕獲原始數(shù)據(jù)的不同方面。該團(tuán)隊(duì)感興趣的是相對(duì)簡單的 Spectrum 內(nèi)核嵌入是否足以評(píng)估分布相似性和條件一致性，因此將其與三個(gè)生物學(xué)基礎(chǔ)的嵌入進(jìn)行了比較：ProFET，主要與單個(gè)氨基酸或序列基序的生物物理特性相關(guān)的序列特征的手工選擇，UniRep，基于 LSTM 的學(xué)習(xí)嵌入和 ESM，基于 Transformer 的學(xué)習(xí)嵌入。后兩者被證明可以恢復(fù)蛋白質(zhì)的各個(gè)方面，包括結(jié)構(gòu)和功能特性以及進(jìn)化背景。在這個(gè)比較中，ESM 嵌入可以說是最強(qiáng)大的，并且有望獲得最好的分?jǐn)?shù)。值得注意的是，Spectrum 內(nèi)核嵌入也非常適合評(píng)估蛋白質(zhì)的結(jié)構(gòu)和功能方面，同時(shí)計(jì)算速度快幾個(gè)數(shù)量級(jí)，并且需要更少的計(jì)算資源。這使得它更適合神經(jīng)網(wǎng)絡(luò)和其他模型的評(píng)估或超參數(shù)優(yōu)化過程中對(duì)性能的要求。選擇 Spectrum 內(nèi)核嵌入的另一個(gè)原因是它的簡單性，因?yàn)樗粚?duì)數(shù)據(jù)分布做任何假設(shè)：學(xué)習(xí)到的嵌入 UniRep 和 ESM 是在大量自然序列上訓(xùn)練的復(fù)雜非線性映射，雖然它們?cè)谧匀环植紨?shù)據(jù)上表現(xiàn)出色，但它們?cè)谏尚蛄猩系男袨槿匀徊豢深A(yù)測(cè)。超參數(shù)分析：ProteoGAN 的條件判別器對(duì)其性能最為關(guān)鍵研究人員測(cè)試了 cGAN 的各種超參數(shù)和架構(gòu)選擇，并在 fANOVA 框架（functional ANOVA framework）中對(duì)蛋白質(zhì)設(shè)計(jì)性能指標(biāo) MMD 和 MRR 進(jìn)行了分析。為了為這些模型的后續(xù)工作提供信息，研究人員可以根據(jù)經(jīng)驗(yàn)得出一些專門用于蛋白質(zhì)設(shè)計(jì)的 GAN 設(shè)計(jì)原則。首先，較小的架構(gòu)比具有四個(gè)以上隱藏層的網(wǎng)絡(luò)表現(xiàn)得更好。這個(gè)大小似乎足以對(duì)蛋白質(zhì)進(jìn)行建模，盡管優(yōu)化當(dāng)然會(huì)對(duì)快速收斂（?。┠Ｐ彤a(chǎn)生選擇壓力。判別器達(dá)到最優(yōu)解，比通過較大的學(xué)習(xí)率經(jīng)常找到的局部最優(yōu)，更重要。研究人員觀察到分布相似性和條件一致性之間的權(quán)衡。這表現(xiàn)在增加 MRR 和降低 MMD 性能時(shí)，當(dāng)權(quán)衡更強(qiáng)的 AC 的訓(xùn)練損失項(xiàng)時(shí)，以及在不同的調(diào)節(jié)機(jī)制之間切換時(shí)。僅使用序列作為輸入，而不是將生物物理特征向量附加到序列嵌入中，可以獲得最佳性能。氨基酸同一性，而不是其特性，似乎對(duì)序列建模更為關(guān)鍵。研究人員發(fā)現(xiàn)，在比較捕獲標(biāo)簽之間的層次關(guān)系的不同標(biāo)簽嵌入時(shí)，標(biāo)簽的簡單 one-hot 編碼顯示出最佳結(jié)果。對(duì)于模型，離散的 one-hot 標(biāo)簽嵌入似乎比連續(xù)的 node2vec 嵌入或雙曲 Poincaré 嵌入更容易解釋。雖然這些嵌入包含更多信息，但 one-hot 編碼以更易于訪問的形式呈現(xiàn)它們。此外，對(duì)于神經(jīng)網(wǎng)絡(luò)需要首先學(xué)習(xí)的許多基本概念，雙曲空間需要特殊的算子。GAN 框架的其他流行擴(kuò)展，例如輸入噪聲、標(biāo)簽平滑或訓(xùn)練比率在上下文中沒有顯著影響模型性能?？偠灾?，一個(gè)具有調(diào)節(jié)機(jī)制且沒有進(jìn)一步序列或標(biāo)簽增強(qiáng)的小型模型效果最好。對(duì)架構(gòu)的進(jìn)一步改進(jìn)應(yīng)該集中在改進(jìn)鑒別器上，因?yàn)橛绊懰某瑓?shù)顯示出最大的影響。他們的最終模型 ProteoGAN 是優(yōu)化性能最好的模型，具有多個(gè)投影、一個(gè) AC、沒有生物物理特征和標(biāo)簽信息的單熱編碼。基線比較：ProteoGAN 優(yōu)于其他方法根據(jù)提出的分布相似性、條件一致性和多樣性指標(biāo)，研究人員評(píng)估 ProteoGAN 的性能，并將其與幾個(gè)基線進(jìn)行比較。通過對(duì)生物嵌入 ProFET、UniRep 和 ESM 以及嵌入的特征 KS 統(tǒng)計(jì)量的評(píng)估來鞏固結(jié)果。圖示：基于 Spectrum 內(nèi)核嵌入，使用 MMD、MRR 和多樣性指標(biāo)評(píng)估 ProteoGAN 和各種基線。（來源：論文）結(jié)果表明，ProteoGAN 在所有指標(biāo)和嵌入上都明顯優(yōu)于 HMM、n-gram 模型和 CVAE。這同樣適用于 OpL 版本，每個(gè)標(biāo)簽訓(xùn)練一次。ProteoGAN 的性能也優(yōu)于最先進(jìn)的 ProGen 模型。MMD 值相似，ProGen 可能會(huì)比 ProteoGAN 更好地?cái)U(kuò)展；然而，MRR 顯示了 ProteoGAN 在條件生成方面的明顯優(yōu)勢(shì)。適用性：ProteoGAN可以支持更大序列空間的蛋白質(zhì)篩選沒有濕實(shí)驗(yàn)室驗(yàn)證，很難證明生物學(xué)有效性，后續(xù)可能會(huì)進(jìn)行驗(yàn)證。研究人員承認(rèn)，MMD 值仍然與陽性對(duì)照有顯著差異，并且相應(yīng)的 P 值在這方面尚無定論。因此，生成的序列很可能不是開箱即用的，而是需要一些實(shí)驗(yàn)性調(diào)整，如定向進(jìn)化。目前，ProteoGAN 的主要應(yīng)用：用比以前可能的距離已知序列空間更遠(yuǎn)的候選者進(jìn)行蛋白質(zhì)篩選的擴(kuò)展，但比其他方法的相對(duì)新穎的候選者更可能具有功能。展望：調(diào)理可能使新蛋白質(zhì)功能的設(shè)計(jì)成為可能作為一個(gè)有趣的前景，該團(tuán)隊(duì)提供了關(guān)于 OOD 生成的初步評(píng)估。以多個(gè)標(biāo)簽為條件的模型通常旨在模擬給定標(biāo)簽的蛋白質(zhì)的聯(lián)合分布，即執(zhí)行所有指定功能的蛋白質(zhì)。因此，研究人員假設(shè)條件機(jī)制可用于將以前不相關(guān)的功能標(biāo)記組合成一種蛋白質(zhì)，這將能夠設(shè)計(jì)出具有以前看不見的功能的全新類型的蛋白質(zhì)。研究人員強(qiáng)調(diào)這個(gè)目標(biāo)沒有明確地建立在條件機(jī)制中，因此它不適合優(yōu)化沖突屬性。但是，正交屬性的組合可能是允許的。雖然同樣在這里，生物實(shí)施是不可避免的來證明這一概念，但研究人員可以報(bào)告 ProteoGAN 和 CVAE 在五個(gè)保留標(biāo)簽組合上顯示出有希望的 Top-X 精度。這一概念的進(jìn)一步發(fā)展將為生物技術(shù)提供新的工具。