使用深度學(xué)習(xí)方法高通量預(yù)測(cè)代謝酶的 kcat，或可揭開細(xì)胞工廠的秘密

發(fā)布人：機(jī)器之心時(shí)間：2022-09-15 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

以下文章來源于ScienceAI ，作者ScienceAI

編輯 | 蘿卜皮

酶周轉(zhuǎn)數(shù)（kcat）是了解細(xì)胞代謝、蛋白質(zhì)組分配和生理多樣性的關(guān)鍵，但實(shí)驗(yàn)測(cè)量的 kcat 數(shù)據(jù)往往稀疏且嘈雜。查爾姆斯理工大學(xué)（Chalmers University of Technology）的研究團(tuán)隊(duì)提供了一種深度學(xué)習(xí)方法（DLKcat），用于僅根據(jù)底物結(jié)構(gòu)和蛋白質(zhì)序列對(duì)來自任何生物體的代謝酶進(jìn)行高通量 kcat 預(yù)測(cè)。DLKcat 可以捕獲突變酶的 kcat 變化并識(shí)別對(duì) kcat 值有強(qiáng)烈影響的氨基酸殘基。研究人員應(yīng)用這種方法來預(yù)測(cè) 300 多種酵母物種的基因組規(guī)模 kcat 值。此外，該團(tuán)隊(duì)設(shè)計(jì)了一個(gè)貝葉斯管道，以根據(jù)預(yù)測(cè)的 kcat 值參數(shù)化酶約束的基因組規(guī)模代謝模型。由此產(chǎn)生的模型在預(yù)測(cè)表型和蛋白質(zhì)組方面優(yōu)于先前管道中相應(yīng)的原始酶約束基因組規(guī)模代謝模型，并使研究人員能夠解釋表型差異。DLKcat 和酶約束的基因組規(guī)模代謝模型構(gòu)建管道是揭示酶動(dòng)力學(xué)和生理多樣性的全球趨勢(shì)，并進(jìn)一步闡明大規(guī)模細(xì)胞代謝的寶貴工具。該研究以「Deep learning-based kcat prediction enables improved enzyme-constrained model reconstruction」為題，于 2022 年 6 月 16 日發(fā)布在《Nature Catalysis》。酶轉(zhuǎn)換數(shù)（kcat）定義了反應(yīng)的最大化學(xué)轉(zhuǎn)化率，是了解特定生物體的新陳代謝、蛋白質(zhì)組分配、生長(zhǎng)和生理學(xué)的關(guān)鍵參數(shù)。酶數(shù)據(jù)庫(kù) BRENDA 和 SABIO-RK 中有大量可用的 kcat 值集合，然而，與現(xiàn)有的各種生物體和代謝酶相比，這些值仍然稀少，這主要是因?yàn)槿狈τ糜?kcat 測(cè)量的高通量方法。此外，由于不同的測(cè)定條件（例如 pH 值、輔因子可用性和實(shí)驗(yàn)方法），實(shí)驗(yàn)測(cè)量的 kcat 值具有相當(dāng)大的可變性。總之，稀疏的收集和相當(dāng)大的噪聲限制了 kcat 數(shù)據(jù)在全局分析中的使用，并可能掩蓋酶進(jìn)化趨勢(shì)。特別是酶約束的基因組規(guī)模代謝模型（ecGEM），其中全細(xì)胞代謝網(wǎng)絡(luò)受到酶催化能力的約束，因此能夠準(zhǔn)確模擬最大生長(zhǎng)能力、代謝變化和蛋白質(zhì)組分配，特別依賴于基因組- 縮放 kcat 值。在過去的十年中，ecGEM（或遵循酶約束概念的模型）已分別針對(duì)幾種經(jīng)過充分研究的生物體開發(fā)，包括大腸桿菌、釀酒酵母、中國(guó)倉(cāng)鼠卵巢細(xì)胞和智人。由于 kcat 測(cè)量的局限性和依賴酶委員會(huì)（EC）編號(hào)注釋來搜索這些已開發(fā)管道中的 kcat 值，為研究較少的生物體重建 ecGEM 或?yàn)槎喾N生物體進(jìn)行大規(guī)模重建仍然是一個(gè)挑戰(zhàn)。此外，即使對(duì)于那些經(jīng)過充分研究的生物，kcat 的覆蓋范圍也遠(yuǎn)未完成。在釀酒酵母 ecGEM 中，只有 5% 的酶促反應(yīng)在 BRENDA 中具有完全匹配的 kcat 值。當(dāng)數(shù)據(jù)缺失時(shí)，以前的 ecGEM 重建流程通常假設(shè) kcat 值來自類似的底物、反應(yīng)或其他生物，這可能導(dǎo)致模型預(yù)測(cè)偏離實(shí)驗(yàn)觀察。明確要求獲得大規(guī)模的 kcat 值以提高模型準(zhǔn)確性并產(chǎn)生更可靠的表型模擬。深度學(xué)習(xí)已被應(yīng)用并在模擬化學(xué)空間、基因表達(dá)、酶相關(guān)參數(shù)（如酶親和力和 EC 數(shù)）方面表現(xiàn)出出色的性能。此前，有研究人員采用機(jī)器學(xué)習(xí)方法，根據(jù)從蛋白質(zhì)結(jié)構(gòu)中獲得的平均代謝通量和催化位點(diǎn)等特征來預(yù)測(cè)大腸桿菌 kcat 值。然而，這些特征通常很難獲得，這使得這種方法只能應(yīng)用于研究最充分的生物體，如大腸桿菌。在這里，查爾姆斯理工大學(xué)（Chalmers University of Technology）的研究團(tuán)隊(duì)提出了深度學(xué)習(xí)方法 DLKcat 來預(yù)測(cè)所有代謝酶與其底物的 kcat 值，只需要底物 SMILES 信息和酶的蛋白質(zhì)序列作為輸入，從而為任何物種產(chǎn)生通用的 kcat 預(yù)測(cè)工具。圖示：用于 ecGEM 參數(shù)化的 kcat 深度學(xué)習(xí)。（來源：論文）DLKcat 可以捕獲 kcat 向精確的單個(gè)氨基酸替代方向的變化，從而能夠計(jì)算注意力權(quán)重，從而識(shí)別對(duì)酶活性產(chǎn)生重大影響的氨基酸殘基。氨基酸取代是酶進(jìn)化領(lǐng)域的一項(xiàng)強(qiáng)大技術(shù)，通常用于探測(cè)酶催化機(jī)制。特別是，大多數(shù)替代實(shí)驗(yàn)在底物結(jié)合位點(diǎn)區(qū)域進(jìn)行誘變，因?yàn)榧僭O(shè)結(jié)合區(qū)域?qū)?duì)催化活性產(chǎn)生很大影響。然而，據(jù)報(bào)道，偏遠(yuǎn)地區(qū)會(huì)對(duì)催化活性產(chǎn)生深遠(yuǎn)影響。研究人員不僅確定了人 PNP 酶肌苷結(jié)合區(qū)域中氨基酸殘基的高關(guān)注權(quán)重，而且還確定了具有高關(guān)注權(quán)重的各種非結(jié)合殘基位點(diǎn)，這表明這些殘基也可能對(duì)催化活性產(chǎn)生重大影響，值得進(jìn)一步驗(yàn)證。DLKcat 因此可以作為蛋白質(zhì)工程工具箱的重要組成部分。預(yù)測(cè)的基因組規(guī)模的 kcat 譜可以促進(jìn)酶約束代謝模型的重建，從策劃和自動(dòng)生成的基本（非 ec）GEM 中。事實(shí)證明，深度學(xué)習(xí)預(yù)測(cè)的 kcat 過程比匹配來自 BRENDA 和 SABIO-RK 數(shù)據(jù)庫(kù)的體外 kcat 值更全面但仍然實(shí)用；這在 GECKO 和 MOMENT 等原始 ecGEM 重建管道中很常見。通過不依賴 EC 編號(hào)注釋，DLKcat 還能夠預(yù)測(cè)同工酶特異性 kcat 值，而 SMILES 的使用避免了原始 ecGEM 重建管道可能遇到的 GEM 和 BRENDA 之間底物命名不統(tǒng)一的問題。隨后可以通過貝葉斯方法將 DL-ecGEM 調(diào)整為現(xiàn)有的實(shí)驗(yàn)生長(zhǎng)數(shù)據(jù)，該方法產(chǎn)生具有生理相關(guān)解空間的后均值 ecGEM。結(jié)合起來，當(dāng)前基于 DLKcat 的管道因此適用于幾乎任何生物體的 ecGEM 重建，其中蛋白質(zhì)序列 FASTA 文件和基本 GEM 可用。他們的管道因此提高了適用性，與以前構(gòu)建的原始 ecGEM 相比，它甚至提高了具有酶促約束的反應(yīng)數(shù)量。圖示：kcat 預(yù)測(cè)的深度學(xué)習(xí)模型性能。（來源：論文）盡管基于 DLKcat 的管道產(chǎn)生的 ecGEM 性能優(yōu)于原始 ecGEM，但仍然存在各種挑戰(zhàn)。例如，雖然深度學(xué)習(xí)模型可以將混雜酶的替代物與隨機(jī)選擇的底物區(qū)分開來，但它仍然預(yù)測(cè)了可能過高的隨機(jī)底物的動(dòng)力學(xué)活性水平。這種行為可以通過負(fù)面數(shù)據(jù)的有限可用性來解釋：酶 - 底物對(duì)沒有產(chǎn)生催化作用的情況。增加對(duì)陰性數(shù)據(jù)集的報(bào)告，其中酶-底物對(duì)的未檢測(cè)到的活性由酶數(shù)據(jù)庫(kù)報(bào)告和收集，可以增強(qiáng)未來深度學(xué)習(xí)模型在定義真陰性方面的能力。此外，DLKcat 并未考慮 pH 和溫度等環(huán)境因素的影響，但將 DLKcat 與其他新興機(jī)器學(xué)習(xí)工具（例如酶的最佳溫度預(yù)測(cè)）相結(jié)合，將有助于未來研究環(huán)境參數(shù)對(duì)酶活性的影響。另一個(gè)挑戰(zhàn)涉及涉及多種底物和由異聚酶復(fù)合物催化的反應(yīng)。可以為此類反應(yīng)定義的多底物 SMILES 和蛋白質(zhì)序列都可以與 DLKcat 一起發(fā)揮作用，從而為一個(gè)反應(yīng)產(chǎn)生多個(gè)預(yù)測(cè)的 kcat 值。目前在這些情況下，研究人員會(huì)選擇最大 kcat 值，但最好設(shè)計(jì)一種方法來預(yù)測(cè)每種多底物和異聚酶的一個(gè) kcat 值。

圖示：用于預(yù)測(cè)和解釋突變酶 kcat 的深度學(xué)習(xí)模型。（來源：論文）

此外，DLKcat 衍生的 DL-ecGEM 和后驗(yàn)均值 ecGEM 繼承了基本 GEM 的局限性，其中基于約束的建模的核心穩(wěn)態(tài)假設(shè)允許人們確定代謝通量，但不容易考慮調(diào)節(jié)行為。雖然 ecGEM 極大地將基于約束的模型的解空間減少到細(xì)胞可行容量，但 kcat 并不是決定反應(yīng)速率的唯一動(dòng)力學(xué)參數(shù)，例如，親和常數(shù)起著重要的作用。然而，由于基于約束的模型無法預(yù)測(cè)內(nèi)部代謝物濃度，因此目前無法輕易考慮這些參數(shù)的影響。盡管如此，kcat 值也是其他資源分配模型中的重要參數(shù)，例如蛋白質(zhì)組約束的 GEM 和代謝/大分子表達(dá)模型。盡管改進(jìn)的預(yù)測(cè)和更多的應(yīng)用，如何定義 kcat 值也仍然是重建這些模型的挑戰(zhàn)。這種資源分配模型和 ecGEM 都認(rèn)為細(xì)胞需要將其有限的蛋白質(zhì)組分配到不同的途徑以實(shí)現(xiàn)更快的生長(zhǎng)或更好的適應(yīng)度，而每個(gè)反應(yīng)的蛋白質(zhì)組成本同樣由酶的通量和動(dòng)力學(xué)速率定義。因此，這些模型的代謝部分的深度學(xué)習(xí)預(yù)測(cè) kcat 值可以提高其質(zhì)量和性能，盡管無法從 DLKcat 獲得在這些模型公式中確定的其他具有挑戰(zhàn)性的動(dòng)力學(xué)參數(shù)，例如核糖體催化率。此外，特別關(guān)注描述酶動(dòng)力學(xué)的模型公式可以受益于深度學(xué)習(xí)預(yù)測(cè)的 kcat 值，因此 DLKcat 方法可以在建模領(lǐng)域找到廣泛的應(yīng)用。總之，DLKcat 產(chǎn)生了現(xiàn)實(shí)的 kcat 值，可用于指導(dǎo)未來的基因工程、了解酶進(jìn)化和重建 ecGEM 以預(yù)測(cè)代謝通量和表型。除此之外，這種基于深度學(xué)習(xí)的 kcat 預(yù)測(cè)工具的許多其他潛在用途，例如基因組挖掘和全基因組關(guān)聯(lián)研究分析中的工具。開發(fā)的自動(dòng)貝葉斯 ecGEM 重建管道將有助于進(jìn)一步用于 ecGEM 重建，用于組學(xué)數(shù)據(jù)合并和分析。論文鏈接：https://www.nature.com/articles/s41929-022-00798-z相關(guān)報(bào)道：https://phys.org/news/2022-08-algorithm-uncovers-secrets-cell-factories.html

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

使用深度學(xué)習(xí)方法高通量預(yù)測(cè)代謝酶的 kcat，或可揭開細(xì)胞工廠的秘密

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

使用深度學(xué)習(xí)方法高通量預(yù)測(cè)代謝酶的 kcat，或可揭開細(xì)胞工廠的秘密

相關(guān)推薦

技術(shù)專區(qū)

使用深度學(xué)習(xí)方法高通量預(yù)測(cè)代謝酶的 kcat，或可揭開細(xì)胞工廠的秘密