博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 圖學(xué)習(xí)+分子表示學(xué)習(xí),飛槳刷新****物分子性質(zhì)預(yù)測(cè)榜單

圖學(xué)習(xí)+分子表示學(xué)習(xí),飛槳刷新****物分子性質(zhì)預(yù)測(cè)榜單

發(fā)布人:機(jī)器之心 時(shí)間:2021-03-20 來(lái)源:工程師 發(fā)布文章

百度飛槳憑借圖學(xué)習(xí)框架 (PGL) 和生物計(jì)算平臺(tái)螺旋槳(PaddleHelix),登頂權(quán)威榜單 OGB 多項(xiàng)分子性質(zhì)預(yù)測(cè)任務(wù),在 AI ****物發(fā)現(xiàn)領(lǐng)域取得新的技術(shù)突破。

化合物的生物活性篩選是現(xiàn)代****物研發(fā)中關(guān)鍵的一環(huán),其主要目的是在大量候選化合物中發(fā)現(xiàn)針對(duì)某種****物靶點(diǎn)具有活性的分子。傳統(tǒng)的活性篩選方法需要合成大量化合物用以進(jìn)行生物實(shí)驗(yàn),整個(gè)流程的成本高、周期長(zhǎng)、成功率低。而通過(guò) AI 技術(shù)進(jìn)行****物的虛擬篩選有望代替?zhèn)鹘y(tǒng)的活性篩選方法,加速中間步驟從而大幅度降低研發(fā)成本。

國(guó)際權(quán)威榜單 Open Graph Benchmark(OGB)上的 HIV 和 PCBA 數(shù)據(jù)集包括多種生物活性實(shí)驗(yàn)。其中,HIV 數(shù)據(jù)集關(guān)注不同化合物是否能夠抑制 HIV 病毒在細(xì)胞內(nèi)的復(fù)制,PCBA 數(shù)據(jù)集關(guān)注不同化合物針對(duì) 100 多種疾病靶點(diǎn)的有效性。以其中能增強(qiáng)功能性 SMN2 蛋白表達(dá)的化合物為例,這些化合物能夠改善因 SMN1 蛋白突變失效引起的脊髓肌肉萎縮。成功預(yù)測(cè)化合物這類(lèi)性質(zhì)對(duì)于發(fā)現(xiàn)針對(duì)多種疾病的有效****物具有重要意義。

近日,飛槳在 OGB 該兩項(xiàng)分子性質(zhì)預(yù)測(cè)榜單登上榜首,在 AI ****物發(fā)現(xiàn)領(lǐng)域取得了新的技術(shù)突破。

3.png

飛槳登頂 OGB 分子性質(zhì)預(yù)測(cè)數(shù)據(jù)集 HIV 和 PCBA

基于飛槳能力實(shí)現(xiàn)分子性質(zhì)預(yù)測(cè)

飛槳基于圖學(xué)習(xí)框架 PGL,使用深度圖神經(jīng)網(wǎng)絡(luò)(GNN),配合生物計(jì)算平臺(tái)螺旋槳 PaddleHelix 對(duì)****物發(fā)現(xiàn)領(lǐng)域的理解,設(shè)計(jì)自監(jiān)督學(xué)習(xí)任務(wù)學(xué)習(xí)化合物分子表示,并應(yīng)用到分子性質(zhì)預(yù)測(cè)中。核心技術(shù)包括:

分子表示學(xué)習(xí)

為了將化合物分子作為圖神經(jīng)網(wǎng)絡(luò)方法的輸入,需要首先將化合物分子特征化。OGB 已經(jīng)針對(duì)每個(gè)化合物提供了一系列基于圖結(jié)構(gòu)的結(jié)點(diǎn)和邊的特征,可以對(duì)應(yīng)到化合物的原子和化學(xué)鍵,但這些特征都較為微觀,無(wú)法表示化合物分子的宏觀化學(xué)特性。飛槳通過(guò)表示學(xué)習(xí)的方法,首次將分子的宏觀化學(xué)特性(官能團(tuán)、分子指紋等信息)和圖神經(jīng)網(wǎng)絡(luò)相結(jié)合,取得了融合宏觀化學(xué)特征的分子表示,并利用這個(gè)分子表示取得了 ogbg-molhiv 的榜首。

圖學(xué)習(xí)技術(shù)

APPNP 是基于個(gè)性化 PageRank 改進(jìn)的特征傳播算法,通過(guò)迭代的方式來(lái)近似 Personal PageRank 的解析解。APPNP 算法不引入額外的模型參數(shù),能夠很好地調(diào)節(jié)局部信息和多階鄰居關(guān)系。飛槳通過(guò)結(jié)合 GINE plus 和 APPNP 技術(shù),在不引入額外的模型參數(shù)下,獲得更好的模型表達(dá)能力,并取得 ogbg-molpcba 榜首。

飛槳圖學(xué)習(xí)框架 PGL

百度深度學(xué)習(xí)平臺(tái)飛槳 PaddlePaddle 開(kāi)源圖學(xué)習(xí)框架 PGL v2.0 版本,全面支持動(dòng)態(tài)圖機(jī)制,可支持百億規(guī)模大圖,用戶(hù)可以通過(guò) PGL 實(shí)現(xiàn)高效而又滿(mǎn)足工業(yè)應(yīng)用需求的圖神經(jīng)網(wǎng)絡(luò)。PGL 支持的百度內(nèi)外部業(yè)務(wù)也是遍地開(kāi)花,全面覆蓋推薦系統(tǒng)、搜索引擎、智慧金融、智能地圖、安全風(fēng)控、生物醫(yī)****等場(chǎng)景。

2.png

生物計(jì)算螺旋槳 PaddleHelix

螺旋槳 PaddleHelix 是基于百度深度學(xué)習(xí)平臺(tái)飛槳的生物計(jì)算平臺(tái)。提供了包括 RNA 二級(jí)結(jié)構(gòu)預(yù)測(cè)、大規(guī)模分子和蛋白質(zhì)表示學(xué)習(xí)、****物靶點(diǎn)親和力預(yù)測(cè)、ADMET 成****性預(yù)測(cè)等,在新****研發(fā)和疫苗設(shè)計(jì)環(huán)節(jié)具有廣闊應(yīng)用前景的技術(shù)能力。

1.png

螺旋槳 PaddleHelix 可以幫助生物學(xué)、****物化學(xué)、計(jì)算機(jī)交叉學(xué)科背景的學(xué)習(xí)者、研究者和合作伙伴更便利地構(gòu)建 AI 算法模型。螺旋槳 PaddleHelix 生物計(jì)算平臺(tái)將保持開(kāi)源開(kāi)放原則,與合作伙伴共建共享,未來(lái)形成一套完整的面向行業(yè)的生物計(jì)算生態(tài)和服務(wù)。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞:

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉