北京大學(xué)高歌:21世紀(jì)的生命科學(xué)屬于數(shù)據(jù)科學(xué)丨獨(dú)家專(zhuān)訪
高歌現(xiàn)為北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心 (BIOPIC)、北京未來(lái)基因診斷高精尖創(chuàng)新中心 (ICG)、生物信息中心 (CBI) 暨蛋白質(zhì)與植物基因研究國(guó)家重點(diǎn)實(shí)驗(yàn)室研究員、博士生導(dǎo)師。他長(zhǎng)期從事新一代的生物信息方法和技術(shù)研究,其團(tuán)隊(duì)正在基于大數(shù)據(jù)、統(tǒng)計(jì)學(xué)習(xí)等計(jì)算方法和單細(xì)胞多組學(xué)技術(shù),深入挖掘和整合高通量生物數(shù)據(jù),在單細(xì)胞水平上精準(zhǔn)解析細(xì)胞調(diào)控圖譜并探索其在生物醫(yī)****領(lǐng)域的應(yīng)用方向。
他形象地將其團(tuán)隊(duì)從事的事情描述為科學(xué)地 “看相” 和 “算命”,即利用計(jì)算的方法解析生物大數(shù)據(jù)中蘊(yùn)含的新生命規(guī)律。具體來(lái)說(shuō)就是基于基因組、轉(zhuǎn)錄組等大規(guī)模組學(xué)測(cè)量數(shù)據(jù) (科學(xué) “看相”),通過(guò)多種計(jì)算方法有效挖掘、整合、建模,發(fā)現(xiàn)新現(xiàn)象、總結(jié)新規(guī)律,形成對(duì)生命過(guò)程的統(tǒng)一解析和理解,進(jìn)而將其應(yīng)用于生物醫(yī)****領(lǐng)域的診治中,實(shí)現(xiàn) “科學(xué)算命”。 其技術(shù)路線可以總結(jié)為 “數(shù)據(jù)導(dǎo)向”(Data-Oriented)、“方法驅(qū)動(dòng)”(Methodology-Driven)、“干濕結(jié)合”(in silico for in vivo)。 細(xì)胞是構(gòu)成生命的基本單元,細(xì)胞中多種調(diào)控機(jī)制造就了機(jī)體中功能形態(tài)豐富多樣的細(xì)胞群體,并進(jìn)而構(gòu)成了早期發(fā)育、腫瘤發(fā)展等多種關(guān)鍵生理病理現(xiàn)象的生物學(xué)基礎(chǔ)。而現(xiàn)階段,要實(shí)現(xiàn) “科學(xué)看相” 和 “科學(xué)算命”,核心工作就在于精準(zhǔn)解析細(xì)胞調(diào)控圖譜。 “隨著近年來(lái)以單細(xì)胞多組學(xué)數(shù)據(jù)為代表的新一代測(cè)量數(shù)據(jù)爆發(fā)式增長(zhǎng),以深度學(xué)習(xí)、因果推斷等為代表的統(tǒng)計(jì)建模方法不斷取得新進(jìn)展,以及以混合計(jì)算、彈性計(jì)算等為代表的計(jì)算技術(shù)快速鋪開(kāi),我們有望在近期內(nèi)精準(zhǔn)解析人類(lèi)細(xì)胞調(diào)控圖譜?!?/span>
“21 世紀(jì)的生命科學(xué)正在進(jìn)入數(shù)據(jù)科學(xué)時(shí)代,生命科學(xué)的整體研究方法或者研究思路很大程度上都將隨著數(shù)據(jù)量的快速增長(zhǎng)而變化,這種改變將會(huì)帶來(lái)巨大、深遠(yuǎn)的影響?!?高歌說(shuō)。 如何在海量的生物學(xué)數(shù)據(jù)中有效挖掘新的生物學(xué)知識(shí)是利用計(jì)算方法解析生命的關(guān)鍵,而無(wú)論是新型的深度學(xué)習(xí)模型、還是經(jīng)典的統(tǒng)計(jì)學(xué)習(xí)方法,都高度依賴(lài)高質(zhì)量的生物學(xué)數(shù)據(jù)。近年來(lái),單細(xì)胞多組學(xué)測(cè)量技術(shù)的快速發(fā)展是獲取高維度生物數(shù)據(jù)的關(guān)鍵之一。
單細(xì)胞多組學(xué)測(cè)量技術(shù)是指對(duì)單個(gè)細(xì)胞包含的基因組、表觀基因組、轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組等組學(xué)信息進(jìn)行測(cè)量分析,從而獲得單個(gè)細(xì)胞在多個(gè)層面的運(yùn)作狀態(tài)。 在此基礎(chǔ)上,科研人員可以進(jìn)一步開(kāi)發(fā)新的計(jì)算方法,從多個(gè)層面分析細(xì)胞,整合和解讀不同層面的數(shù)據(jù),以全面理解細(xì)胞的組成成分和運(yùn)作機(jī)制。進(jìn)一步地,在臨床上,多組學(xué)數(shù)據(jù)能夠幫助人們理解細(xì)胞在病理狀態(tài)和生理狀態(tài)之間的差異,并精準(zhǔn)鎖定診斷標(biāo)志物和治療性靶點(diǎn)。 “作為近年來(lái)生命科學(xué)技術(shù)領(lǐng)域最大進(jìn)展之一的單細(xì)胞多組學(xué)技術(shù)正在蓬勃發(fā)展。隨著多組學(xué)技術(shù)產(chǎn)生的數(shù)據(jù)量持續(xù)增長(zhǎng),我們?cè)跉v史上第一次有可能從整體上構(gòu)建細(xì)胞調(diào)控圖譜,進(jìn)而在單細(xì)胞水平上對(duì)基因表達(dá)調(diào)控及其生理、病理結(jié)果進(jìn)行精準(zhǔn)解析,并最終實(shí)現(xiàn)在計(jì)算機(jī)中建立細(xì)胞調(diào)控的高精度模型,構(gòu)造 Virtual Cell。” 高歌說(shuō)。
“在生命科學(xué)領(lǐng)域,數(shù)據(jù)本身具有不可忽視的價(jià)值。然而,產(chǎn)生海量數(shù)據(jù)只是第一步;只有發(fā)展新的計(jì)算技術(shù)與方法解析、挖掘這些寶貴的數(shù)據(jù),才能發(fā)現(xiàn)新的生物學(xué)現(xiàn)象與規(guī)律,并進(jìn)而將其運(yùn)用于生物醫(yī)學(xué)的實(shí)踐中?!?高歌說(shuō)。 “數(shù)據(jù)導(dǎo)向,方法驅(qū)動(dòng)” 是高歌團(tuán)隊(duì)的核心研究路線。高歌相信,方法學(xué)(方法特指計(jì)算方法)的進(jìn)步是獲得新發(fā)現(xiàn)的有效途徑,并將為從根本上提升對(duì)生命系統(tǒng)的理解提供全新的視角與可能。 有鑒于此,該團(tuán)隊(duì)近年來(lái)圍繞生物數(shù)據(jù)的解析、挖掘與整合,開(kāi)發(fā)了一系列生物信息學(xué)新方法與新技術(shù)。截止目前,其團(tuán)隊(duì)已自主研發(fā) 10 余款生物信息新算法軟件和數(shù)據(jù)庫(kù),外部有效訪問(wèn)量累計(jì)逾 10 億次。
具體來(lái)說(shuō),高歌團(tuán)隊(duì)已經(jīng)開(kāi)發(fā)出了多款深度學(xué)習(xí)模型和組件,包括最新發(fā)表的新型卷積層 vConv、新型池化層 ePooling、單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)整合和注釋的新方法 Cell BLAST 等。據(jù)介紹,其基本思路是根據(jù)生物數(shù)據(jù)特點(diǎn),針對(duì)現(xiàn)有深度學(xué)習(xí)模型或者組件進(jìn)行調(diào)整和優(yōu)化,進(jìn)而從底層重構(gòu)一套適用于生物學(xué)的深度學(xué)習(xí)框架。
高歌告訴生輝,對(duì)于一個(gè)計(jì)算模型的評(píng)價(jià)可以從兩個(gè)方面來(lái)看,一是計(jì)算模型本身的性能;二是可解釋性,也就是幫助科學(xué)家理解生物數(shù)據(jù)中所蘊(yùn)含的信息與知識(shí)的能力。 今年 7 月,該團(tuán)隊(duì)在線發(fā)表最新深度學(xué)習(xí)組件 —— 基于自適應(yīng)卷積核的新型卷積層 vConv。標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)的卷積核長(zhǎng)度通常是固定的,但是在生物信號(hào)檢測(cè)過(guò)程中,信號(hào)本身的長(zhǎng)度并不固定?;诖?,該團(tuán)隊(duì)針對(duì)生物醫(yī)****領(lǐng)域的數(shù)據(jù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)里的常用卷積層進(jìn)行了改良。 高歌告訴生輝,該模型最大的創(chuàng)新之處在于通過(guò)針對(duì)細(xì)分領(lǐng)域的數(shù)據(jù)特點(diǎn)設(shè)計(jì)深度學(xué)習(xí)組件,將標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)中長(zhǎng)度固定的卷積核變?yōu)榭勺詣?dòng)調(diào)整長(zhǎng)度的卷積核。 ePooling 則是該團(tuán)隊(duì)開(kāi)發(fā)的一種具有明確概率可解釋性的新型池化層,它從概率可解釋性出發(fā),通過(guò)理性設(shè)計(jì),對(duì)當(dāng)前主流的池化方法進(jìn)行了改進(jìn),不僅提升了可解釋性、也提高了性能。 2020 年 7 月,該團(tuán)隊(duì)在 Nature Communications 上發(fā)表了一種基于深度對(duì)抗學(xué)習(xí)模型的數(shù)據(jù)檢索和注釋新方法 ——Cell BLAST,和一個(gè)高質(zhì)量單細(xì)胞轉(zhuǎn)錄組參考數(shù)據(jù)庫(kù) ACA。今年3月,這項(xiàng)研究入選了《基因組蛋白質(zhì)組與生物信息學(xué)報(bào)》評(píng)選的 2020 年度 “中國(guó)生物信息學(xué)十大進(jìn)展”。
在比較跨數(shù)據(jù)集時(shí),批次效應(yīng)往往會(huì)降低預(yù)測(cè)的準(zhǔn)確性和可靠性,并影響現(xiàn)有數(shù)據(jù)的利用,借助對(duì)抗學(xué)習(xí)方法,Cell BLAST 可以有效地消除數(shù)據(jù)之間的批次效應(yīng)。此外,Cell BLAST 還能夠發(fā)現(xiàn)存在于用戶(hù)提交的待查數(shù)據(jù)集、但不存在于 ACA 參考數(shù)據(jù)集中的細(xì)胞類(lèi)型。 據(jù)悉,該團(tuán)隊(duì)還在開(kāi)發(fā)深度學(xué)習(xí)模型 GLUE 以整合包括轉(zhuǎn)錄組、表觀組、蛋白質(zhì)組等在內(nèi)不同維度的單細(xì)胞多組學(xué)數(shù)據(jù),最新研究結(jié)果近期已刊登于預(yù)印本網(wǎng)站 bioRxiv 上。
今年是高歌加入北京大學(xué)的第 10 個(gè)年頭。目前,高歌團(tuán)隊(duì)的工作專(zhuān)注于構(gòu)建解析細(xì)胞調(diào)控圖譜,并探索其在早期發(fā)育、消化道腫瘤和免疫相關(guān)疾病上的應(yīng)用潛力。 科研成果更大的意義是走向轉(zhuǎn)化應(yīng)用,真正為生命科學(xué)行業(yè)以及應(yīng)用帶來(lái)變革。對(duì)于科研轉(zhuǎn)化落地,高歌也有自己的想法。 “從落地角度來(lái)看,我們希望可以找到更有意義和價(jià)值的應(yīng)用場(chǎng)景和方向。對(duì)于具體應(yīng)用方向,我們需要考慮自己能夠?yàn)樾袠I(yè)提供哪些具有長(zhǎng)期價(jià)值、長(zhǎng)期競(jìng)爭(zhēng)優(yōu)勢(shì)的科研成果。” 高歌說(shuō)。 雖然還沒(méi)有具體的規(guī)劃,但是該團(tuán)隊(duì)現(xiàn)階段也有了一些前期的考慮和計(jì)劃。高歌認(rèn)為,現(xiàn)階段多組學(xué)技術(shù)已經(jīng)應(yīng)用于精準(zhǔn)醫(yī)學(xué)研究,預(yù)計(jì)未來(lái) 5 年可能會(huì)進(jìn)一步應(yīng)用于精準(zhǔn)醫(yī)學(xué)臨床診斷與治療。
目前在產(chǎn)前診斷、靶向用****等領(lǐng)域廣泛應(yīng)用的遺傳篩查仍主要基于對(duì)疾病易感基因遺傳變異的檢測(cè),然而,不完全外顯 (reduced penetrance, 即基因型有缺陷的前提下沒(méi)有表型上的變化) 等情形會(huì)嚴(yán)重影響最終診斷的信度與效度。 高歌告訴生輝,現(xiàn)在實(shí)驗(yàn)室的一項(xiàng)工作就是降低遺傳疾病診斷的誤差,現(xiàn)已初步獲得了一些可以降低誤差的發(fā)現(xiàn)。 目前高歌團(tuán)隊(duì)仍將以基礎(chǔ)科研為主,不過(guò)他們正在探索場(chǎng)景落地的可能性。高歌繼續(xù)補(bǔ)充,“如果要找到具有長(zhǎng)期價(jià)值的方向,我覺(jué)得需要與高校的技術(shù)創(chuàng)新能力結(jié)合起來(lái)。從基礎(chǔ)到應(yīng)用的過(guò)程中,高校往往聚焦于 0-1 的階段,大型企業(yè)會(huì)專(zhuān)注于 100-10000,而我們希望能著眼于填補(bǔ) 1-100 之間的空白。”
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。