特征選擇策略:為檢測(cè)乳腺癌生物標(biāo)志物尋找新出口
根據(jù)國(guó)家衛(wèi)健委發(fā)布的 2022 年版《乳腺癌治療指南》,乳腺癌是女性常見的惡性腫瘤之一,發(fā)病率高居女性惡性腫瘤之首。世界衛(wèi)生組織統(tǒng)計(jì),2020 年,全球共有 230 萬(wàn)女性被診斷為乳腺癌,隨著治療手段的不斷提高,早期乳腺癌五年生存率可達(dá)到 90% 甚至更高。因此,乳腺癌早期的準(zhǔn)確診斷尤為重要。
microRNA 除了在生物方面具備諸多關(guān)鍵作用,其表達(dá)上的改變也與多種癌癥相關(guān),因此可作為可靠的診斷性生物標(biāo)志物(putative diagnostic biomarker)。來(lái)自意大利那不勒斯費(fèi)德里科二世大學(xué)的研究人員基于機(jī)器學(xué)習(xí),利用特征選擇策略,通過(guò)分析 3 種方法的穩(wěn)定性和分類性能,得到了一組乳腺癌特定診斷生物標(biāo)志物,同時(shí)還發(fā)現(xiàn)了乳腺癌疾病發(fā)展和演變中的推定關(guān)鍵基因。
目前,這一研究成果發(fā)表在《第 18 屆生物信息學(xué)與生物統(tǒng)計(jì)學(xué)計(jì)算智能方法會(huì)議論文集(CIBB 2023)》上,標(biāo)題為《Robust Feature Selection strategy detects a panel of microRNAs as putative diagnostic biomarkers in Breast Cancer》。
該研究成果已發(fā)表在 CIBB 2023 上
論文地址:https://www.researchgate.net/publication/372083934
實(shí)驗(yàn)概述
在本研究中,科研人員發(fā)現(xiàn)借助 3 種特征選擇方法(增益率、隨機(jī)森林及支持向量機(jī)遞歸特征消除),可以更加高效地提取診斷分子組合,他們揭示了一個(gè)包含 20 個(gè) microRNA 的組合 (panel),其中 hsa-mir-337、hsa-mir-378c 以及 hsa-mir-483 在目前的乳腺癌診斷生物標(biāo)志物中,暫未受到醫(yī)學(xué)界的廣泛關(guān)注。該方法能夠區(qū)分健康及腫瘤樣本,與常用的差異表達(dá)法相比,其分類性能更佳,更容易識(shí)別易被低估甚至忽略的特征。
圖 1: Pipeline 概述
Workflow 包含 4 個(gè)關(guān)鍵步驟:
(i) 在訓(xùn)練 TCGA 子集上進(jìn)行 Ensemble-FS 計(jì)算
(ii) 對(duì) TCGA/GEO 數(shù)據(jù)集進(jìn)行差異表達(dá)分析
(iii) 比較差異表達(dá)分析和特征選擇結(jié)果的分類性能,并評(píng)估特征選擇方法的穩(wěn)定性
(iv) 用計(jì)算機(jī)模擬驗(yàn)證所選 signature 的前 20 種 microRNA,對(duì)樞紐基因靶點(diǎn)進(jìn)行檢測(cè)。
實(shí)驗(yàn)詳情
數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)來(lái)源包含兩個(gè)渠道:美國(guó) GDC 官網(wǎng)的 TCGA-BRCA 項(xiàng)目以及 Gene Expression Omnibus (GEO) data repository (GSE97811)。
實(shí)驗(yàn)團(tuán)隊(duì)從 GDC TCGA-BRCA 項(xiàng)目中,合計(jì)收集了 1,881 個(gè) microRNA-Seq 數(shù)據(jù),并按照 8:2 的比例,分成了訓(xùn)練集和測(cè)試集兩部分。這些數(shù)據(jù)與 300 個(gè)實(shí)體原發(fā)腫瘤樣本 (T) 以及 101 個(gè)正常相鄰腫瘤 (NAT) 樣本相關(guān),都屬于導(dǎo)管及小葉乳腺組織。應(yīng)用特征選擇法之前,這些數(shù)據(jù)都進(jìn)行了方差穩(wěn)定歸一化處理 (variance stabilizing normalization)。
同時(shí),科研人員從 GEO 數(shù)據(jù)庫(kù) (GSE97811) 下載了一個(gè)包含 2,565 個(gè) microRNA 的微陣列數(shù)據(jù)集 (microarray dataset),作為本次實(shí)驗(yàn)的驗(yàn)證集。該數(shù)據(jù)集包括 16 個(gè)正常樣本及 45 個(gè)腫瘤樣本,然后進(jìn)行數(shù)據(jù)插補(bǔ) (data imputation)。
由于 GEO 數(shù)據(jù)(本實(shí)驗(yàn)中的驗(yàn)證集)涉及到的是成熟 microRNA 表達(dá),TCGA 數(shù)據(jù)(本實(shí)驗(yàn)中的訓(xùn)練集和測(cè)試集)則包含早期形態(tài) (precursor form),為了統(tǒng)一數(shù)據(jù),科研人員在 GEO 數(shù)據(jù)樣本中只選擇了平均計(jì)數(shù)值高于其對(duì)立鏈 (opposite strand) 的可替代成熟 microRNA;同時(shí), microRNA 的名稱也已經(jīng)轉(zhuǎn)換成了相應(yīng)的早期形態(tài)名稱。
通過(guò)這一過(guò)程后,GEO 數(shù)據(jù)(驗(yàn)證集)的維度減少至 1,361 個(gè) microRNA,相應(yīng)的 TCGA RNA-Seq 數(shù)據(jù)也被收集,共包括 20,404 種基因。
1. 特征選擇法及 Ensemble 程序應(yīng)用
科研人員選擇了 3 種特征選擇方法與差異表達(dá)分析法進(jìn)行比較,分別是 Gain Ratio(增益率)、Random Forest(隨機(jī)森林)和 SVM-RFE(支持向量機(jī)遞歸特征消除)。將 3 種方法應(yīng)用于 microRNA-Seq 表達(dá) TCGA 數(shù)據(jù)的 500 個(gè)子集上,以識(shí)別能區(qū)分正常樣本和腫瘤樣本的穩(wěn)健特征面板 (panel)。觀察到的結(jié)果中,按照 8:2 的比例劃分為訓(xùn)練集和測(cè)試集,然后對(duì)數(shù)據(jù)通過(guò)重采樣 (resampling) 進(jìn)行自助法 (bootstrapping) 處理,使其符合數(shù)據(jù)擾動(dòng)集成程序 (Data Perturbation Ensemble procedure)。每次計(jì)算返回的 500 個(gè)按「importance score」降序排列的 microRNA 向量。
|備注:importance score(重要性得分)表示用算法計(jì)算得出的每個(gè) feature(特征)在分類中的影響。
importance score 越高,賦予 feature 的 rank 就越低。然后科研人員通過(guò)一個(gè)聚合程序,推導(dǎo)出每種特征選擇方法的共識(shí)簽名 (consensus signature),最終每組 microRNA 保留得分前 200 名的 feature。
2.穩(wěn)定性測(cè)試
用 Kuncheva Index (KI) 和 Percentage of Overlapping Gene/Features (POG) 評(píng)估特征選擇方法的一致性,用 Stot 統(tǒng)計(jì)法(KI 的成對(duì)測(cè)量)確定所有方法之間的穩(wěn)定性。這些統(tǒng)計(jì)數(shù)據(jù)是在 signature 長(zhǎng)度逐漸增加的過(guò)程中計(jì)算得出的,feature 數(shù)量從 2 開始到 200 結(jié)束,每次重新計(jì)算增加 2 個(gè) unit。
Stot 統(tǒng)計(jì)法公式
3.差異表達(dá)分析和 DE-signature
對(duì) TCGA 數(shù)據(jù)集(含 microRNA-Seq 及 RNA-Seq)進(jìn)行差異表達(dá)分析,從原始計(jì)數(shù) (raw count) 開始,使用精確檢驗(yàn) (Exact Test),然后保留 FDR <= 0.01 及 Log2FC 閾值為 |0.5| 的 DE feature。為了獲得 DE-microRNA 的 signature,將 Log2FC 值轉(zhuǎn)化為絕對(duì)值,并按照 abs (Log2FC)遞減的順序?qū)?microRNA(保留前 200 個(gè) feature)進(jìn)行排序。
GEO 驗(yàn)證集借助 Limma 進(jìn)行差異分析表達(dá),該數(shù)據(jù)集獲取 DE-signature 的參數(shù)及程序與 TCGA 數(shù)據(jù)集一致。
4.分類性能分析
為了確定每個(gè) signature 區(qū)分健康人及癌癥患者的能力,科研人員在測(cè)試子集 (TCGA) 和驗(yàn)證集 (GEO) 上對(duì) 4 個(gè) signature(包括特征選擇 panel 和差異表達(dá) panel)都進(jìn)行了預(yù)測(cè)性分析。
最后計(jì)算出精度平均值 (ACC)、K 統(tǒng)計(jì)量 (KK) 以及馬修斯相關(guān)系數(shù) (MCC) 在各個(gè) fold 以及每個(gè) signature 的多個(gè)長(zhǎng)度上的平均值。
5.SVM-RFE microRNA-signature 靶點(diǎn) (target) 檢測(cè)
為了識(shí)別 microRNA 潛在的基因靶點(diǎn),科研人員進(jìn)行了以下操作:
1. 將前 20 個(gè) SVM-RFE microRNA 按照其在腫瘤樣本中的上調(diào) (up-regulated) 或下調(diào) (down-regulated) 進(jìn)行分類。
2. 對(duì) RNA-Seq 數(shù)據(jù)進(jìn)行差異表達(dá)分析,檢測(cè)差異表達(dá)基因 (FDR <= 0.05)。
3. 應(yīng)用斯皮爾曼相關(guān)性分析,對(duì)比 microRNA 表達(dá)與差異表達(dá)基因,只保留與 down-microRNA 負(fù)相關(guān)的 up-gene,以及 up-microRNA 負(fù)相關(guān)的 down-gene (rho <= -0.5)。
4. 收集所有經(jīng)過(guò)驗(yàn)證的 microRNA 基因靶點(diǎn) (gene targets),且只保留那些也顯示出 DE-correlated 的。
6.網(wǎng)絡(luò)中心性及樞紐基因識(shí)別
選定失調(diào)基因的相關(guān)矩陣 (Spearman),并用其構(gòu)建一個(gè)圖結(jié)構(gòu)基因網(wǎng)絡(luò):保留 Kleinberg's hub 中心性得分 > 75,rho > 0.8 或 rho < -0.6 的樞紐基因。對(duì)樞紐基因進(jìn)行基因富集分析 (ORA),以便從 REACTOME 數(shù)據(jù)庫(kù)中探索最豐富的 pathway。FDR 調(diào)整后 pValue 值閾設(shè)定為 0.005。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)表明,應(yīng)用 3 種特征選擇方法后,都返回了 500 個(gè)按 importance score 降序排列的 microRNA signature,匯總后得到 3 個(gè)共識(shí) panel。值得注意的是,排名前 3 的 microRNA(hsa-mir-139、hsa-mir-96 及 hsa-mir-145)在所有 panel 中都出現(xiàn)了,顯示出這些分子在區(qū)分腫瘤樣本和健康樣本中的重要性。
|結(jié)論 1:SVM-RFE 穩(wěn)定性最高
從 KI 和 POG 在共識(shí) panel 上的計(jì)算來(lái)看,SVM-RFE 法最具穩(wěn)定性,signature 長(zhǎng)度達(dá)到 20 個(gè) feature 時(shí)最突出。同樣,Stot 指數(shù)的結(jié)果也顯示出 SVE-RFE 法具有最高穩(wěn)定性。
圖 2: 3 種特征選擇方法的穩(wěn)定性指數(shù)比較
藍(lán)色:Random Forest(隨機(jī)森林)粉色:Gain Ratio(增益率)黃色:SVM-RFE(支持向量機(jī)遞歸特征消除)
|結(jié)論 2: SVM-RFE signature 在分類中的表現(xiàn)優(yōu)于差異表達(dá) signature
所有單獨(dú) panel 進(jìn)行分類性能分析后,無(wú)論是測(cè)試集 (TCGA) 還是驗(yàn)證集 (GEO),都顯示出用 SVM-RFE 獲得的 signature 的預(yù)測(cè)能力最高。
圖 3: 前 20 個(gè) microRNA 分類性能及維恩圖
A:條形圖顯示了在測(cè)試子集和外部驗(yàn)證 GEO 數(shù)據(jù)集上計(jì)算的平均 statisticACC:精度KK:K 統(tǒng)計(jì)量MCC:馬修斯相關(guān)系數(shù)
綠色:DE(差異表達(dá)分析法,該實(shí)驗(yàn)中的對(duì)照方法)粉色:GR(增益率)藍(lán)色:RF(隨機(jī)森林)橙色:RFE(SVM-RFE,支持向量機(jī)遞歸特征消除)
B:每個(gè) signature 的前 20 個(gè) microRNA 的維恩圖,其中標(biāo)注了 SVM-RFE panel 前 20 中的一些有趣的 microRNA--hsa-mir-337、hsa-mir-378c 及 hsa-mir-483,這 3 個(gè) micro-RNA 在 3 種特征選擇方法中都出現(xiàn)了,但目前關(guān)于乳腺癌的研究中尚未完全確定其作為診斷依據(jù)是否可靠。
|結(jié)論 3: 網(wǎng)絡(luò)分析揭示了疾病演變中的潛在關(guān)鍵基因
實(shí)驗(yàn)表明,CDC25、TPX2 及 KIF18B 在不同類型癌癥以及三陰性乳腺癌患者的干細(xì)胞中,都顯示高度表達(dá),且 TGFBR2 的下調(diào)與癌癥進(jìn)展相關(guān)。
microRNA:乳腺癌早篩的又一理想候選
傳統(tǒng)的乳腺癌篩查方法仍以 X 光成像及組織活檢為主,無(wú)法對(duì)完整的癌癥基因組建立更深入全面的理解。這種方法不光侵入性強(qiáng)、成本高,容易產(chǎn)生副作用,還常給出假陽(yáng)性或假陰性結(jié)果,提高乳腺癌的早篩準(zhǔn)確度及患者體驗(yàn),仍需開發(fā)新策略來(lái)應(yīng)對(duì)乳腺癌負(fù)擔(dān)。
自 1993 年首次發(fā)現(xiàn)以來(lái),micorRNA 不斷深化了人類對(duì)癌癥的理解,作為可靠的乳腺癌診斷生物標(biāo)志物,它展現(xiàn)了巨大潛力。
microRNA 屬于長(zhǎng)度約 19-25 nt 的小型非編碼 RNA,可以調(diào)控多種靶點(diǎn)基因 (target gene),參與了多種生物學(xué)和病理學(xué)過(guò)程的調(diào)控,包括癌癥的形成和發(fā)展,有望彌補(bǔ)當(dāng)下 X 光成像及組織活檢作為臨床上乳腺癌篩查主流診斷方法的局限性。
然而,目前尚未完全開發(fā)出 microRNA 的成熟臨床應(yīng)用,對(duì) microRNA 使用過(guò)程中的安全評(píng)估體系也還未建立,要想讓 microRNA 成為癌癥的主流診斷依據(jù),恐怕仍需時(shí)日。
參考文章:[1]https://www.who.int/zh/news-room/fact-sheets/detail/breast-cancer[2]https://guide.medlive.cn/guideline/25596[3]https://www.abcam.cn/kits/micrornas-as-biomarkers-in-cancer-1[4]https://caivd-org.cn/webfile/file/20220508/20220508153691029102.pdf[5]https://www.sohu.com/a/318088245_100120288
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。