特征選擇策略:為檢測乳腺癌生物標志物尋找新出口
根據(jù)國家衛(wèi)健委發(fā)布的 2022 年版《乳腺癌治療指南》,乳腺癌是女性常見的惡性腫瘤之一,發(fā)病率高居女性惡性腫瘤之首。世界衛(wèi)生組織統(tǒng)計,2020 年,全球共有 230 萬女性被診斷為乳腺癌,隨著治療手段的不斷提高,早期乳腺癌五年生存率可達到 90% 甚至更高。因此,乳腺癌早期的準確診斷尤為重要。
microRNA 除了在生物方面具備諸多關鍵作用,其表達上的改變也與多種癌癥相關,因此可作為可靠的診斷性生物標志物(putative diagnostic biomarker)。來自意大利那不勒斯費德里科二世大學的研究人員基于機器學習,利用特征選擇策略,通過分析 3 種方法的穩(wěn)定性和分類性能,得到了一組乳腺癌特定診斷生物標志物,同時還發(fā)現(xiàn)了乳腺癌疾病發(fā)展和演變中的推定關鍵基因。
目前,這一研究成果發(fā)表在《第 18 屆生物信息學與生物統(tǒng)計學計算智能方法會議論文集(CIBB 2023)》上,標題為《Robust Feature Selection strategy detects a panel of microRNAs as putative diagnostic biomarkers in Breast Cancer》。該研究成果已發(fā)表在 CIBB 2023 上
論文地址:https://www.researchgate.net/publication/372083934
實驗概述
在本研究中,科研人員發(fā)現(xiàn)借助 3 種特征選擇方法(增益率、隨機森林及支持向量機遞歸特征消除),可以更加高效地提取診斷分子組合,他們揭示了一個包含 20 個 microRNA 的組合 (panel),其中 hsa-mir-337、hsa-mir-378c 以及 hsa-mir-483 在目前的乳腺癌診斷生物標志物中,暫未受到醫(yī)學界的廣泛關注。該方法能夠區(qū)分健康及腫瘤樣本,與常用的差異表達法相比,其分類性能更佳,更容易識別易被低估甚至忽略的特征。圖 1: Pipeline 概述
Workflow 包含 4 個關鍵步驟:
(i) 在訓練 TCGA 子集上進行 Ensemble-FS 計算
(ii) 對 TCGA/GEO 數(shù)據(jù)集進行差異表達分析
(iii) 比較差異表達分析和特征選擇結(jié)果的分類性能,并評估特征選擇方法的穩(wěn)定性
(iv) 用計算機模擬驗證所選 signature 的前 20 種 microRNA,對樞紐基因靶點進行檢測。
實驗詳情
數(shù)據(jù)集
實驗數(shù)據(jù)來源包含兩個渠道:美國 GDC 官網(wǎng)的 TCGA-BRCA 項目以及 Gene Expression Omnibus (GEO) data repository (GSE97811)。
實驗團隊從 GDC TCGA-BRCA 項目中,合計收集了 1,881 個 microRNA-Seq 數(shù)據(jù),并按照 8:2 的比例,分成了訓練集和測試集兩部分。這些數(shù)據(jù)與 300 個實體原發(fā)腫瘤樣本 (T) 以及 101 個正常相鄰腫瘤 (NAT) 樣本相關,都屬于導管及小葉乳腺組織。應用特征選擇法之前,這些數(shù)據(jù)都進行了方差穩(wěn)定歸一化處理 (variance stabilizing normalization)。
同時,科研人員從 GEO 數(shù)據(jù)庫 (GSE97811) 下載了一個包含 2,565 個 microRNA 的微陣列數(shù)據(jù)集 (microarray dataset),作為本次實驗的驗證集。該數(shù)據(jù)集包括 16 個正常樣本及 45 個腫瘤樣本,然后進行數(shù)據(jù)插補 (data imputation)。
由于 GEO 數(shù)據(jù)(本實驗中的驗證集)涉及到的是成熟 microRNA 表達,TCGA 數(shù)據(jù)(本實驗中的訓練集和測試集)則包含早期形態(tài) (precursor form),為了統(tǒng)一數(shù)據(jù),科研人員在 GEO 數(shù)據(jù)樣本中只選擇了平均計數(shù)值高于其對立鏈 (opposite strand) 的可替代成熟 microRNA;同時, microRNA 的名稱也已經(jīng)轉(zhuǎn)換成了相應的早期形態(tài)名稱。
通過這一過程后,GEO 數(shù)據(jù)(驗證集)的維度減少至 1,361 個 microRNA,相應的 TCGA RNA-Seq 數(shù)據(jù)也被收集,共包括 20,404 種基因。
1. 特征選擇法及 Ensemble 程序應用
科研人員選擇了 3 種特征選擇方法與差異表達分析法進行比較,分別是 Gain Ratio(增益率)、Random Forest(隨機森林)和 SVM-RFE(支持向量機遞歸特征消除)。將 3 種方法應用于 microRNA-Seq 表達 TCGA 數(shù)據(jù)的 500 個子集上,以識別能區(qū)分正常樣本和腫瘤樣本的穩(wěn)健特征面板 (panel)。觀察到的結(jié)果中,按照 8:2 的比例劃分為訓練集和測試集,然后對數(shù)據(jù)通過重采樣 (resampling) 進行自助法 (bootstrapping) 處理,使其符合數(shù)據(jù)擾動集成程序 (Data Perturbation Ensemble procedure)。每次計算返回的 500 個按「importance score」降序排列的 microRNA 向量。
|備注:importance score(重要性得分)表示用算法計算得出的每個 feature(特征)在分類中的影響。
importance score 越高,賦予 feature 的 rank 就越低。然后科研人員通過一個聚合程序,推導出每種特征選擇方法的共識簽名 (consensus signature),最終每組 microRNA 保留得分前 200 名的 feature。
2.穩(wěn)定性測試
用 Kuncheva Index (KI) 和 Percentage of Overlapping Gene/Features (POG) 評估特征選擇方法的一致性,用 Stot 統(tǒng)計法(KI 的成對測量)確定所有方法之間的穩(wěn)定性。這些統(tǒng)計數(shù)據(jù)是在 signature 長度逐漸增加的過程中計算得出的,feature 數(shù)量從 2 開始到 200 結(jié)束,每次重新計算增加 2 個 unit。Stot 統(tǒng)計法公式
3.差異表達分析和 DE-signature
對 TCGA 數(shù)據(jù)集(含 microRNA-Seq 及 RNA-Seq)進行差異表達分析,從原始計數(shù) (raw count) 開始,使用精確檢驗 (Exact Test),然后保留 FDR <= 0.01 及 Log2FC 閾值為 |0.5| 的 DE feature。為了獲得 DE-microRNA 的 signature,將 Log2FC 值轉(zhuǎn)化為絕對值,并按照 abs (Log2FC)遞減的順序?qū)?microRNA(保留前 200 個 feature)進行排序。
GEO 驗證集借助 Limma 進行差異分析表達,該數(shù)據(jù)集獲取 DE-signature 的參數(shù)及程序與 TCGA 數(shù)據(jù)集一致。
4.分類性能分析
為了確定每個 signature 區(qū)分健康人及癌癥患者的能力,科研人員在測試子集 (TCGA) 和驗證集 (GEO) 上對 4 個 signature(包括特征選擇 panel 和差異表達 panel)都進行了預測性分析。
最后計算出精度平均值 (ACC)、K 統(tǒng)計量 (KK) 以及馬修斯相關系數(shù) (MCC) 在各個 fold 以及每個 signature 的多個長度上的平均值。
5.SVM-RFE microRNA-signature 靶點 (target) 檢測
為了識別 microRNA 潛在的基因靶點,科研人員進行了以下操作:
1. 將前 20 個 SVM-RFE microRNA 按照其在腫瘤樣本中的上調(diào) (up-regulated) 或下調(diào) (down-regulated) 進行分類。
2. 對 RNA-Seq 數(shù)據(jù)進行差異表達分析,檢測差異表達基因 (FDR <= 0.05)。
3. 應用斯皮爾曼相關性分析,對比 microRNA 表達與差異表達基因,只保留與 down-microRNA 負相關的 up-gene,以及 up-microRNA 負相關的 down-gene (rho <= -0.5)。
4. 收集所有經(jīng)過驗證的 microRNA 基因靶點 (gene targets),且只保留那些也顯示出 DE-correlated 的。
6.網(wǎng)絡中心性及樞紐基因識別
選定失調(diào)基因的相關矩陣 (Spearman),并用其構建一個圖結(jié)構基因網(wǎng)絡:保留 Kleinberg's hub 中心性得分 > 75,rho > 0.8 或 rho < -0.6 的樞紐基因。對樞紐基因進行基因富集分析 (ORA),以便從 REACTOME 數(shù)據(jù)庫中探索最豐富的 pathway。FDR 調(diào)整后 pValue 值閾設定為 0.005。
實驗結(jié)果
實驗表明,應用 3 種特征選擇方法后,都返回了 500 個按 importance score 降序排列的 microRNA signature,匯總后得到 3 個共識 panel。值得注意的是,排名前 3 的 microRNA(hsa-mir-139、hsa-mir-96 及 hsa-mir-145)在所有 panel 中都出現(xiàn)了,顯示出這些分子在區(qū)分腫瘤樣本和健康樣本中的重要性。
|結(jié)論 1:SVM-RFE 穩(wěn)定性最高
從 KI 和 POG 在共識 panel 上的計算來看,SVM-RFE 法最具穩(wěn)定性,signature 長度達到 20 個 feature 時最突出。同樣,Stot 指數(shù)的結(jié)果也顯示出 SVE-RFE 法具有最高穩(wěn)定性。圖 2: 3 種特征選擇方法的穩(wěn)定性指數(shù)比較
藍色:Random Forest(隨機森林)粉色:Gain Ratio(增益率)黃色:SVM-RFE(支持向量機遞歸特征消除)
|結(jié)論 2: SVM-RFE signature 在分類中的表現(xiàn)優(yōu)于差異表達 signature
所有單獨 panel 進行分類性能分析后,無論是測試集 (TCGA) 還是驗證集 (GEO),都顯示出用 SVM-RFE 獲得的 signature 的預測能力最高。圖 3: 前 20 個 microRNA 分類性能及維恩圖
A:條形圖顯示了在測試子集和外部驗證 GEO 數(shù)據(jù)集上計算的平均 statisticACC:精度KK:K 統(tǒng)計量MCC:馬修斯相關系數(shù)
綠色:DE(差異表達分析法,該實驗中的對照方法)粉色:GR(增益率)藍色:RF(隨機森林)橙色:RFE(SVM-RFE,支持向量機遞歸特征消除)
B:每個 signature 的前 20 個 microRNA 的維恩圖,其中標注了 SVM-RFE panel 前 20 中的一些有趣的 microRNA--hsa-mir-337、hsa-mir-378c 及 hsa-mir-483,這 3 個 micro-RNA 在 3 種特征選擇方法中都出現(xiàn)了,但目前關于乳腺癌的研究中尚未完全確定其作為診斷依據(jù)是否可靠。
|結(jié)論 3: 網(wǎng)絡分析揭示了疾病演變中的潛在關鍵基因
實驗表明,CDC25、TPX2 及 KIF18B 在不同類型癌癥以及三陰性乳腺癌患者的干細胞中,都顯示高度表達,且 TGFBR2 的下調(diào)與癌癥進展相關。
microRNA:乳腺癌早篩的又一理想候選
傳統(tǒng)的乳腺癌篩查方法仍以 X 光成像及組織活檢為主,無法對完整的癌癥基因組建立更深入全面的理解。這種方法不光侵入性強、成本高,容易產(chǎn)生副作用,還常給出假陽性或假陰性結(jié)果,提高乳腺癌的早篩準確度及患者體驗,仍需開發(fā)新策略來應對乳腺癌負擔。
自 1993 年首次發(fā)現(xiàn)以來,micorRNA 不斷深化了人類對癌癥的理解,作為可靠的乳腺癌診斷生物標志物,它展現(xiàn)了巨大潛力。
microRNA 屬于長度約 19-25 nt 的小型非編碼 RNA,可以調(diào)控多種靶點基因 (target gene),參與了多種生物學和病理學過程的調(diào)控,包括癌癥的形成和發(fā)展,有望彌補當下 X 光成像及組織活檢作為臨床上乳腺癌篩查主流診斷方法的局限性。
然而,目前尚未完全開發(fā)出 microRNA 的成熟臨床應用,對 microRNA 使用過程中的安全評估體系也還未建立,要想讓 microRNA 成為癌癥的主流診斷依據(jù),恐怕仍需時日。
參考文章:[1]https://www.who.int/zh/news-room/fact-sheets/detail/breast-cancer[2]https://guide.medlive.cn/guideline/25596[3]https://www.abcam.cn/kits/micrornas-as-biomarkers-in-cancer-1[4]https://caivd-org.cn/webfile/file/20220508/20220508153691029102.pdf[5]https://www.sohu.com/a/318088245_100120288
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。