特征選擇策略：為檢測乳腺癌生物標志物尋找新出口

發(fā)布人：數(shù)據(jù)派THU 時間：2023-08-04 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

microRNA（小分子核糖核酸）是一類短小的單鏈非編碼 RNA 轉(zhuǎn)錄體。這些分子在多種惡性腫瘤中呈現(xiàn)失控性生長，因此近年來被諸多研究確定為確診癌癥的可靠的生物標志物 (biomarker)。在多種病理分析中，差異表達分析 (Differential Expression Analysis) 常被視為檢測關鍵生物標志物的有效方法，而來自意大利那不勒斯費德里科二世大學的研究人員，則提出基于機器學習的特征選擇 (Feature Selection) 策略能夠更為有效的檢測，并建議將其發(fā)現(xiàn)的 20 種 microRNA 作為乳腺癌診斷性生物標志物。

根據(jù)國家衛(wèi)健委發(fā)布的 2022 年版《乳腺癌治療指南》，乳腺癌是女性常見的惡性腫瘤之一，發(fā)病率高居女性惡性腫瘤之首。世界衛(wèi)生組織統(tǒng)計，2020 年，全球共有 230 萬女性被診斷為乳腺癌，隨著治療手段的不斷提高，早期乳腺癌五年生存率可達到 90% 甚至更高。因此，乳腺癌早期的準確診斷尤為重要。
microRNA 除了在生物方面具備諸多關鍵作用，其表達上的改變也與多種癌癥相關，因此可作為可靠的診斷性生物標志物（putative diagnostic biomarker）。來自意大利那不勒斯費德里科二世大學的研究人員基于機器學習，利用特征選擇策略，通過分析 3 種方法的穩(wěn)定性和分類性能，得到了一組乳腺癌特定診斷生物標志物，同時還發(fā)現(xiàn)了乳腺癌疾病發(fā)展和演變中的推定關鍵基因。
目前，這一研究成果發(fā)表在《第 18 屆生物信息學與生物統(tǒng)計學計算智能方法會議論文集（CIBB 2023)》上，標題為《Robust Feature Selection strategy detects a panel of microRNAs as putative diagnostic biomarkers in Breast Cancer》。
該研究成果已發(fā)表在 CIBB 2023 上
論文地址：https://www.researchgate.net/publication/372083934
實驗概述
在本研究中，科研人員發(fā)現(xiàn)借助 3 種特征選擇方法（增益率、隨機森林及支持向量機遞歸特征消除），可以更加高效地提取診斷分子組合，他們揭示了一個包含 20 個 microRNA 的組合 (panel)，其中 hsa-mir-337、hsa-mir-378c 以及 hsa-mir-483 在目前的乳腺癌診斷生物標志物中，暫未受到醫(yī)學界的廣泛關注。該方法能夠區(qū)分健康及腫瘤樣本，與常用的差異表達法相比，其分類性能更佳，更容易識別易被低估甚至忽略的特征。
圖 1: Pipeline 概述
Workflow 包含 4 個關鍵步驟：
(i) 在訓練 TCGA 子集上進行 Ensemble-FS 計算
(ii) 對 TCGA/GEO 數(shù)據(jù)集進行差異表達分析
(iii) 比較差異表達分析和特征選擇結(jié)果的分類性能，并評估特征選擇方法的穩(wěn)定性
(iv) 用計算機模擬驗證所選 signature 的前 20 種 microRNA，對樞紐基因靶點進行檢測。
實驗詳情
數(shù)據(jù)集
實驗數(shù)據(jù)來源包含兩個渠道：美國 GDC 官網(wǎng)的 TCGA-BRCA 項目以及 Gene Expression Omnibus (GEO) data repository (GSE97811)。
實驗團隊從 GDC TCGA-BRCA 項目中，合計收集了 1,881 個 microRNA-Seq 數(shù)據(jù)，并按照 8:2 的比例，分成了訓練集和測試集兩部分。這些數(shù)據(jù)與 300 個實體原發(fā)腫瘤樣本 (T) 以及 101 個正常相鄰腫瘤 (NAT) 樣本相關，都屬于導管及小葉乳腺組織。應用特征選擇法之前，這些數(shù)據(jù)都進行了方差穩(wěn)定歸一化處理 (variance stabilizing normalization)。
同時，科研人員從 GEO 數(shù)據(jù)庫 (GSE97811) 下載了一個包含 2,565 個 microRNA 的微陣列數(shù)據(jù)集 (microarray dataset)，作為本次實驗的驗證集。該數(shù)據(jù)集包括 16 個正常樣本及 45 個腫瘤樣本，然后進行數(shù)據(jù)插補 (data imputation)。
由于 GEO 數(shù)據(jù)（本實驗中的驗證集）涉及到的是成熟 microRNA 表達，TCGA 數(shù)據(jù)（本實驗中的訓練集和測試集）則包含早期形態(tài) (precursor form)，為了統(tǒng)一數(shù)據(jù)，科研人員在 GEO 數(shù)據(jù)樣本中只選擇了平均計數(shù)值高于其對立鏈 (opposite strand) 的可替代成熟 microRNA；同時, microRNA 的名稱也已經(jīng)轉(zhuǎn)換成了相應的早期形態(tài)名稱。
通過這一過程后，GEO 數(shù)據(jù)（驗證集）的維度減少至 1,361 個 microRNA，相應的 TCGA RNA-Seq 數(shù)據(jù)也被收集，共包括 20,404 種基因。
1. 特征選擇法及 Ensemble 程序應用
科研人員選擇了 3 種特征選擇方法與差異表達分析法進行比較，分別是 Gain Ratio（增益率）、Random Forest（隨機森林）和 SVM-RFE（支持向量機遞歸特征消除）。將 3 種方法應用于 microRNA-Seq 表達 TCGA 數(shù)據(jù)的 500 個子集上，以識別能區(qū)分正常樣本和腫瘤樣本的穩(wěn)健特征面板 (panel)。觀察到的結(jié)果中，按照 8:2 的比例劃分為訓練集和測試集，然后對數(shù)據(jù)通過重采樣 (resampling) 進行自助法 (bootstrapping) 處理，使其符合數(shù)據(jù)擾動集成程序 (Data Perturbation Ensemble procedure)。每次計算返回的 500 個按「importance score」降序排列的 microRNA 向量。
｜備注：importance score（重要性得分）表示用算法計算得出的每個 feature（特征）在分類中的影響。
importance score 越高，賦予 feature 的 rank 就越低。然后科研人員通過一個聚合程序，推導出每種特征選擇方法的共識簽名 (consensus signature)，最終每組 microRNA 保留得分前 200 名的 feature。
2.穩(wěn)定性測試
用 Kuncheva Index (KI) 和 Percentage of Overlapping Gene/Features (POG) 評估特征選擇方法的一致性，用 Stot 統(tǒng)計法（KI 的成對測量）確定所有方法之間的穩(wěn)定性。這些統(tǒng)計數(shù)據(jù)是在 signature 長度逐漸增加的過程中計算得出的，feature 數(shù)量從 2 開始到 200 結(jié)束，每次重新計算增加 2 個 unit。
Stot 統(tǒng)計法公式
3.差異表達分析和 DE-signature
對 TCGA 數(shù)據(jù)集（含 microRNA-Seq 及 RNA-Seq）進行差異表達分析，從原始計數(shù) (raw count) 開始，使用精確檢驗 (Exact Test)，然后保留 FDR <= 0.01 及 Log2FC 閾值為 |0.5| 的 DE feature。為了獲得 DE-microRNA 的 signature，將 Log2FC 值轉(zhuǎn)化為絕對值，并按照 abs (Log2FC)遞減的順序?qū)?microRNA（保留前 200 個 feature）進行排序。
GEO 驗證集借助 Limma 進行差異分析表達，該數(shù)據(jù)集獲取 DE-signature 的參數(shù)及程序與 TCGA 數(shù)據(jù)集一致。
4.分類性能分析
為了確定每個 signature 區(qū)分健康人及癌癥患者的能力，科研人員在測試子集 (TCGA) 和驗證集 (GEO) 上對 4 個 signature（包括特征選擇 panel 和差異表達 panel）都進行了預測性分析。
最后計算出精度平均值 (ACC)、K 統(tǒng)計量 (KK) 以及馬修斯相關系數(shù) (MCC) 在各個 fold 以及每個 signature 的多個長度上的平均值。
5.SVM-RFE microRNA-signature 靶點 (target) 檢測
為了識別 microRNA 潛在的基因靶點，科研人員進行了以下操作：
1. 將前 20 個 SVM-RFE microRNA 按照其在腫瘤樣本中的上調(diào) (up-regulated) 或下調(diào) (down-regulated) 進行分類。
2. 對 RNA-Seq 數(shù)據(jù)進行差異表達分析，檢測差異表達基因 (FDR <= 0.05)。
3. 應用斯皮爾曼相關性分析，對比 microRNA 表達與差異表達基因，只保留與 down-microRNA 負相關的 up-gene，以及 up-microRNA 負相關的 down-gene (rho <= -0.5)。
4. 收集所有經(jīng)過驗證的 microRNA 基因靶點 (gene targets)，且只保留那些也顯示出 DE-correlated 的。
6.網(wǎng)絡中心性及樞紐基因識別
選定失調(diào)基因的相關矩陣 (Spearman)，并用其構建一個圖結(jié)構基因網(wǎng)絡：保留 Kleinberg's hub 中心性得分 > 75，rho > 0.8 或 rho < -0.6 的樞紐基因。對樞紐基因進行基因富集分析 (ORA)，以便從 REACTOME 數(shù)據(jù)庫中探索最豐富的 pathway。FDR 調(diào)整后 pValue 值閾設定為 0.005。
實驗結(jié)果

實驗表明，應用 3 種特征選擇方法后，都返回了 500 個按 importance score 降序排列的 microRNA signature，匯總后得到 3 個共識 panel。值得注意的是，排名前 3 的 microRNA（hsa-mir-139、hsa-mir-96 及 hsa-mir-145）在所有 panel 中都出現(xiàn)了，顯示出這些分子在區(qū)分腫瘤樣本和健康樣本中的重要性。
｜結(jié)論 1：SVM-RFE 穩(wěn)定性最高
從 KI 和 POG 在共識 panel 上的計算來看，SVM-RFE 法最具穩(wěn)定性，signature 長度達到 20 個 feature 時最突出。同樣，Stot 指數(shù)的結(jié)果也顯示出 SVE-RFE 法具有最高穩(wěn)定性。
圖 2: 3 種特征選擇方法的穩(wěn)定性指數(shù)比較

藍色：Random Forest（隨機森林）粉色：Gain Ratio（增益率）黃色：SVM-RFE（支持向量機遞歸特征消除）
｜結(jié)論 2: SVM-RFE signature 在分類中的表現(xiàn)優(yōu)于差異表達 signature
所有單獨 panel 進行分類性能分析后，無論是測試集 (TCGA) 還是驗證集 (GEO)，都顯示出用 SVM-RFE 獲得的 signature 的預測能力最高。
圖 3: 前 20 個 microRNA 分類性能及維恩圖
A：條形圖顯示了在測試子集和外部驗證 GEO 數(shù)據(jù)集上計算的平均 statisticACC：精度KK：K 統(tǒng)計量MCC：馬修斯相關系數(shù)
綠色：DE（差異表達分析法，該實驗中的對照方法）粉色：GR（增益率）藍色：RF（隨機森林）橙色：RFE（SVM-RFE，支持向量機遞歸特征消除）
B：每個 signature 的前 20 個 microRNA 的維恩圖，其中標注了 SVM-RFE panel 前 20 中的一些有趣的 microRNA--hsa-mir-337、hsa-mir-378c 及 hsa-mir-483，這 3 個 micro-RNA 在 3 種特征選擇方法中都出現(xiàn)了，但目前關于乳腺癌的研究中尚未完全確定其作為診斷依據(jù)是否可靠。
｜結(jié)論 3: 網(wǎng)絡分析揭示了疾病演變中的潛在關鍵基因
實驗表明，CDC25、TPX2 及 KIF18B 在不同類型癌癥以及三陰性乳腺癌患者的干細胞中，都顯示高度表達，且 TGFBR2 的下調(diào)與癌癥進展相關。
microRNA：乳腺癌早篩的又一理想候選
傳統(tǒng)的乳腺癌篩查方法仍以 X 光成像及組織活檢為主，無法對完整的癌癥基因組建立更深入全面的理解。這種方法不光侵入性強、成本高，容易產(chǎn)生副作用，還常給出假陽性或假陰性結(jié)果，提高乳腺癌的早篩準確度及患者體驗，仍需開發(fā)新策略來應對乳腺癌負擔。
自 1993 年首次發(fā)現(xiàn)以來，micorRNA 不斷深化了人類對癌癥的理解，作為可靠的乳腺癌診斷生物標志物，它展現(xiàn)了巨大潛力。
microRNA 屬于長度約 19-25 nt 的小型非編碼 RNA，可以調(diào)控多種靶點基因 (target gene)，參與了多種生物學和病理學過程的調(diào)控，包括癌癥的形成和發(fā)展，有望彌補當下 X 光成像及組織活檢作為臨床上乳腺癌篩查主流診斷方法的局限性。
然而，目前尚未完全開發(fā)出 microRNA 的成熟臨床應用，對 microRNA 使用過程中的安全評估體系也還未建立，要想讓 microRNA 成為癌癥的主流診斷依據(jù)，恐怕仍需時日。
參考文章：[1]https://www.who.int/zh/news-room/fact-sheets/detail/breast-cancer[2]https://guide.medlive.cn/guideline/25596[3]https://www.abcam.cn/kits/micrornas-as-biomarkers-in-cancer-1[4]https://caivd-org.cn/webfile/file/20220508/20220508153691029102.pdf[5]https://www.sohu.com/a/318088245_100120288

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

特征選擇策略：為檢測乳腺癌生物標志物尋找新出口

相關推薦

技術專區(qū)