博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 獨(dú)家 | 處理非均衡數(shù)據(jù)的7種技術(shù)

獨(dú)家 | 處理非均衡數(shù)據(jù)的7種技術(shù)

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2022-12-23 來(lái)源:工程師 發(fā)布文章
簡(jiǎn)介


諸如****的欺詐檢測(cè)、營(yíng)銷(xiāo)的實(shí)時(shí)競(jìng)價(jià)或網(wǎng)絡(luò)的入侵檢測(cè)等領(lǐng)域的數(shù)據(jù)集都有哪些共同點(diǎn)?在這些領(lǐng)域的數(shù)據(jù)通常只占有總數(shù)據(jù)量不到1%,為罕見(jiàn)但“有趣的”事件(例如,騙子使用****、用戶(hù)點(diǎn)擊廣告或入侵服務(wù)器掃描其網(wǎng)絡(luò))。然而,絕大多數(shù)機(jī)器學(xué)習(xí)算法并不能很好地處理這些非均衡的數(shù)據(jù)集。利用以下七種技術(shù)可以通過(guò)訓(xùn)練一個(gè)分類(lèi)器來(lái)檢測(cè)出上述異常類(lèi)。

圖片


1. 使用正確的評(píng)估指標(biāo)對(duì)于那些使用非均衡數(shù)據(jù)的模型來(lái)說(shuō),應(yīng)用不恰當(dāng)?shù)脑u(píng)估度量指標(biāo)非常危險(xiǎn)。想象一下,假設(shè)訓(xùn)練數(shù)據(jù)如上圖所示,如果用準(zhǔn)確率來(lái)衡量一個(gè)模型的好壞,那么將所有測(cè)試樣本分類(lèi)為“0”的模型將具有極好的準(zhǔn)確率(99.8%),顯然,這個(gè)模型不會(huì)提供任何有價(jià)值的信息。

在這種情況下,可以采用其他評(píng)估指標(biāo),例如:


  • 精度/特異性:有多少選定實(shí)例是相關(guān)的。

  • 召回率/敏感度:選擇了多少個(gè)相關(guān)的實(shí)例。

  • F1評(píng)分:精度和查全率的調(diào)和平均值。

  • MCC:觀察到的和預(yù)測(cè)到的二元分類(lèi)之間的相關(guān)系數(shù)。

  • AUC:真陽(yáng)性率與假陽(yáng)性率之間的關(guān)系。


2. 重新采樣訓(xùn)練集除了使用不同的評(píng)估標(biāo)準(zhǔn)外,還可以采取一定的措施以獲取到其他不同的數(shù)據(jù)集,通常利用欠采樣和過(guò)采樣兩種方法從非均衡數(shù)據(jù)集中提取出均衡數(shù)據(jù)集。

 2.1 欠采樣

通過(guò)減少不同類(lèi)的大小來(lái)平衡數(shù)據(jù)集的過(guò)程稱(chēng)為欠采樣,當(dāng)數(shù)據(jù)量充足時(shí),使用該方法。通過(guò)將所有樣本保留到稀有類(lèi)中,并在不同類(lèi)中隨機(jī)選擇相同數(shù)量的樣本,在后續(xù)建模過(guò)程中便可以檢索到一個(gè)新的均衡數(shù)據(jù)集。

 2.2 過(guò)采樣

相反,當(dāng)數(shù)據(jù)量不足時(shí),則使用過(guò)采樣。過(guò)采樣通過(guò)增加稀有樣本的大小來(lái)平衡數(shù)據(jù)集。在不去除大量的樣本的情況下,通過(guò)使用重復(fù)、引導(dǎo)或SMOTE(合成少數(shù)過(guò)采樣技術(shù))[1]來(lái)生成新的稀有樣本。請(qǐng)注意,以上兩種重采樣方法并沒(méi)有各自絕對(duì)的優(yōu)勢(shì),這兩種方法的應(yīng)用取決于用例和數(shù)據(jù)集本身,過(guò)采樣和欠采樣兩種方法的組合往往也能成功。3. 正確使用k倍交叉驗(yàn)證值得注意的是,在使用過(guò)采樣的方法來(lái)解決非均衡數(shù)據(jù)問(wèn)題時(shí),可以適當(dāng)?shù)貞?yīng)用交叉驗(yàn)證。請(qǐng)記住,過(guò)采樣觀察到的是稀有樣本,并利用自舉法根據(jù)分布函數(shù)生成新的隨機(jī)數(shù)據(jù)。如果在過(guò)采樣后應(yīng)用交叉驗(yàn)證,便會(huì)將模型過(guò)擬合到一個(gè)特定的人工自舉結(jié)果中。這就是為什么應(yīng)該在過(guò)采樣數(shù)據(jù)之前進(jìn)行交叉驗(yàn)證,正如應(yīng)該在實(shí)現(xiàn)特征之前對(duì)特征做出選擇一樣,只有通過(guò)重復(fù)采樣數(shù)據(jù),方可在數(shù)據(jù)集中引入隨機(jī)性,確保不會(huì)出現(xiàn)過(guò)擬合問(wèn)題。4. 集成不同的重采樣數(shù)據(jù)集成功泛化模型的最簡(jiǎn)單方法是使用更多的數(shù)據(jù)。像邏輯回歸或隨機(jī)森林等開(kāi)箱即用的分類(lèi)器傾向于通過(guò)丟棄稀有類(lèi)來(lái)實(shí)現(xiàn)泛化。一個(gè)簡(jiǎn)單而有效的實(shí)踐是針對(duì)稀有類(lèi)的所有樣本和多數(shù)類(lèi)的n個(gè)不同樣本,建立n個(gè)模型。假設(shè)需要集成10個(gè)模型,保留例如1.000個(gè)稀有類(lèi)的案例,并隨機(jī)抽取10.000個(gè)多數(shù)類(lèi)的案例,然后把10.000個(gè)多數(shù)類(lèi)分成10塊,訓(xùn)練10個(gè)不同的模型。

圖片


如果存在大量的數(shù)據(jù),那么這種方法非常簡(jiǎn)單,并且完全可水平擴(kuò)展,可以在不同的集群節(jié)點(diǎn)上訓(xùn)練和運(yùn)行模型。集成模型也可更好地泛化,這種方法非常易于處理。5. 按照不同的比例重新采樣通過(guò)調(diào)整稀有類(lèi)和多數(shù)類(lèi)之間的比例,利用前文所述的幾種方法來(lái)進(jìn)行微調(diào)。兩種類(lèi)數(shù)目的最佳配比在很大程度上取決于數(shù)據(jù)本身和所使用的模型。與其以相同的比例訓(xùn)練所有的模型,還不如嘗試以不同比例集成數(shù)據(jù)。如果訓(xùn)練了10個(gè)模型,那么比例為1:1(稀有:多數(shù))和比例為1:3,甚至是2:1的模型均可能都是有意義的,類(lèi)的權(quán)重取決于所使用的模型。

圖片


6. 聚類(lèi)多數(shù)類(lèi)Quora [2]的Sergey提出了一種更加優(yōu)雅的方法,他建議將多數(shù)類(lèi)聚類(lèi)到r組中,r即r組中的案例數(shù), 取代隨機(jī)樣本來(lái)覆蓋訓(xùn)練樣本的多樣性。對(duì)于每一組,只保留medoid(聚類(lèi)的中值),然后用稀有類(lèi)和medoids對(duì)模型進(jìn)行訓(xùn)練。7. 設(shè)計(jì)自定義模型前文所述的方法關(guān)注的是數(shù)據(jù),將模型視為一個(gè)固定的組件。但事實(shí)上,如果模型本身適用于非均衡的數(shù)據(jù),就無(wú)需對(duì)數(shù)據(jù)進(jìn)行重新采樣。如果類(lèi)沒(méi)有太多的傾斜, XGBoost便很好用了,因?yàn)槠鋬?nèi)部已經(jīng)關(guān)注了袋子里的不均衡數(shù)據(jù)。但話(huà)說(shuō)回來(lái),這也只是在秘密的情況之下,對(duì)數(shù)據(jù)重新采樣。通過(guò)設(shè)計(jì)一個(gè)成本函數(shù),對(duì)稀有類(lèi)的錯(cuò)誤分類(lèi)進(jìn)行懲罰,而不是對(duì)多數(shù)類(lèi)的錯(cuò)誤分類(lèi)進(jìn)行懲罰,有可能設(shè)計(jì)出許多有利于稀有類(lèi)泛化的模型。例如,配置一個(gè)SVM,以懲罰稀有類(lèi)的錯(cuò)誤分類(lèi)。圖片

小結(jié)本文的內(nèi)容并非唯一的技術(shù)列表,只是處理非均衡數(shù)據(jù)的一個(gè)起點(diǎn)。也不存在能解決所有問(wèn)題的最佳方法或模型,強(qiáng)烈建議嘗試不同的技術(shù)和模型來(lái)評(píng)估哪種方法最為有效,可以嘗試有創(chuàng)意地將多種方法結(jié)合起來(lái)使用。同樣需要注意的是,在欺詐檢測(cè)、實(shí)時(shí)競(jìng)價(jià)等諸多領(lǐng)域,當(dāng)非均衡類(lèi)別發(fā)生的同時(shí),“市場(chǎng)規(guī)則”也在不斷變化。因此,需要檢查過(guò)往的數(shù)據(jù)是否已經(jīng)過(guò)時(shí)了。參考文獻(xiàn)

[1] arxiv.org/pdf/1106.1813.pdf

[2] www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set/answers/1144228?srid=h3G6o
作者簡(jiǎn)介Ye Wu :FARFETCH高級(jí)數(shù)據(jù)分析師,她有會(huì)計(jì)背景、市場(chǎng)營(yíng)銷(xiāo)和銷(xiāo)售預(yù)測(cè)方面的實(shí)踐經(jīng)驗(yàn)。Rick Radewagen :Sled的聯(lián)合創(chuàng)始人,有計(jì)算機(jī)科學(xué)背景的、有抱負(fù)的數(shù)據(jù)科學(xué)家。原文標(biāo)題:7 Techniques to Handle Imbalanced Data原文鏈接:https://www.kdnuggets.com/2017/06/7-techniques-handle-imbalanced-data.html


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉