基于特征選擇改進(jìn)LR-Bagging算法的電力欠費風(fēng)險居民客戶預(yù)測

作者：吳漾朱州時間：2017-03-29 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：本文從電力欠費風(fēng)險預(yù)測的角度出發(fā)，提出了一種基于特征選擇改進(jìn)的LR-Bagging(即以邏輯回歸為基分類器的Bagging集成學(xué)習(xí))算法，其精髓在于每一個訓(xùn)練的LR基分類器的記錄和字段均通過隨機(jī)抽樣得到。且算法的終止迭代準(zhǔn)則由AUC統(tǒng)計量的變化率決定。該改進(jìn)算法充分考慮了LR的強(qiáng)泛化能力、Bagging的高精確度，以及特征選擇帶來的LR基分類器的多樣性、弱化的多重共線性與“過擬合”度，效果優(yōu)于單一LR模型。且最終的實驗表明，該改進(jìn)算法得到的電力欠費居民客戶風(fēng)險預(yù)測模型的準(zhǔn)確性與有效性得到提升。

作者吳漾朱州貴州電網(wǎng)有限責(zé)任公司信息中心(貴州貴陽 550003)

本文引用地址：http://www.butianyuan.cn/article/201703/345948.htm

　　吳漾(1984-)，男，碩士，工程師，研究方向：電網(wǎng)信息化數(shù)據(jù)管理與數(shù)據(jù)分析管理;朱州，男，高級工程師，博士，研究方向：電網(wǎng)信息化建設(shè)與數(shù)據(jù)分析管理。

摘要：本文從電力欠費風(fēng)險預(yù)測的角度出發(fā)，提出了一種基于特征選擇改進(jìn)的LR-Bagging(即以邏輯回歸為基分類器的Bagging集成學(xué)習(xí))算法，其精髓在于每一個訓(xùn)練的LR基分類器的記錄和字段均通過隨機(jī)抽樣得到。且算法的終止迭代準(zhǔn)則由AUC統(tǒng)計量的變化率決定。該改進(jìn)算法充分考慮了LR的強(qiáng)泛化能力、Bagging的高精確度，以及特征選擇帶來的LR基分類器的多樣性、弱化的多重共線性與“過擬合”度，效果優(yōu)于單一LR模型。且最終的實驗表明，該改進(jìn)算法得到的電力欠費居民客戶風(fēng)險預(yù)測模型的準(zhǔn)確性與有效性得到提升。

引言

　　我國電力體制的深化改革為電力行業(yè)引入了市場機(jī)制^[1]，在有效實現(xiàn)電力資源優(yōu)化配置，提高電力資源生產(chǎn)和傳輸效率的同時，也帶給電力企業(yè)更大的市場風(fēng)險，風(fēng)險的切實防范和規(guī)避對電力企業(yè)的重要性不言而喻。由于客戶欠費而產(chǎn)生的電費回收風(fēng)險一直是電力營銷中存在的重大風(fēng)險之一。

　　首先，國內(nèi)學(xué)術(shù)界專業(yè)人士對于該問題的研究起步較晚^[3]，主要集中于對電費回收風(fēng)險的現(xiàn)狀、影響因素、評價、有效性措施等內(nèi)容的理論研究，缺乏以現(xiàn)實數(shù)據(jù)為基礎(chǔ)量化模型支撐^[3-4];雖然也有許多文獻(xiàn)通過對電力客戶信用等級建模對其欠費風(fēng)險進(jìn)行預(yù)測^[5]，但模型不夠直接;隨著大數(shù)據(jù)挖掘行業(yè)的蓬勃發(fā)展，近幾年出現(xiàn)了基于邏輯回歸、決策樹的數(shù)據(jù)挖掘算法的電力客戶欠費違約概率預(yù)測模型^[6-7]，但前者選取特征均為二分類變量，適用性較低;后者選擇的模型變量雖較為多樣性，但模型的預(yù)測結(jié)果差強(qiáng)人意。而本文將借助電力客戶屬性數(shù)據(jù)和行為特征數(shù)據(jù)，盡可能挖掘每一個變量與欠費風(fēng)險的相關(guān)信息，建立一個更為準(zhǔn)確、使用范圍更廣的客戶欠費風(fēng)險預(yù)測模型。

　　其次，如今關(guān)于LR的文章或者關(guān)于Bagging集成學(xué)習(xí)的文章有很多，但是基于LR分類器的Bagging算法的應(yīng)用相對較少，通過特征選擇對基于LR分類器Bagging算法做出改進(jìn)的相關(guān)文獻(xiàn)基本沒有。簡單來說，本文算法為多個不同的LR分類器的集合，其核心在于每一個訓(xùn)練的LR基分類器的樣本和特征均通過bootstrap技術(shù)得到。充分考慮了LR的強(qiáng)泛化能力、Bagging的高精確度，以及特征選擇帶來的LR基分類器的多樣性，使得該算法在精度、實用性上優(yōu)于單一算法，后文的應(yīng)用恰好證明了這一點。鑒于該算法的這一優(yōu)越性，可嘗試將其應(yīng)用于其他領(lǐng)域的分類挖掘問題。

　　本研究的意義體現(xiàn)在兩個方面：一是對于電力欠費客戶風(fēng)險預(yù)測這一模塊的進(jìn)一步研究;二是基于特征選擇的以LR為基分類器的Bagging算法的改進(jìn)的借鑒和推廣價值。

1 基于LR分類器的Bagging算法的改進(jìn)

基于特征1.jpg

1.1 LR模型及其基本理論

　　邏輯回歸(LogisticRegression，LR)模型是一種分類評定模型，是離散選擇法模型之一。它主要是用于對受多因素影響的定性變量的概率預(yù)測，并根據(jù)預(yù)測的概率對目標(biāo)變量進(jìn)行分類。邏輯回歸可分為二項邏輯回歸和多項邏輯回歸，類別的差異取決于目標(biāo)變量類別個數(shù)的多少。目前，LR模型已經(jīng)廣泛應(yīng)用于社會學(xué)、生物統(tǒng)計學(xué)、臨床、數(shù)量心理學(xué)、市場營銷等統(tǒng)計實證分析中，且以目標(biāo)變量為二分類變量為主。

　　1.1.1 Logistic函數(shù)

　　假設(shè)因變量只有1-0(例如“是”和“否”，“發(fā)生”和“不發(fā)生”)兩種取值，記為1和0。假設(shè)在p個獨立自變量基于特征公式1.jpg 作用下，y取1的概率是基于特征公式2.jpg ，取0的概率是1-P，則取1和取0的概率之比為基于特征公式3.jpg ，稱為事件的優(yōu)勢比(odds)，表示事件發(fā)生的概率相對于不發(fā)生的概率的強(qiáng)度。對odds取自然對數(shù)可得Logistic函數(shù)為：

基于特征公式4.jpg (1)

　　Logistic函數(shù)曲線如圖1所示。

　　1.1.2 LR模型

　　LR模型可以探究由于自變量的變化所能導(dǎo)致的因變量決策(選擇)的變化，因變量決策(選擇)的變化意味著Logistic函數(shù)的變化。LR的基本形式為：

基于特征公式5.jpg

　　因此有：

基于特征公式6.jpg

基于特征公式7.jpg

　　1.1.4 LR模型的優(yōu)勢與不足

　　LR模型具有很強(qiáng)的實用性，對比其他的分類判別模型，LR具有以下兩點優(yōu)勢：

　　(1)泛化能力較好，精度較高

　　所謂泛化能力，是指機(jī)器學(xué)習(xí)算法對新鮮樣本的適應(yīng)能力。由于LR模型的自變量多為取值范圍不設(shè)限的連續(xù)變量，該模型不僅可以在樣本內(nèi)進(jìn)行預(yù)測，還可以對樣本外的數(shù)據(jù)進(jìn)行預(yù)測，泛化能力較好，而且精度較高。

　　(2)能精確控制閾值，調(diào)整分類類別

　　LR模型的求解結(jié)果是一個介于0和1間的概率值。這使分類結(jié)果的多樣性成為了可能。正常情況下，每一次閾值的調(diào)整都會產(chǎn)生不同的分類結(jié)果，便于對預(yù)測結(jié)果進(jìn)行比較和檢驗，克服了其他分類算法分類數(shù)量無法改變的局限。

　　當(dāng)然，LR作為回歸模型的特殊形式，也需要滿足經(jīng)典回歸模型的基本假設(shè)，違背這些假設(shè)顯然會影響模型的分類效果，多重共線問題就是目前面臨較多的問題。同時，邏輯回歸的性能受特征空間的影響很大，也不能很好地處理大量多類特征或變量，這便是LR分類器的缺點所在。

基于特征2.jpg

2 Bagging集成學(xué)習(xí)

2.1 集成學(xué)習(xí)

　　集成學(xué)習(xí)^[8]是一種機(jī)器學(xué)習(xí)范式，它的基本思想是把多個學(xué)習(xí)器(通常是同質(zhì)的)集成起來，使用多個模型(解決方案)來解決同一個問題。因其個體學(xué)習(xí)器的高精度和個誤差均分布于不同的輸入空間，從而能達(dá)到顯著地提高學(xué)習(xí)系統(tǒng)的泛化能力的效果。

基于特征公式8.jpg

基于特征公式9.jpg

　　Breiman同時指出，要使得Bagging有效，基本學(xué)習(xí)器的學(xué)習(xí)算法必須是不穩(wěn)定的，也就是說對訓(xùn)練數(shù)據(jù)敏感，且基本分類器的學(xué)習(xí)算法對訓(xùn)練數(shù)據(jù)越敏感，Bagging的效果越好。另外由于Bagging算法本身的特點，使得Bagging算法非常適合用來并行訓(xùn)練多個基本分類器，這也是Bagging算法的一大優(yōu)勢^[8]。

2.3 本文算法描述

　　前文指出，一方面，學(xué)習(xí)器的穩(wěn)定性，即對訓(xùn)練數(shù)據(jù)的敏感性，很大程度上影響B(tài)agging算法的效果，其中原因在于差異性小的數(shù)據(jù)對穩(wěn)定性較強(qiáng)的學(xué)習(xí)器無法很好產(chǎn)生作用，這將影響到基學(xué)習(xí)模型的多樣性，Bagging算法提高精確度的能力也將大大減弱，而LR模型的不穩(wěn)定性能不突出;另一方面，LR對大特征空間的解釋效果并不理想，且越多的變量特征也將加大變量間多重共線的可能性，LR模型的顯著性無法得到保障。

　　由于上述兩點原因，本文提出了一種基于特征選擇的LR-Bagging(基分類器為LR的Bagging算法)的改進(jìn)算法。該算法的精髓在于對每一個LR進(jìn)行訓(xùn)練的特征變量需要經(jīng)過有放回的隨機(jī)抽樣產(chǎn)生。如此改進(jìn)的目的在于通過減少或改變變量提高基LR分類器的多樣性，減少變量間的多重共線性與過擬合問題，同時還能較好保留LR與Bagging集成學(xué)習(xí)的優(yōu)點。

基于特征公式10.jpg

　　AUC(Area Under Curve)被定義為ROC曲線下的面積，它的取值范圍介于0.5到1之間，是比較分類器間分類效果優(yōu)劣的評價標(biāo)準(zhǔn)。AUC越大，我們認(rèn)為模型的分類效果越好。一般情況下，，隨著循環(huán)次數(shù)的增加，模型提取的數(shù)據(jù)信息量也會不斷增加，最后達(dá)到峰值，所以我們通?？梢哉J(rèn)為組合模型的效果趨于先不斷加強(qiáng)后保持穩(wěn)定的過程。因此，我們把迭代的停止條件的設(shè)置為是合理的。

新聞中心

基于特征選擇改進(jìn)LR-Bagging算法的電力欠費風(fēng)險居民客戶預(yù)測

評論

相關(guān)推薦

技術(shù)專區(qū)