基于特征選擇改進(jìn)LR-Bagging算法的電力欠費(fèi)風(fēng)險(xiǎn)居民客戶預(yù)測(cè)

作者：吳漾朱州時(shí)間：2017-03-29 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

編者按：本文從電力欠費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)的角度出發(fā)，提出了一種基于特征選擇改進(jìn)的LR-Bagging(即以邏輯回歸為基分類器的Bagging集成學(xué)習(xí))算法，其精髓在于每一個(gè)訓(xùn)練的LR基分類器的記錄和字段均通過隨機(jī)抽樣得到。且算法的終止迭代準(zhǔn)則由AUC統(tǒng)計(jì)量的變化率決定。該改進(jìn)算法充分考慮了LR的強(qiáng)泛化能力、Bagging的高精確度，以及特征選擇帶來的LR基分類器的多樣性、弱化的多重共線性與“過擬合”度，效果優(yōu)于單一LR模型。且最終的實(shí)驗(yàn)表明，該改進(jìn)算法得到的電力欠費(fèi)居民客戶風(fēng)險(xiǎn)預(yù)測(cè)模型的準(zhǔn)確性與有效性得到提升。

3 應(yīng)用與結(jié)果

本文引用地址：http://www.butianyuan.cn/article/201703/345948.htm

　　本應(yīng)用以“電費(fèi)回收風(fēng)險(xiǎn)”為主題，要求根據(jù)2015年8月至2015年9月貴州貴陽電網(wǎng)欠費(fèi)居民樣本客戶的行為分析和特征擬合，以及與全量居民客戶的特征匹配，采用分群管理理論和數(shù)據(jù)挖掘算法建立數(shù)學(xué)模型，計(jì)算出全量居民客戶的電費(fèi)回收風(fēng)險(xiǎn)程度，自動(dòng)分析識(shí)別出欠費(fèi)高風(fēng)險(xiǎn)居民客戶群。

基于特征3.jpg

　　本部分主要通過改進(jìn)的LR-Bagging算法與單一逐步邏輯回歸算法在電力欠費(fèi)高風(fēng)險(xiǎn)居民客戶的預(yù)測(cè)的應(yīng)用效果的比較來展開。借助的分析工具為R語言。

3.1 基于本文改進(jìn)算法的模型流程圖

　　針對(duì)本應(yīng)用的實(shí)際情況，結(jié)合改進(jìn)算法的數(shù)據(jù)需求，整體實(shí)際操作過程的流程可以表述如圖3。

3.2 模型與結(jié)果

　　綜上所述，有如下處理過程：

　　3.2.1 定義風(fēng)險(xiǎn)客戶樣本

　　業(yè)務(wù)經(jīng)驗(yàn)告訴我們，并非所有的欠費(fèi)居民客戶都是存在欠費(fèi)風(fēng)險(xiǎn)的客戶，因?yàn)槲覀儾⒉慌懦鄶?shù)欠費(fèi)居民客戶因?yàn)橥浝U費(fèi)日期而出現(xiàn)欠費(fèi)的可能性。一般情況下，存在欠費(fèi)風(fēng)險(xiǎn)的居民客戶占全量客戶的比例不超過25%。因此，考慮通過所有欠費(fèi)居民客戶在2015年8月至9月的累計(jì)欠費(fèi)金額的四分之三分位點(diǎn)作為定義欠費(fèi)風(fēng)險(xiǎn)居民客戶的標(biāo)準(zhǔn)。

基于特征4.jpg

　　圖4為全部居民客戶在2015年8月至9月累計(jì)欠費(fèi)金額的概率直方圖，可以發(fā)現(xiàn)，大約75%的居民客戶的累計(jì)欠費(fèi)金額在140元以下。經(jīng)過與電網(wǎng)專家的商討，認(rèn)為可選定該數(shù)據(jù)為是否為欠費(fèi)風(fēng)險(xiǎn)客戶的閾值。

　　綜上所述，我們定義“壞客戶”樣本，即欠費(fèi)風(fēng)險(xiǎn)客戶樣本的標(biāo)準(zhǔn)為：在2015年8月至9月期內(nèi)，累計(jì)欠費(fèi)金額超過140元的居民客戶。

　　3.2.2 變量的構(gòu)造與篩選

　　原始居民客戶數(shù)據(jù)包含包括年齡、用電性質(zhì)、合同容量等基本屬性以及總用電量、電費(fèi)實(shí)際金額等歷史行為屬性在內(nèi)的25個(gè)字段，顯然，變量個(gè)數(shù)過多，需要進(jìn)行篩選，具體操作為：

　　對(duì)于連續(xù)型變量，計(jì)算其與因變量“是否為壞客戶”的spearman相關(guān)系數(shù)，大于0.5的情況下保留;對(duì)于離散型變量，對(duì)其與因變量做卡方檢驗(yàn)，保留在0.05顯著性水平下的顯著變量，最終確定的用于建模的變量為：平均用電量、平均電費(fèi)、平均繳費(fèi)時(shí)長(zhǎng)、信譽(yù)分?jǐn)?shù)、用電類別、行業(yè)代碼、合同容量、城鄉(xiāng)標(biāo)志，對(duì)應(yīng)地設(shè)置為X₁~X₈。

　　同時(shí)，考慮到離散變量對(duì)于邏輯回歸的效果影響，基于目標(biāo)變量對(duì)WEO其做編碼處理。WEO叫做證據(jù)權(quán)重(Weight of Evidence)，表示的其實(shí)是自變量取某個(gè)值的時(shí)候?qū)η焚M(fèi)比例的一種影響。若WEO_i表示離散變量的第i個(gè)類值的證據(jù)權(quán)重，則有：

基于特征公式111.jpg (8)

　　其中，P_bi和P_gi分別表示離散變量取第i個(gè)類值時(shí)，欠費(fèi)風(fēng)險(xiǎn)客戶占比和非欠費(fèi)風(fēng)險(xiǎn)客戶的占比。

　　最后，隨機(jī)抽取已完成前述處理的居民客戶樣本的10%，共條記錄作為構(gòu)建模型的初始數(shù)據(jù) 。

3.3 建模

　　3.3.1 本文改進(jìn)算法模型

　　基于特征選擇改進(jìn)的LR-Bagging組合模型雖然增加了分類結(jié)果的精度，但特征選擇的隨機(jī)性也不可避免的增加了模型的偶然性。顯然，每一次特征變量個(gè)數(shù)發(fā)生改變。在其他條件不變的狀態(tài)下，隨著循環(huán)次數(shù)的增加，至于特征變量的個(gè)數(shù)對(duì)模型結(jié)果的影響規(guī)律，我們甚至無法預(yù)知。對(duì)此，本處采用了實(shí)證比較的方法來初步確定上述兩影響因素的最優(yōu)數(shù)值，即通過不斷改變特征變量探究模型效果的變化。模型的效果的好壞仍采用采用AUC值來衡量。即令特征變量個(gè)數(shù)k滿足：基于特征公式12.jpg ，同時(shí)，基于經(jīng)驗(yàn)，我們?cè)O(shè)置訓(xùn)練集與測(cè)試集的樣本比例為7：3，ε的值為0.05，則利用本文算法可以得到不同的組合模型。

　　觀察圖5不難發(fā)現(xiàn)，在其他條件不變的情況下，隨著特征變量個(gè)數(shù)的增加，AUC總體呈現(xiàn)先增長(zhǎng)后下降的的變化趨勢(shì)，且當(dāng)k取值為4時(shí)，AUC最大，因此大致可以認(rèn)為4為其最佳特征個(gè)數(shù)，選取時(shí)的組合模型為本文改進(jìn)算法得到的最終模型。

基于特征5.jpg

　　3.3.2 單一逐步邏輯回歸模型

　　對(duì)初始數(shù)據(jù)S通過逐步篩選建立邏輯回歸模型，結(jié)果為：

基于特征公式13.jpg

　　各系數(shù)均通過了0.05顯著性水平下的公式(6)的正態(tài)分布檢驗(yàn)。因此，該模型是顯著有效的。

4 模型評(píng)估

　　分別采用本文基于特征選擇改進(jìn)的LR-Bagging算法的組合模型與單一LR模型對(duì)全量居民客戶的風(fēng)險(xiǎn)概率預(yù)測(cè)，并借助預(yù)測(cè)結(jié)果對(duì)兩者的準(zhǔn)確性與有效性做出評(píng)估。

4.1 準(zhǔn)確性—ROC曲線

基于特征6.jpg

　　圖6表明，基于本文算法模型的預(yù)測(cè)電力欠費(fèi)風(fēng)險(xiǎn)客戶的ROC曲線一直位于單一LR模型預(yù)測(cè)結(jié)果的ROC曲線上方，因此，可以認(rèn)為，前者的準(zhǔn)確性優(yōu)于后者。

4.2 有效性—提升度

　　提升度(Lift)是評(píng)估一個(gè)預(yù)測(cè)模型是否有效的一個(gè)度量。這個(gè)比值由運(yùn)用和不運(yùn)用這個(gè)模型所得來的結(jié)果計(jì)算而來。一般來說提升度越大，效果明顯。

基于特征7.jpg

　　圖7表明，基于本文算法模型的預(yù)測(cè)電力欠費(fèi)風(fēng)險(xiǎn)客戶的提升度曲線一直位于單一LR模型預(yù)測(cè)結(jié)果的提升度曲線上方，因此，可以認(rèn)為，前者的提升度較大，有效性優(yōu)于后者。

5 結(jié)論

　　本文從電力欠費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)的角度出發(fā)，提出了一種基于特征選擇改進(jìn)的LR-Bagging(即以邏輯回歸為基分類器的Bagging集成學(xué)習(xí))算法，其精髓在于每一個(gè)訓(xùn)練的LR基分類器的記錄和字段均通過隨機(jī)抽樣得到。且算法的終止迭代準(zhǔn)則由AUC統(tǒng)計(jì)量的變化率決定。該改進(jìn)算法充分考慮了LR的強(qiáng)泛化能力、bagging的高精確度以及特征選擇帶來的LR基分類器的多樣性、弱化的多重共線性與“過擬合”度，效果優(yōu)于單一LR模型。且最終的實(shí)驗(yàn)表明，該改進(jìn)算法得到的電力欠費(fèi)居民客戶風(fēng)險(xiǎn)預(yù)測(cè)模型的準(zhǔn)確定性與有效性得到提升。而下一步，可針對(duì)改進(jìn)算法中最優(yōu)變量個(gè)數(shù)的確定問題展開探討，或考慮將其推廣至其他應(yīng)用領(lǐng)域。

　　參考文獻(xiàn)：

　　[1]顧曦華.濟(jì)南供電公司電力大客戶欠費(fèi)風(fēng)險(xiǎn)預(yù)警研究[D].保定:華北電力大學(xué),2007.

　　[2]田慧欣,王安娜.基于增量學(xué)習(xí)思想的改進(jìn)AdaBoost建模方法[J].控制與決策,2012,27(9):1433-1436.

　　[3]李亞林,王茜.對(duì)電力營(yíng)銷中全過程電費(fèi)風(fēng)險(xiǎn)管理的探究[J].電力技術(shù),2016,1(148):165-165.

　　[4]張宇獻(xiàn),李松,董曉.基于特征聚類數(shù)據(jù)劃分的多神經(jīng)網(wǎng)絡(luò)模型[J].信息與控制,2013,42(6):693-699.

　　[5]朱志華.電力客戶信用評(píng)價(jià)與欠費(fèi)風(fēng)險(xiǎn)預(yù)警系統(tǒng)的總體設(shè)計(jì)[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版).2009(01):188-190.

　　[6]周暉等.基于Logistic回歸模型的電力客戶欠費(fèi)違約概率的預(yù)測(cè)[J]. 電網(wǎng)技術(shù),2007,31(17):85-88.

　　[7]黃文思.基于決策樹算法的電力客戶欠費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)[J].電力信息與通信技術(shù),2016,14(3):20-22.

　　[8]馬新宇.基于Bagging集成學(xué)習(xí)的水華預(yù)測(cè)方法研究[J].計(jì)算機(jī)應(yīng)用化學(xué),2014,31(2):140-144.

　　[9]Ma Ranran. Research of Ensemble Learning Algorithm. Shandong:Shandong Univerity of Science and Technology,2010.

　　[10]朱紹文,胡宏銀,王泉德,等.決策樹采掘技術(shù)及發(fā)展趨勢(shì)[J].計(jì)算機(jī)工程,2000,26(10):1-3.

　　[11]李海波,柴天佑,岳恒.浮選工藝指標(biāo)KPCA-ELM軟測(cè)量模型及應(yīng)用[J].化工學(xué)報(bào),2012,63(9):2892-2898.

　　[12]馬冉冉.集成學(xué)習(xí)算法研究[D].濟(jì)南:山東科技大學(xué),2010.

　　[13]施彥.物流中心選址的神經(jīng)網(wǎng)絡(luò)集成模型研究[J].計(jì)算機(jī)工程,2009,45(16):211-214.

　　[14]劉淑蓮,王真,趙建衛(wèi).基于因子分析的上市公司信用評(píng)級(jí)應(yīng)用研究[J].財(cái)經(jīng)問題研究,2008,15(7):53-60.

　　[15]張克盡,陸開宏,朱津永,等.基于神經(jīng)網(wǎng)絡(luò)的藻類水華預(yù)測(cè)模型研究[J].中國(guó)環(huán)境監(jiān)測(cè),2012,28(3):53-57.

　　本文來源于《電子產(chǎn)品世界》2017年第4期第70頁，歡迎您寫論文時(shí)引用，并注明出處。

新聞中心

基于特征選擇改進(jìn)LR-Bagging算法的電力欠費(fèi)風(fēng)險(xiǎn)居民客戶預(yù)測(cè)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)