新聞中心

EEPW首頁(yè) > 電源與新能源 > 設(shè)計(jì)應(yīng)用 > 基于特征選擇改進(jìn)LR-Bagging算法的電力欠費(fèi)風(fēng)險(xiǎn)居民客戶預(yù)測(cè)

基于特征選擇改進(jìn)LR-Bagging算法的電力欠費(fèi)風(fēng)險(xiǎn)居民客戶預(yù)測(cè)

作者:吳漾 朱州 時(shí)間:2017-03-29 來(lái)源:電子產(chǎn)品世界 收藏
編者按:本文從電力欠費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)的角度出發(fā),提出了一種基于特征選擇改進(jìn)的LR-Bagging(即以邏輯回歸為基分類器的Bagging集成學(xué)習(xí))算法,其精髓在于每一個(gè)訓(xùn)練的LR基分類器的記錄和字段均通過(guò)隨機(jī)抽樣得到。且算法的終止迭代準(zhǔn)則由AUC統(tǒng)計(jì)量的變化率決定。該改進(jìn)算法充分考慮了LR的強(qiáng)泛化能力、Bagging的高精確度,以及特征選擇帶來(lái)的LR基分類器的多樣性、弱化的多重共線性與“過(guò)擬合”度,效果優(yōu)于單一LR模型。且最終的實(shí)驗(yàn)表明,該改進(jìn)算法得到的電力欠費(fèi)居民客戶風(fēng)險(xiǎn)預(yù)測(cè)模型的準(zhǔn)確性與有效性得到提升。

作者 吳漾 朱州 貴州電網(wǎng)有限責(zé)任公司信息中心(貴州 貴陽(yáng) 550003)

本文引用地址:http://butianyuan.cn/article/201703/345948.htm

  吳漾(1984-),男,碩士,工程師,研究方向:電網(wǎng)信息化數(shù)據(jù)管理與數(shù)據(jù)分析管理;朱州,男,高級(jí)工程師,博士,研究方向:電網(wǎng)信息化建設(shè)與數(shù)據(jù)分析管理。

摘要:本文從電力欠費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)的角度出發(fā),提出了一種基于改進(jìn)的LR-Bagging(即以邏輯回歸為基分類器的)算法,其精髓在于每一個(gè)訓(xùn)練的LR基分類器的記錄和字段均通過(guò)隨機(jī)抽樣得到。且算法的終止迭代準(zhǔn)則由統(tǒng)計(jì)量的變化率決定。該改進(jìn)算法充分考慮了LR的強(qiáng)泛化能力、Bagging的高精確度,以及帶來(lái)的LR基分類器的多樣性、弱化的多重共線性與“過(guò)擬合”度,效果優(yōu)于單一LR模型。且最終的實(shí)驗(yàn)表明,該改進(jìn)算法得到的電力欠費(fèi)居民客戶風(fēng)險(xiǎn)預(yù)測(cè)模型的準(zhǔn)確性與有效性得到提升。

引言

  我國(guó)電力體制的深化改革為電力行業(yè)引入了市場(chǎng)機(jī)制[1],在有效實(shí)現(xiàn)電力資源優(yōu)化配置,提高電力資源生產(chǎn)和傳輸效率的同時(shí),也帶給電力企業(yè)更大的市場(chǎng)風(fēng)險(xiǎn),風(fēng)險(xiǎn)的切實(shí)防范和規(guī)避對(duì)電力企業(yè)的重要性不言而喻。由于客戶欠費(fèi)而產(chǎn)生的電費(fèi)回收風(fēng)險(xiǎn)一直是電力營(yíng)銷中存在的重大風(fēng)險(xiǎn)之一。

  首先,國(guó)內(nèi)學(xué)術(shù)界專業(yè)人士對(duì)于該問(wèn)題的研究起步較晚[3],主要集中于對(duì)電費(fèi)回收風(fēng)險(xiǎn)的現(xiàn)狀、影響因素、評(píng)價(jià)、有效性措施等內(nèi)容的理論研究,缺乏以現(xiàn)實(shí)數(shù)據(jù)為基礎(chǔ)量化模型支撐[3-4];雖然也有許多文獻(xiàn)通過(guò)對(duì)電力客戶信用等級(jí)建模對(duì)其欠費(fèi)風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)[5],但模型不夠直接;隨著大數(shù)據(jù)挖掘行業(yè)的蓬勃發(fā)展,近幾年出現(xiàn)了基于邏輯回歸、決策樹(shù)的數(shù)據(jù)挖掘算法的電力客戶欠費(fèi)違約概率預(yù)測(cè)模型[6-7],但前者選取特征均為二分類變量,適用性較低;后者選擇的模型變量雖較為多樣性,但模型的預(yù)測(cè)結(jié)果差強(qiáng)人意。而本文將借助電力客戶屬性數(shù)據(jù)和行為特征數(shù)據(jù),盡可能挖掘每一個(gè)變量與欠費(fèi)風(fēng)險(xiǎn)的相關(guān)信息,建立一個(gè)更為準(zhǔn)確、使用范圍更廣的客戶欠費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)模型。

  其次,如今關(guān)于LR的文章或者關(guān)于的文章有很多,但是基于的Bagging算法的應(yīng)用相對(duì)較少,通過(guò)對(duì)基于Bagging算法做出改進(jìn)的相關(guān)文獻(xiàn)基本沒(méi)有。簡(jiǎn)單來(lái)說(shuō),本文算法為多個(gè)不同的的集合,其核心在于每一個(gè)訓(xùn)練的LR基分類器的樣本和特征均通過(guò)bootstrap技術(shù)得到。充分考慮了LR的強(qiáng)泛化能力、Bagging的高精確度,以及特征選擇帶來(lái)的LR基分類器的多樣性,使得該算法在精度、實(shí)用性上優(yōu)于單一算法,后文的應(yīng)用恰好證明了這一點(diǎn)。鑒于該算法的這一優(yōu)越性,可嘗試將其應(yīng)用于其他領(lǐng)域的分類挖掘問(wèn)題。

  本研究的意義體現(xiàn)在兩個(gè)方面:一是對(duì)于電力欠費(fèi)客戶風(fēng)險(xiǎn)預(yù)測(cè)這一模塊的進(jìn)一步研究;二是基于特征選擇的以LR為基分類器的Bagging算法的改進(jìn)的借鑒和推廣價(jià)值。

1 基于LR分類器的Bagging算法的改進(jìn)

1.1 LR模型及其基本理論

  邏輯回歸(LogisticRegression,LR)模型是一種分類評(píng)定模型,是離散選擇法模型之一。它主要是用于對(duì)受多因素影響的定性變量的概率預(yù)測(cè),并根據(jù)預(yù)測(cè)的概率對(duì)目標(biāo)變量進(jìn)行分類。邏輯回歸可分為二項(xiàng)邏輯回歸和多項(xiàng)邏輯回歸,類別的差異取決于目標(biāo)變量類別個(gè)數(shù)的多少。目前,LR模型已經(jīng)廣泛應(yīng)用于社會(huì)學(xué)、生物統(tǒng)計(jì)學(xué)、臨床、數(shù)量心理學(xué)、市場(chǎng)營(yíng)銷等統(tǒng)計(jì)實(shí)證分析中,且以目標(biāo)變量為二分類變量為主。

  1.1.1 Logistic函數(shù)

  假設(shè)因變量只有1-0(例如“是”和“否”,“發(fā)生”和“不發(fā)生”)兩種取值,記為1和0。假設(shè)在p個(gè)獨(dú)立自變量作用下,y取1的概率是,取0的概率是1-P,則取1和取0的概率之比為,稱為事件的優(yōu)勢(shì)比(odds),表示事件發(fā)生的概率相對(duì)于不發(fā)生的概率的強(qiáng)度。對(duì)odds取自然對(duì)數(shù)可得Logistic函數(shù)為:

(1)

  Logistic函數(shù)曲線如圖1所示。

  1.1.2 LR模型

  LR模型可以探究由于自變量的變化所能導(dǎo)致的因變量決策(選擇)的變化,因變量決策(選擇)的變化意味著Logistic函數(shù)的變化。LR的基本形式為:

  因此有:

  1.1.4 LR模型的優(yōu)勢(shì)與不足

  LR模型具有很強(qiáng)的實(shí)用性,對(duì)比其他的分類判別模型,LR具有以下兩點(diǎn)優(yōu)勢(shì):

  (1)泛化能力較好,精度較高

  所謂泛化能力,是指機(jī)器學(xué)習(xí)算法對(duì)新鮮樣本的適應(yīng)能力。由于LR模型的自變量多為取值范圍不設(shè)限的連續(xù)變量,該模型不僅可以在樣本內(nèi)進(jìn)行預(yù)測(cè),還可以對(duì)樣本外的數(shù)據(jù)進(jìn)行預(yù)測(cè),泛化能力較好,而且精度較高。

  (2)能精確控制閾值,調(diào)整分類類別

  LR模型的求解結(jié)果是一個(gè)介于0和1間的概率值。這使分類結(jié)果的多樣性成為了可能。正常情況下,每一次閾值的調(diào)整都會(huì)產(chǎn)生不同的分類結(jié)果,便于對(duì)預(yù)測(cè)結(jié)果進(jìn)行比較和檢驗(yàn),克服了其他分類算法分類數(shù)量無(wú)法改變的局限。

  當(dāng)然,LR作為回歸模型的特殊形式,也需要滿足經(jīng)典回歸模型的基本假設(shè),違背這些假設(shè)顯然會(huì)影響模型的分類效果,多重共線問(wèn)題就是目前面臨較多的問(wèn)題。同時(shí),邏輯回歸的性能受特征空間的影響很大,也不能很好地處理大量多類特征或變量,這便是LR分類器的缺點(diǎn)所在。

2

2.1 集成學(xué)習(xí)

  集成學(xué)習(xí)[8]是一種機(jī)器學(xué)習(xí)范式,它的基本思想是把多個(gè)學(xué)習(xí)器(通常是同質(zhì)的)集成起來(lái),使用多個(gè)模型(解決方案)來(lái)解決同一個(gè)問(wèn)題。因其個(gè)體學(xué)習(xí)器的高精度和個(gè)誤差均分布于不同的輸入空間,從而能達(dá)到顯著地提高學(xué)習(xí)系統(tǒng)的泛化能力的效果。

  Breiman同時(shí)指出,要使得Bagging有效,基本學(xué)習(xí)器的學(xué)習(xí)算法必須是不穩(wěn)定的,也就是說(shuō)對(duì)訓(xùn)練數(shù)據(jù)敏感,且基本分類器的學(xué)習(xí)算法對(duì)訓(xùn)練數(shù)據(jù)越敏感,Bagging的效果越好。另外由于Bagging算法本身的特點(diǎn),使得Bagging算法非常適合用來(lái)并行訓(xùn)練多個(gè)基本分類器,這也是Bagging算法的一大優(yōu)勢(shì)[8]。

2.3 本文算法描述

  前文指出,一方面,學(xué)習(xí)器的穩(wěn)定性,即對(duì)訓(xùn)練數(shù)據(jù)的敏感性,很大程度上影響B(tài)agging算法的效果,其中原因在于差異性小的數(shù)據(jù)對(duì)穩(wěn)定性較強(qiáng)的學(xué)習(xí)器無(wú)法很好產(chǎn)生作用,這將影響到基學(xué)習(xí)模型的多樣性,Bagging算法提高精確度的能力也將大大減弱,而LR模型的不穩(wěn)定性能不突出;另一方面,LR對(duì)大特征空間的解釋效果并不理想,且越多的變量特征也將加大變量間多重共線的可能性,LR模型的顯著性無(wú)法得到保障。

  由于上述兩點(diǎn)原因,本文提出了一種基于特征選擇的LR-Bagging(基分類器為L(zhǎng)R的Bagging算法)的改進(jìn)算法。該算法的精髓在于對(duì)每一個(gè)LR進(jìn)行訓(xùn)練的特征變量需要經(jīng)過(guò)有放回的隨機(jī)抽樣產(chǎn)生。如此改進(jìn)的目的在于通過(guò)減少或改變變量提高基LR分類器的多樣性,減少變量間的多重共線性與過(guò)擬合問(wèn)題,同時(shí)還能較好保留LR與Bagging集成學(xué)習(xí)的優(yōu)點(diǎn)。

  (Area Under Curve)被定義為ROC曲線下的面積,它的取值范圍介于0.5到1之間,是比較分類器間分類效果優(yōu)劣的評(píng)價(jià)標(biāo)準(zhǔn)。越大,我們認(rèn)為模型的分類效果越好。一般情況下,,隨著循環(huán)次數(shù)的增加,模型提取的數(shù)據(jù)信息量也會(huì)不斷增加,最后達(dá)到峰值,所以我們通??梢哉J(rèn)為組合模型的效果趨于先不斷加強(qiáng)后保持穩(wěn)定的過(guò)程。因此,我們把迭代的停止條件的設(shè)置為是合理的。



上一頁(yè) 1 2 下一頁(yè)

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉