新聞中心

EEPW首頁 > 手機與無線通信 > 設計應用 > 基奇PCA的貝葉斯網(wǎng)絡分糞器研究

基奇PCA的貝葉斯網(wǎng)絡分糞器研究

作者: 時間:2018-09-12 來源:網(wǎng)絡 收藏

1 引言
近幾年來,已成為數(shù)據(jù)挖掘和知識發(fā)現(xiàn)中的一個主要工具,在分類、聚類、預測和規(guī)則推導等方面取得了良好的應用效果。從歷史數(shù)據(jù)中學習可采用基于依賴分析的方法。
常用的有:用Polytree表示概率網(wǎng)的方法、從完全圖刪除邊的方法等。這種方法需要進行指數(shù)級的CI測試以發(fā)現(xiàn)依賴關系,當結點集較大時,其計算效率低,所以大多數(shù)此類算法都假設結點有序;但這種假設可能會影響最后學習到的結構的正確性。對于稀疏網(wǎng)絡和具有較大樣本數(shù)據(jù)集的系統(tǒng),這種方法非常有效。
針對基于依賴分析方法的這一缺點,在網(wǎng)絡結構學習之前應用主元分析方法將數(shù)據(jù)降維,減少網(wǎng)絡結點數(shù)目,可提高算法效率、簡化網(wǎng)絡結構。

本文引用地址:http://www.butianyuan.cn/article/201809/388957.htm

2 數(shù)據(jù)處理及離散化
現(xiàn)實數(shù)據(jù)庫中的數(shù)據(jù)常存在數(shù)據(jù)不一致、數(shù)據(jù)丟失等現(xiàn)象,所以在運用數(shù)據(jù)學習網(wǎng)絡結構前要對數(shù)據(jù)進行預處理。此外,對于連續(xù)性數(shù)據(jù)(如溫度、濕度、長度等),直接建立網(wǎng)絡模型計算復雜度大,從連續(xù)數(shù)據(jù)中很難正確學習到變量間的關系。因此首先將數(shù)據(jù)標準化,再將標準化后的連續(xù)變量離散化,用離散化后的數(shù)據(jù)進行貝葉斯網(wǎng)絡結構的學習。這里采用模糊離散化方法,對數(shù)據(jù)集的每個屬性分別進行離散化,每個屬性都有3個標度:5標度、7標度、9標度可以選擇。算法步驟如下:
(1)隨機初始化隸屬度矩陣:

3 基于的貝葉斯網(wǎng)絡結構學習算法
主元分析(Principal Component Analysis)是通過可逆線性變換,將數(shù)據(jù)集轉換為由維數(shù)較少的特征成分表示的、包含原數(shù)據(jù)集所有信息或大部分信息的技術。通過技術,可以將復雜數(shù)據(jù)簡化,因此它現(xiàn)已被廣泛應用于數(shù)據(jù)挖掘、模式識別、信號評估、信號探測、圖像編碼等領域。主元分析的原理如下:
令x為表示環(huán)境的m維隨機向量。假設x均值為零,即

E[x]=0 (4)
令w表示m維單位向量,x在ω上投影。該投影被定義為向量x和ω的內(nèi)積,表示為:


主元分析的目的就是尋找一個權值向量w,使得表達式的值最大化:


即使得式(7)值最大化的w是矩陣的最大特征值所對應的特征向量。
鑒于主元分析的優(yōu)點,這里引入主元分析技術給數(shù)據(jù)集降維,然后用降維后的數(shù)據(jù)構建網(wǎng)絡,提高學習貝葉斯網(wǎng)絡結構算法的效率、簡化網(wǎng)絡結構。構造貝葉斯網(wǎng)絡的算法步驟如下:
(1)用普瑞姆算法生成最大似然樹構造初始貝葉斯網(wǎng)絡;
(2)對所有互信息大于閾值且在當前圖中無邊的結點對n1、n2:①找出它們鄰接路徑上的鄰居結點,設n1、n2的鄰居結點的結點集分別為S1和S2;② 令集合S1和S2中較小的一個作為條件集合C;③計算條件互信息v=I(n1,n2|c),如果vε,則返回分離;否則,如果C只包含一個結點,那么轉去步驟⑤,否則,對每一個i,令Ci=c{C中的第i個結點},vi=I(n1,n2|Ci);④如果vminε,則返回分離,否則返回步驟③;⑤如果S2沒有用過,那么用S2作為條件集C,返回步驟③;否則,返回失敗。⑥如果這對結點在當前圖中能夠被分離,則檢測下一對結點,否則,向網(wǎng)中添加連接這對結點的邊。
(3)對每一條圖中存在邊的結點對,如果除這條邊外它們之間還存在其他路徑,那么暫時從圖中移掉這條邊,然后對這對結點進行步驟①~⑥的檢驗;如果這對結點不能被分離,則仍將前面移掉的邊加入圖中,否則永久移除這條邊;
(4)用碰撞識別V結構的方法定向網(wǎng)絡中的邊,對不能構成V結構的邊用打分的方法對其進行定向。


4 實驗
用IRIS實際數(shù)據(jù)、Zoo Data、Glass Identification Data作為網(wǎng)絡學習的數(shù)據(jù)集,這3組數(shù)據(jù)是UCI數(shù)據(jù)集中3個用于分類的數(shù)據(jù)集。
其中IRIS數(shù)據(jù)和Glass Identification Data是連續(xù)的,所以在用數(shù)據(jù)學習貝葉斯網(wǎng)絡前需要對數(shù)據(jù)進行模糊離散化處理。以下實驗中的每個屬性的離散化標度是任意選擇的。實驗1,比較經(jīng)PCA降維的數(shù)據(jù)構造貝葉斯網(wǎng)絡并進行分類的結果與未經(jīng)PCA降維的數(shù)據(jù)分類結果的準確率,如表1所示。

用經(jīng)PCA降維的數(shù)據(jù)和未經(jīng)降維的數(shù)據(jù)集分別進行貝葉斯網(wǎng)絡結構的學習,所用時間如表2所示。

對所用的貝葉斯網(wǎng)絡學習算法進行CI測試,最壞情況下的時間復雜度為O(N4)。由表2可知,采用PCA降維后,算法所用時間約占原構造算法時間的34.58%,貝葉斯網(wǎng)絡結構的學習效率有所提高。
經(jīng)PCA降維,IRIS數(shù)據(jù)集的屬性由4個減少為3個;ZooData的屬性由18個減少到12個;Glass Identification Data的屬性由11個減少為8個。屬性數(shù)量的減少使得網(wǎng)絡結構更為簡單,并且由表2可以看出,經(jīng)PCA降維后進行分類的結果準確率不低于不經(jīng)過降維直接由數(shù)據(jù)集學習得到的貝葉斯網(wǎng)絡分類結果的準確率。
經(jīng)PCA降維后的網(wǎng)絡結構如圖1~圖3所示。

用圖1中的結點V4、圖2中的結點F13及圖3中的結點F8是類別標簽結點,其余結點為原數(shù)據(jù)結點的線性變換,無實際意義。實驗2用經(jīng)過PCA降維后數(shù)據(jù)構造的貝葉斯網(wǎng)絡器(BN)與樸素貝葉斯(NB)分類器、TAN分類器分類對以上3組數(shù)據(jù)進行分類。分類準確率的比較如表3所示。

由實驗1可知,使用PCA降維后構造的貝葉斯網(wǎng)絡與未使用降維數(shù)據(jù)學習得到的網(wǎng)絡分類結果正確率相差不大,而這樣構造的網(wǎng)絡分類結果比其他分類器正確率高很多,同時使用降維后數(shù)據(jù)構造的網(wǎng)絡還具有結點少、結構簡單、學習效率高等優(yōu)點。

5 結束語
基于貝葉斯網(wǎng)絡結構學習中依賴分析方法需進行指數(shù)級的CI測試因而存在結點集較大時計算效率低的缺點,提出了將數(shù)據(jù)集先經(jīng)過PCA主元分析的方法降維。減少結點數(shù),再用降維后的數(shù)據(jù)進行貝葉斯網(wǎng)絡結構學習的方法,提高了網(wǎng)絡結構學習的效率,并通過提高學習到的網(wǎng)絡結構的正確性保證了較好的分類結果。此外。構建的網(wǎng)絡還具有結點少、結構簡單的特點,減少了網(wǎng)絡的復雜性。



評論


相關推薦

技術專區(qū)

關閉