基奇PCA的貝葉斯網(wǎng)絡(luò)分糞器研究
令x為表示環(huán)境的m維隨機(jī)向量。假設(shè)x均值為零,即本文引用地址:http://butianyuan.cn/article/157806.htm
E[x]=0 (4)
令w表示m維單位向量,x在ω上投影。該投影被定義為向量x和ω的內(nèi)積,表示為:
主元分析的目的就是尋找一個(gè)權(quán)值向量w,使得表達(dá)式的值最大化:
即使得式(7)值最大化的w是矩陣的最大特征值所對(duì)應(yīng)的特征向量。
鑒于主元分析的優(yōu)點(diǎn),這里引入主元分析技術(shù)給數(shù)據(jù)集降維,然后用降維后的數(shù)據(jù)構(gòu)建網(wǎng)絡(luò),提高學(xué)習(xí)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)算法的效率、簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)。構(gòu)造貝葉斯網(wǎng)絡(luò)的算法步驟如下:
(1)用普瑞姆算法生成最大似然樹構(gòu)造初始貝葉斯網(wǎng)絡(luò);
(2)對(duì)所有互信息大于閾值且在當(dāng)前圖中無邊的結(jié)點(diǎn)對(duì)n1、n2:①找出它們鄰接路徑上的鄰居結(jié)點(diǎn),設(shè)n1、n2的鄰居結(jié)點(diǎn)的結(jié)點(diǎn)集分別為S1和S2;② 令集合S1和S2中較小的一個(gè)作為條件集合C;③計(jì)算條件互信息v=I(n1,n2|c),如果vε,則返回分離;否則,如果C只包含一個(gè)結(jié)點(diǎn),那么轉(zhuǎn)去步驟⑤,否則,對(duì)每一個(gè)i,令Ci=c{C中的第i個(gè)結(jié)點(diǎn)},vi=I(n1,n2|Ci);④如果vminε,則返回分離,否則返回步驟③;⑤如果S2沒有用過,那么用S2作為條件集C,返回步驟③;否則,返回失敗。⑥如果這對(duì)結(jié)點(diǎn)在當(dāng)前圖中能夠被分離,則檢測(cè)下一對(duì)結(jié)點(diǎn),否則,向網(wǎng)中添加連接這對(duì)結(jié)點(diǎn)的邊。
(3)對(duì)每一條圖中存在邊的結(jié)點(diǎn)對(duì),如果除這條邊外它們之間還存在其他路徑,那么暫時(shí)從圖中移掉這條邊,然后對(duì)這對(duì)結(jié)點(diǎn)進(jìn)行步驟①~⑥的檢驗(yàn);如果這對(duì)結(jié)點(diǎn)不能被分離,則仍將前面移掉的邊加入圖中,否則永久移除這條邊;
(4)用碰撞識(shí)別V結(jié)構(gòu)的方法定向網(wǎng)絡(luò)中的邊,對(duì)不能構(gòu)成V結(jié)構(gòu)的邊用打分的方法對(duì)其進(jìn)行定向。
4 實(shí)驗(yàn)
用IRIS實(shí)際數(shù)據(jù)、Zoo Data、Glass Identification Data作為網(wǎng)絡(luò)學(xué)習(xí)的數(shù)據(jù)集,這3組數(shù)據(jù)是UCI數(shù)據(jù)集中3個(gè)用于分類的數(shù)據(jù)集。
其中IRIS數(shù)據(jù)和Glass Identification Data是連續(xù)的,所以在用數(shù)據(jù)學(xué)習(xí)貝葉斯網(wǎng)絡(luò)前需要對(duì)數(shù)據(jù)進(jìn)行模糊離散化處理。以下實(shí)驗(yàn)中的每個(gè)屬性的離散化標(biāo)度是任意選擇的。實(shí)驗(yàn)1,比較經(jīng)PCA降維的數(shù)據(jù)構(gòu)造貝葉斯網(wǎng)絡(luò)并進(jìn)行分類的結(jié)果與未經(jīng)PCA降維的數(shù)據(jù)分類結(jié)果的準(zhǔn)確率,如表1所示。
用經(jīng)PCA降維的數(shù)據(jù)和未經(jīng)降維的數(shù)據(jù)集分別進(jìn)行貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí),所用時(shí)間如表2所示。
評(píng)論