基奇PCA的貝葉斯網(wǎng)絡(luò)分糞器研究
對(duì)所用的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)算法進(jìn)行CI測(cè)試,最壞情況下的時(shí)間復(fù)雜度為O(N4)。由表2可知,采用PCA降維后,算法所用時(shí)間約占原構(gòu)造算法時(shí)間的34.58%,貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)效率有所提高。
經(jīng)PCA降維,IRIS數(shù)據(jù)集的屬性由4個(gè)減少為3個(gè);ZooData的屬性由18個(gè)減少到12個(gè);Glass Identification Data的屬性由11個(gè)減少為8個(gè)。屬性數(shù)量的減少使得網(wǎng)絡(luò)結(jié)構(gòu)更為簡(jiǎn)單,并且由表2可以看出,經(jīng)PCA降維后進(jìn)行分類(lèi)的結(jié)果準(zhǔn)確率不低于不經(jīng)過(guò)降維直接由數(shù)據(jù)集學(xué)習(xí)得到的貝葉斯網(wǎng)絡(luò)分類(lèi)結(jié)果的準(zhǔn)確率。
經(jīng)PCA降維后的網(wǎng)絡(luò)結(jié)構(gòu)如圖1~圖3所示。
用圖1中的結(jié)點(diǎn)V4、圖2中的結(jié)點(diǎn)F13及圖3中的結(jié)點(diǎn)F8是類(lèi)別標(biāo)簽結(jié)點(diǎn),其余結(jié)點(diǎn)為原數(shù)據(jù)結(jié)點(diǎn)的線性變換,無(wú)實(shí)際意義。實(shí)驗(yàn)2用經(jīng)過(guò)PCA降維后數(shù)據(jù)構(gòu)造的貝葉斯網(wǎng)絡(luò)器(BN)與樸素貝葉斯(NB)分類(lèi)器、TAN分類(lèi)器分類(lèi)對(duì)以上3組數(shù)據(jù)進(jìn)行分類(lèi)。分類(lèi)準(zhǔn)確率的比較如表3所示。
由實(shí)驗(yàn)1可知,使用PCA降維后構(gòu)造的貝葉斯網(wǎng)絡(luò)與未使用降維數(shù)據(jù)學(xué)習(xí)得到的網(wǎng)絡(luò)分類(lèi)結(jié)果正確率相差不大,而這樣構(gòu)造的網(wǎng)絡(luò)分類(lèi)結(jié)果比其他分類(lèi)器正確率高很多,同時(shí)使用降維后數(shù)據(jù)構(gòu)造的網(wǎng)絡(luò)還具有結(jié)點(diǎn)少、結(jié)構(gòu)簡(jiǎn)單、學(xué)習(xí)效率高等優(yōu)點(diǎn)。
5 結(jié)束語(yǔ)
基于貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)中依賴分析方法需進(jìn)行指數(shù)級(jí)的CI測(cè)試因而存在結(jié)點(diǎn)集較大時(shí)計(jì)算效率低的缺點(diǎn),提出了將數(shù)據(jù)集先經(jīng)過(guò)PCA主元分析的方法降維。減少結(jié)點(diǎn)數(shù),再用降維后的數(shù)據(jù)進(jìn)行貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的方法,提高了網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的效率,并通過(guò)提高學(xué)習(xí)到的網(wǎng)絡(luò)結(jié)構(gòu)的正確性保證了較好的分類(lèi)結(jié)果。此外。構(gòu)建的網(wǎng)絡(luò)還具有結(jié)點(diǎn)少、結(jié)構(gòu)簡(jiǎn)單的特點(diǎn),減少了網(wǎng)絡(luò)的復(fù)雜性。
評(píng)論