新聞中心

EEPW首頁 > 手機與無線通信 > 設計應用 > 基于改進平衡Winnow算法的短信過濾系統(tǒng)

基于改進平衡Winnow算法的短信過濾系統(tǒng)

作者: 時間:2011-01-20 來源:網(wǎng)絡 收藏


3 系統(tǒng)反饋

Winnow 是一種在線學習的、以錯誤為的分類器, 適于結合增量式學習來解決自適應問題, 實現(xiàn)用戶的個性化要求。平衡Winnow 算法是基本W(wǎng)innow 算法的另外一種形式, 同樣具有在線更新能力。在分類器訓練過程中, 對錯分的短信通過α 和β 更新類別權重向量,實現(xiàn)對分類器的更新, 平衡Winnow 算法中w+和w-的雙向調(diào)節(jié), 使算法的訓練速度更快, 適合于對分類實時性要求較高的短信過濾系統(tǒng)。

4 實驗資源及分析與*價

本文在自建短信語料庫的基礎上完成對比實驗, 其中正常短信1 892 條, 垃圾短信270 條, 將短信語料庫隨機分成5 等份, 其中4 份用于訓練樣本,1 份作為測試樣本。

4.1 *價指標

分類系統(tǒng)*價指標如下, 包括兩類短信各自的準確率(precision) 和召回率(recall) , 由于系統(tǒng)目標是垃圾短信過濾, 于是增加了針對垃圾短信的綜合*價指標(F1):

F1=(2×準確率×召回率)/( 準確率+召回率)。

4.2 實驗結果分析

(1) 實驗1: 探討改進的特征權重計算方法對實驗結果的影響。實驗結果如表1 所示。

表1 特征權重計算方法對實驗結果的影響。


其中測試樣本中正常短信被誤分為垃圾短信條數(shù)為22 條, 正常短信召回率為94.2%; 垃圾短信被誤分為正常短信8 條, 準確率僅為67.7%。

(2) 實驗2: 統(tǒng)一參數(shù)和取固定的閾值θ 之后對實驗結果的影響。該實驗中?。?alpha;=1.5 、β=1/1.5 、θ=15 。實驗結果如表2 所示。

表2 選定參數(shù)對實驗結果的影響


其中測試樣本中正常短信被誤分為垃圾短信條數(shù)為18 條, 正常短信召回率為96.1%; 而測試用的垃圾短信正確識別了44 條, 準確率為71.0%。由此可見, 參數(shù)對實驗結果的影響不大。

(3) 實驗3: 去除野點對實驗結果的影響。實驗結果如表3 所示。

表3 去除野點對實驗結果的影響。


從實驗結果分析, 僅有12 條正常短信和8 條垃圾短信被錯誤分類。通過去除野點, 發(fā)現(xiàn)不僅緩減了抖動現(xiàn)象, 而且提高了分類器的分類性能及正常短信的召回率。

Balanced Winnow 在訓練速度和分類速度上具有較大優(yōu)勢, 所以具有更高的實用價值, 非常適合短信過濾的要求。另外,Winnow 作為一種在線學習方法, 在訓練集合不斷擴大的情況下能夠快速對分類器進行更新。正是基于Winnow 不斷學習、不斷調(diào)整的機制, 使其非常適合用戶自己定制需要的分類標準。隨著用戶不斷地反饋調(diào)整,整個系統(tǒng)會表現(xiàn)出越來越好的效果。

本文引用地址:http://butianyuan.cn/article/156764.htm

上一頁 1 2 3 下一頁

關鍵詞: 驅(qū)動

評論


相關推薦

技術專區(qū)

關閉