基于改進平衡Winnow算法的短信過濾系統(tǒng)

作者：時間：2011-01-20 來源：網(wǎng)絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

3 系統(tǒng)反饋

Winnow 是一種在線學習的、以錯誤為驅(qū)動的分類器，適于結合增量式學習來解決自適應問題，實現(xiàn)用戶的個性化要求。平衡Winnow 算法是基本W(wǎng)innow 算法的另外一種形式，同樣具有在線更新能力。在分類器訓練過程中，對錯分的短信通過α 和β 更新類別權重向量，實現(xiàn)對分類器的更新，平衡Winnow 算法中w+和w-的雙向調(diào)節(jié)，使算法的訓練速度更快，適合于對分類實時性要求較高的短信過濾系統(tǒng)。

4 實驗資源及分析與*價

本文在自建短信語料庫的基礎上完成對比實驗，其中正常短信1 892 條，垃圾短信270 條，將短信語料庫隨機分成5 等份，其中4 份用于訓練樣本，1 份作為測試樣本。

4.1 *價指標

分類系統(tǒng)*價指標如下，包括兩類短信各自的準確率(precision) 和召回率(recall) ，由于系統(tǒng)目標是垃圾短信過濾，于是增加了針對垃圾短信的綜合*價指標(F1):

F1=(2×準確率×召回率)/( 準確率+召回率)。

4.2 實驗結果分析

(1) 實驗1：探討改進的特征權重計算方法對實驗結果的影響。實驗結果如表1 所示。

表1 特征權重計算方法對實驗結果的影響。

其中測試樣本中正常短信被誤分為垃圾短信條數(shù)為22 條，正常短信召回率為94.2%；垃圾短信被誤分為正常短信8 條，準確率僅為67.7%。

(2) 實驗2：統(tǒng)一參數(shù)和取固定的閾值θ 之后對實驗結果的影響。該實驗中?。?alpha;=1.5 、β=1/1.5 、θ=15 。實驗結果如表2 所示。

表2 選定參數(shù)對實驗結果的影響

其中測試樣本中正常短信被誤分為垃圾短信條數(shù)為18 條，正常短信召回率為96.1%；而測試用的垃圾短信正確識別了44 條，準確率為71.0%。由此可見，參數(shù)對實驗結果的影響不大。

(3) 實驗3：去除野點對實驗結果的影響。實驗結果如表3 所示。

表3 去除野點對實驗結果的影響。

從實驗結果分析，僅有12 條正常短信和8 條垃圾短信被錯誤分類。通過去除野點，發(fā)現(xiàn)不僅緩減了抖動現(xiàn)象，而且提高了分類器的分類性能及正常短信的召回率。

Balanced Winnow 在訓練速度和分類速度上具有較大優(yōu)勢，所以具有更高的實用價值，非常適合短信過濾的要求。另外，Winnow 作為一種在線學習方法，在訓練集合不斷擴大的情況下能夠快速對分類器進行更新。正是基于Winnow 不斷學習、不斷調(diào)整的機制，使其非常適合用戶自己定制需要的分類標準。隨著用戶不斷地反饋調(diào)整，整個系統(tǒng)會表現(xiàn)出越來越好的效果。

本文引用地址：http://butianyuan.cn/article/156764.htm

新聞中心

基于改進平衡Winnow算法的短信過濾系統(tǒng)

評論

相關推薦

技術專區(qū)