新聞中心

EEPW首頁 > 手機與無線通信 > 設(shè)計應(yīng)用 > 一種新的基于數(shù)據(jù)挖掘技術(shù)的異常入侵檢測系統(tǒng)研

一種新的基于數(shù)據(jù)挖掘技術(shù)的異常入侵檢測系統(tǒng)研

作者: 時間:2010-10-18 來源:網(wǎng)絡(luò) 收藏

IDS(intrusion detection system)是用戶計算機主動安全防護的一種措施,它用于檢測未經(jīng)用戶授權(quán)直接進行計算機信息訪問的行為,它從系統(tǒng)內(nèi)部和各種網(wǎng)絡(luò)資源中主動采集信息,從中分析可能的。根據(jù)檢測方法,IDS分為和誤用兩大類。誤用檢測系統(tǒng)只能檢測出已知特征模式的攻擊,對未知特征模式的攻擊無法檢測。而檢測系統(tǒng)采用將系統(tǒng)當前的活動與過去行為模型進行比較的方法,能夠有效地對新的、未知的攻擊進行檢測[1-3]。參考文獻[4] 提出了強規(guī)則和弱規(guī)則的關(guān)聯(lián)規(guī)則挖掘方法來檢測異常操作較少和分布時間長等不易的網(wǎng)絡(luò)攻擊。同時建立以各屬性為節(jié)點的貝葉斯網(wǎng)絡(luò)作為異常判別器,進一步判別關(guān)聯(lián)規(guī)則挖掘中發(fā)現(xiàn)的可疑行為,提高了系統(tǒng)檢測的準確率。但是在數(shù)據(jù)訓(xùn)練階段,根據(jù)的要求,需要對原始的無攻擊的純凈數(shù)據(jù)信息進行數(shù)據(jù)預(yù)處理,訓(xùn)練成適合的數(shù)據(jù)記錄,而數(shù)據(jù)信息抓取過程中受到網(wǎng)絡(luò)實時更新等因素的影響無法避免數(shù)據(jù)噪音,進而影響數(shù)據(jù)信息本身的安全性,依此數(shù)據(jù)信息訓(xùn)練的數(shù)據(jù)項集本身也就存在了安全隱患。參考文獻[5]采用變長序列模式匹配算法對程序歷史行為和當前行為進行比較,聯(lián)合使用多個窗長度和判決門限對程序行為進行判決,提高了檢測的準確率和靈活性。但由于網(wǎng)絡(luò)數(shù)據(jù)信息量不斷膨脹,多窗口長度和判決門限會增加計算機的運算量,造成數(shù)據(jù)擁塞,網(wǎng)絡(luò)負載加大。參考文獻[6]提出了一種時態(tài)知識模型和可變滑動窗口的實時模式提取算法,并在此基礎(chǔ)上,實現(xiàn)了規(guī)則的、層次化的智能入侵檢測原型系統(tǒng)。但在匹配算法中需要逐一遍歷,對于復(fù)雜數(shù)據(jù)信息實時性難以體現(xiàn)。參考文獻[7]提出了一種具有自主學(xué)習(xí)、自主完善功能的入侵監(jiān)測模型,可發(fā)現(xiàn)已知和未知的異常入侵活動。但該模型中評估指標不具備完善性,對短時間內(nèi)正常進程記錄監(jiān)管有限,從而更新的規(guī)則庫存在安全隱患?;谝陨蠁栴},本文提出了一種新的基于的異常入侵檢測系統(tǒng)ANEIDSDM(A New Exception Intrusion Detection System based on Data Mining)。
1 ANEIDSDM模型概述
在ANEIDSDM模型中,數(shù)據(jù)信息E是否異常,由數(shù)據(jù)評估W決定。只有當數(shù)據(jù)評估通過數(shù)據(jù)信息異常檢測,滿足相似度、支持度和置信區(qū)閾值時,數(shù)據(jù)信息E才被認為是正常的數(shù)據(jù)信息,否則為異常。
 數(shù)據(jù)信息是分散地存儲于計算機和傳播于網(wǎng)絡(luò)中的,對于數(shù)據(jù)的采集是基于一定條件的,有基于主機的信息采集,也有基于網(wǎng)絡(luò)的信息采集和混合型的數(shù)據(jù)信息采集等[8]。當數(shù)據(jù)信息采集完成后,會經(jīng)過數(shù)據(jù)預(yù)處理,形成數(shù)據(jù)項集S,對S分類產(chǎn)生高頻繁集和低頻繁集。對于高頻繁數(shù)據(jù)項集進行模式分析,形成數(shù)據(jù)模式集O。每一種模式集都對應(yīng)一種數(shù)據(jù)規(guī)則,對數(shù)據(jù)模式集的數(shù)據(jù)分析處理過程就是數(shù)據(jù)挖掘規(guī)則過程,數(shù)據(jù)規(guī)則集Q形成后,為了便于檢測,對其進行分類分析二次數(shù)據(jù)挖掘,形成分類規(guī)則集,最終形成規(guī)則庫K。經(jīng)過多次訓(xùn)練后,數(shù)據(jù)采集的規(guī)則庫具有一定的記憶,當數(shù)據(jù)進行抓取時結(jié)合記憶庫和規(guī)則庫的雙重考核,數(shù)據(jù)信息更加安全可信。
 數(shù)據(jù)挖掘過程中對數(shù)據(jù)項集分析產(chǎn)生的數(shù)據(jù)模式可能有用,也可能是無關(guān)的。所以為了節(jié)約計算機存儲空間和數(shù)據(jù)挖掘速度,采取以某一主屬性為特征屬性的方式對數(shù)據(jù)信息E進行挖掘。當待測數(shù)據(jù)信息E進行攻擊時,啟動檢測系統(tǒng),快速對其數(shù)據(jù)信息進行分析,形成數(shù)據(jù)規(guī)則集V,對規(guī)則集V實行分類匹配,對比相似度,搜索與之相對應(yīng)或相類似的規(guī)則庫對其規(guī)則集進行檢驗。若異常,則實行預(yù)警,否則以正常信息對待。當數(shù)據(jù)信息龐雜時,根據(jù)分類規(guī)則庫,可快捷對數(shù)據(jù)規(guī)則集實行查找匹配,快速對數(shù)據(jù)信息進行檢測。
 數(shù)據(jù)檢測時結(jié)合在線滑動窗口T,不僅對原始獲取數(shù)據(jù)信息進行實時檢測,而且對當前由用戶操作所引起的原始數(shù)據(jù)部分信息丟失、更改等現(xiàn)象具有一定的處理應(yīng)變能力。當數(shù)據(jù)評估W完成后,評估結(jié)果存入決策列表L中,以供用戶決策。
 其思想有以下特點:(1)數(shù)據(jù)信息的采集結(jié)合主屬性產(chǎn)生高頻和低頻數(shù)據(jù)項集,減少了無關(guān)信息的處理過程。(2)采取關(guān)聯(lián)分析和分類分析二次挖掘,數(shù)據(jù)處理速度和數(shù)據(jù)挖掘質(zhì)量有明顯的提高。(3)在線檢測數(shù)據(jù)記錄匹配,實時性更高。(4)引入相似度匹配檢測思想,實現(xiàn)快速數(shù)據(jù)評估。
2 相關(guān)知識與定義
2.1數(shù)據(jù)挖掘

 數(shù)據(jù)挖掘(Data Mining)是指從大量數(shù)據(jù)信息中發(fā)現(xiàn)數(shù)據(jù)間的潛在規(guī)律,進而提取人們感興趣的和有用的知識的方法和,這些知識具有隱含性、未知性、異常性,但又是潛在的對系統(tǒng)安全檢測有用的信息[9]。數(shù)據(jù)挖掘過程一般由三個階段組成:數(shù)據(jù)準備階段(包括數(shù)據(jù)清理與集成、數(shù)據(jù)選擇與變換)、數(shù)據(jù)挖掘階段、評估與表示階段(結(jié)果表達與解釋)。數(shù)據(jù)挖掘的模式有關(guān)聯(lián)模式、分類模式、回歸模式、時間序列模式、聚類模式和序列模式六種[10]。與數(shù)據(jù)挖掘的模式相對應(yīng)的數(shù)據(jù)挖掘算法有:關(guān)聯(lián)分析算法、數(shù)據(jù)分類算法、序列分析算法和聚類分析算法等。目前,應(yīng)用于入侵檢測領(lǐng)域的數(shù)據(jù)挖掘算法主要是關(guān)聯(lián)分析算法、數(shù)據(jù)分類算法和序列分析算法。
(1)數(shù)據(jù)預(yù)處理
 數(shù)據(jù)預(yù)處理模塊處理原始數(shù)據(jù)包,抽取對應(yīng)的主特征屬性組成數(shù)據(jù)信息集,提供給數(shù)據(jù)挖掘模塊。由于數(shù)據(jù)連接過程需要傳送許多數(shù)據(jù)包,而這些數(shù)據(jù)包的基本屬性很多是重復(fù)的,所以對于TCP連接,從連接建立到連接終止過程中所有數(shù)據(jù)包的傳送抽象為一個連接事件,而對每一個連接事件建立一個與之相對應(yīng)的數(shù)據(jù)項集。對無連接的UDP,可簡單地將每一個數(shù)據(jù)包抽象成一個連接事件。
(2)關(guān)聯(lián)規(guī)則挖掘
 關(guān)聯(lián)規(guī)則是指對數(shù)據(jù)項集中各種數(shù)據(jù)模式的有代表性的數(shù)據(jù)之間知識規(guī)律的規(guī)則描述。在入侵檢測系統(tǒng)中,設(shè)定一個最小支持度和一個最小置信度來度量關(guān)聯(lián)規(guī)則的相關(guān)性,從已知的數(shù)據(jù)信息中產(chǎn)生關(guān)聯(lián)規(guī)則,保證其支持度和置信度大于用戶預(yù)先設(shè)定的最小支持度和最小置信度閾值。其過程為:①特征抽取與數(shù)據(jù)預(yù)處理。數(shù)據(jù)信息被采集后形成數(shù)據(jù)項集,每一個數(shù)據(jù)項集以一個主屬性為參考,對無關(guān)數(shù)據(jù)項集進行處理。②關(guān)聯(lián)規(guī)則挖掘分析。對數(shù)據(jù)模式中關(guān)聯(lián)規(guī)則的數(shù)據(jù)進行規(guī)則挖掘。③檢測入侵。將新產(chǎn)生的關(guān)聯(lián)規(guī)則添加到關(guān)聯(lián)規(guī)則庫中去,然后將用戶行為與關(guān)聯(lián)規(guī)則庫中的規(guī)則匹配來判斷是否入侵。常見的算法有Apriori算法和AprioriTid算法。
 (3)頻度分析
 頻度分析是指在一定時間窗口事件發(fā)生的頻度,它有高頻和低頻繁兩種[11]。①高頻挖掘:即數(shù)據(jù)項集的屬性集大于一定支持度和置信度,如DDOS攻擊,在高頻繁挖掘時就能檢測出這類攻擊。②低頻繁挖掘:即數(shù)據(jù)項集的屬性集支持度低于一定閾值而置信度大于一定閾值,如慢掃描過程在單位時間內(nèi)異常掃描較少,假如只檢查高頻數(shù)據(jù)項集,就會漏掉這類模式的攻擊。
 (4)數(shù)據(jù)分類分析
 數(shù)據(jù)分類的目的是提取數(shù)據(jù)庫中數(shù)據(jù)項的特征屬性,生成分類模型,把數(shù)據(jù)庫中的數(shù)據(jù)項映射到預(yù)先定義的類別中的一個,異常入侵檢測時它可以用數(shù)據(jù)規(guī)則集的形式表示[12]。數(shù)據(jù)分類的步驟如下:①訓(xùn)練數(shù)據(jù)項集,將待測數(shù)據(jù)信息訓(xùn)練成數(shù)據(jù)規(guī)則集。②分析數(shù)據(jù)規(guī)則集,提取主特征屬性。③根據(jù)標準數(shù)據(jù)規(guī)則庫中數(shù)據(jù)規(guī)則集對待測數(shù)據(jù)規(guī)則集進行分類。常用的分類算法有RIPPER、m3、C4.5、Near-neighbor和神經(jīng)網(wǎng)絡(luò)等。
2.2 基礎(chǔ)定義
 定義1 滑動窗口。在t時間內(nèi),數(shù)據(jù)匹配檢測的范圍。 設(shè)開始時間為t=nt0,則滑動窗口T的檢測范圍為t=T+nt0。其中,t0為步長,T為窗口大小,t為時間。一般T是固定值[13],為用戶默認,專家可根據(jù)系統(tǒng)安全等級設(shè)置其值大小。
 定義2 相似度。數(shù)據(jù)挖掘規(guī)則庫與系統(tǒng)檢測匹配規(guī)則庫的相似性度量值。

定義3 數(shù)據(jù)評估。對數(shù)據(jù)規(guī)則是否符合系統(tǒng)安全的衡量。
設(shè)數(shù)據(jù)評估為W,則W=[正常,異常],其評估過程為在滑動窗口T內(nèi)對規(guī)則庫Ki的相似匹配和檢測匹配。
2.3 ANEIDSDM定義
本模型由一個10元組{E,S,O,Q,P,K,W,T,M,L}來表示。其中E表示數(shù)據(jù)信息,包含基于網(wǎng)絡(luò)流量,基于主機和混合型的數(shù)據(jù)信息。當獲取數(shù)據(jù)信息E后,對其形成主屬性為采集標準的數(shù)據(jù)項集S,如在時間、方向、端口號、主機IP地址等屬性中,以目的主機IP地址為主屬性,采集的所有數(shù)據(jù)記錄經(jīng)過數(shù)據(jù)去噪、預(yù)處理后形成數(shù)據(jù)項集。數(shù)據(jù)項集S經(jīng)過數(shù)據(jù)模式分析后形成數(shù)據(jù)模式集,用O來表示。每種數(shù)據(jù)模式都對應(yīng)一種數(shù)據(jù)規(guī)則算法,經(jīng)過數(shù)據(jù)挖掘,形成數(shù)據(jù)規(guī)則集,用Q來表示。對數(shù)據(jù)挖掘的規(guī)則集進行分類分析,形成數(shù)據(jù)分類集,用P來表示。數(shù)據(jù)挖掘的結(jié)果最終形成規(guī)則庫K。數(shù)據(jù)挖掘完成后需要對數(shù)據(jù)挖掘結(jié)果進行數(shù)據(jù)評估,用W來表示。在數(shù)據(jù)評估過程中引入滑動窗口T和相似度M,數(shù)據(jù)評估結(jié)束后結(jié)果添加在決策列表L,提供給用戶。用戶響應(yīng)后,規(guī)則庫K自動更新。


上一頁 1 2 3 下一頁

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉