基于MAS的個(gè)性化信息檢索系統(tǒng)的設(shè)計(jì)
1 引 言
本文引用地址:http://www.butianyuan.cn/article/88705.htmWeb信息的迅速增長造成信息過載,用戶查找信息需借助搜索引擎,而搜索引擎提供的服務(wù)卻難以令人滿意。一方面由于用戶和系統(tǒng)的交互性差,用戶清楚自己的信息需求特征卻無法描述,另一方面由于搜索引擎自身特性,無法過濾與用戶無關(guān)的文檔。
本文希望采用網(wǎng)絡(luò)智能思想,通過多智能代理技術(shù),結(jié)合用戶的基本信息和動(dòng)態(tài)信息建立用戶模型和用戶群模型,運(yùn)用信息檢索和數(shù)據(jù)挖掘技術(shù),建立了一個(gè)個(gè)性化信息檢索模型。結(jié)合智能體的思想,通過某種方式完成信息查找、過濾和調(diào)整。使得系統(tǒng)具有靈活性、智能性和擴(kuò)充性。
2 Agent技術(shù)
Agent是一個(gè)實(shí)體,具有一定的知識,并能夠針對特定目標(biāo)有效地運(yùn)用知識求解問題,具有自主性、交互性、適應(yīng)性、進(jìn)化性、可通信性、理性等特性。每個(gè)Agent會(huì)觀察用戶的動(dòng)作,主動(dòng)提供處理環(huán)境所需技術(shù),根據(jù)用戶反饋不斷更新檢索結(jié)果,為實(shí)現(xiàn)Web信息檢索智能化提供了有力支持。
多Agent是指具有不同目標(biāo)的多個(gè)Agent對其目標(biāo)、資源等進(jìn)行合理的安排,以協(xié)調(diào)各自行為,最大程度地實(shí)現(xiàn)各自的目標(biāo),它由多個(gè)Agent組成,每個(gè)Agent又是一個(gè)自治計(jì)算實(shí)體,具有目標(biāo)、知識、能力。多Agent適應(yīng)個(gè)性化信息檢索處理環(huán)境所需的靈活性的特點(diǎn),可以在Web上建立能夠完成相應(yīng)功能的Agent,通過學(xué)習(xí)不斷適應(yīng)調(diào)整并通過交互相互通信合作,協(xié)助用戶準(zhǔn)確、有效地獲取信息。
智能代理技術(shù),主要是指具有智能性,可支持高級、復(fù)雜自動(dòng)處理代理軟件技術(shù),并能夠按照設(shè)計(jì)者指示要求獨(dú)立收集信息并在再次過程中自我學(xué)習(xí),具有自動(dòng)性,目標(biāo)驅(qū)動(dòng)性。連續(xù)性和能動(dòng)性等特點(diǎn),可以在較高的程度上去分辨識別、理解與應(yīng)用其用戶的需求及其特征。智能代理技術(shù)為Internet上自動(dòng)的信息收集提供框架。基于此功能特性,通過對相關(guān)應(yīng)用和系統(tǒng)的分析,提出了一個(gè)基于MAS的實(shí)現(xiàn)框架。
個(gè)性化信息檢索是指根據(jù)用戶的興趣和特點(diǎn)進(jìn)行檢索,返回與用戶需求相關(guān)的檢索結(jié)果。一般檢索過程:首先用戶輸入查詢請求,然后搜索引擎搜索文檔,并將搜索結(jié)果返回給用戶,最后用戶查看相關(guān)文檔或者修改查詢請求。查看相關(guān)文檔或者修改耷誨請求是用戶對檢索信息的反饋,能夠反映用戶信息需隸及其變化。通過反饋信息,實(shí)現(xiàn)用戶個(gè)人Agent和用戶群Agent的模型更新,完成個(gè)性化過濾和協(xié)作式推薦2部分功能,因此用戶個(gè)人Agent和用戶群Agent是系統(tǒng)的核心。圖1表示該個(gè)性化信息檢索模型框架結(jié)構(gòu)。
下面對用戶個(gè)人Agent、用戶群Agent、推薦Agent、過濾Agent功能模塊在實(shí)現(xiàn)機(jī)制上進(jìn)行分析說明。
2.1 用戶個(gè)人Agent
用戶模型的表示采用向量空間模型的方法,將用戶模型表示成一個(gè)n維特征向量:
向量的每一維由一個(gè)關(guān)鍵詞及其權(quán)重組成。權(quán)重表示用戶是否對某個(gè)概念感興趣以及感興趣的程度,文檔模型表示成為一個(gè)n維特征向量:
向量的每一維由一個(gè)關(guān)鍵字及其權(quán)重組成。ti表示文檔中的關(guān)鍵字j,wji表示關(guān)鍵字j在文檔i中的權(quán)重。這種方法有利于表達(dá)概念在不同用戶模型中的重要程度,而且有利于后續(xù)階段匹配任務(wù)。用戶模型的更新采用動(dòng)態(tài)信息增補(bǔ)技術(shù),動(dòng)態(tài)信息增補(bǔ)對反饋過濾的信息加入到用戶模型后調(diào)整各向量的權(quán)重,與用戶無關(guān)的特征向量隨著權(quán)值的減小從模型中被刪除。
2.2 用戶群Agent
用戶群Agent的建立采用聚類技術(shù)。聚類是將具有相同特征的項(xiàng)目和用戶分類,用于建立用戶綜合模型。該聚類為個(gè)體和類之間的聚類而不是個(gè)體之間的聚類。用戶模型表示成1個(gè)n維特征向量:ui={(t1,w1),(t2,w2),…,(tn,wn)},用余弦公式計(jì)算用戶和類的相關(guān)度。用戶聚類采用關(guān)鍵詞匹配法,根據(jù)需要設(shè)定閥值ε,當(dāng)用戶和類之間相似度大于ε時(shí),說明用戶屬于該類,興趣相同。用戶群Agent更新算法為用戶群模型的更新為追蹤推薦模型中符合要求的關(guān)聯(lián)文檔點(diǎn)擊次數(shù),隨著點(diǎn)擊次數(shù)的增加,推薦用戶的個(gè)人Agent的權(quán)重增加。
2.3 查詢Agent
查詢Agent一方面負(fù)責(zé)用戶Agent查詢引導(dǎo),另一方面接受用戶群Agent的查詢擴(kuò)展。
用戶個(gè)人Agent查詢引導(dǎo),將用戶特征模型的向量根據(jù)反饋信息提取用戶查詢結(jié)果的有關(guān)信息和無關(guān)信息,將其特征向量加入模型作為調(diào)節(jié)因子,其調(diào)節(jié)因子為布爾值,表示用戶是否感興趣,從而引導(dǎo)用戶查詢,修改查詢中的關(guān)鍵詞的權(quán)重。
用戶群Agent的查詢擴(kuò)展,用戶個(gè)人Agent記錄用戶資源列表,在用戶聚類基礎(chǔ)上查詢,查詢資源聚類形成類資源,將類名表給用戶反饋過濾得到相關(guān)類名表,查詢Agent根據(jù)相關(guān)類名表,更新查詢特征向量,進(jìn)行擴(kuò)展查詢,查看點(diǎn)擊興趣Agent的資源列表。
2.4 過濾Agent
用戶模型和過濾文本的匹配包括2方面:用戶個(gè)人Agent過濾和用戶群Agent過濾。用戶個(gè)人Agent使用關(guān)鍵詞匹配法,使用tf-idf計(jì)算權(quán)重值,然后用余弦公式計(jì)算內(nèi)容相關(guān)度。根據(jù)需要設(shè)定閥值ε,當(dāng)文檔d和主題q之間相似度大于ε時(shí),說明內(nèi)容符合主題,是用戶需要的文檔。
用戶群Agent過濾采用基于用戶一項(xiàng)目評價(jià)矩陣的表示法。用一個(gè)Rm×n矩陣來表示用戶模型。其中m為系統(tǒng)用戶數(shù);n為項(xiàng)目數(shù)。矩陣中的每個(gè)元素rij表示了用戶i對項(xiàng)目j的評價(jià),一般是某個(gè)實(shí)數(shù)范圍內(nèi)的整數(shù)值。通常值越大,表示用戶對相應(yīng)項(xiàng)目的偏好程度越高??赵刂当硎居脩魶]有對相應(yīng)的項(xiàng)目做出評價(jià)。采用這種表示方法的系統(tǒng)多是基于協(xié)同過濾的推薦系統(tǒng)。這種表示方法簡單、直觀,不需要任何學(xué)習(xí)技術(shù)就能夠從收集的原始數(shù)據(jù)(顯性的用戶評價(jià)數(shù)據(jù))中直接生成。
2.5 推薦Agent
推薦Agent主要負(fù)責(zé)推薦關(guān)聯(lián)文檔,并更新用戶群Agent模型。查詢一個(gè)n維特征向量{(t1,w1),(t2,w2),…,(tn,wn)},文檔模型為一個(gè)n維特征向量:di={,……},推薦模型中個(gè)人模型為M={d1,d2,…,dm),則推薦模型中關(guān)鍵詞在推薦群中單個(gè)用戶的權(quán)值為:
根據(jù)權(quán)值推薦匯集集合排序,并將和用戶有較高相關(guān)度的前N個(gè)文檔呈現(xiàn)給用戶。
3 系統(tǒng)功能流程分析
該系統(tǒng)的個(gè)性化信息搜索分為個(gè)性化過濾是通過建立用戶個(gè)人Agent進(jìn)行過濾,而協(xié)作式推薦通過建立用戶群Agent進(jìn)行推薦。
個(gè)性化過濾過程 個(gè)性化過濾流程如圖2所示,首先通信Agent將反饋信息發(fā)送給用戶監(jiān)控Agent,用戶監(jiān)控Agent抽取反饋信息中的行為信息,然后結(jié)合用戶注冊Agent的基本信息和用戶監(jiān)控Agent的顯性信息,用戶個(gè)人Agent用向量空間模型法提取特征建立模型,最后過濾Agent用關(guān)鍵詞匹配方法將個(gè)人特征向量和搜索文檔進(jìn)行匹配過濾得到個(gè)性化查詢結(jié)果。
協(xié)作式推薦過程 協(xié)作式推薦流程如圖2所示,首先在用戶聚類的基礎(chǔ)上,查詢特征向量發(fā)布到類中各個(gè)成員、各個(gè)成員查詢資源列表;將查詢資源匯集,然后聚類資源,形成類資源;將類名表發(fā)送給用戶,反饋相關(guān)類名;最后在類資源中提取相關(guān)類資源,經(jīng)過推薦過濾,形成查看資源。過程如圖3所示:
4 模型特點(diǎn)
(1)該模型采用多智能體技術(shù),使得各個(gè)部分自主學(xué)習(xí)、相互協(xié)調(diào);使得個(gè)性化信息檢索中的數(shù)據(jù)收集,模型表示、模型的學(xué)習(xí)和模型的更新中功能能夠由其中多個(gè)Agent更好地協(xié)調(diào)補(bǔ)充完成,使各個(gè)過程具有智能化特點(diǎn)。
(2)充分挖掘用戶的信息需求,用戶注冊Agent主要負(fù)責(zé)顯性信息的獲得處理,記錄用戶的基本信息和用戶資源列表、用戶直接參與、簡單直接。用戶監(jiān)控Agent主要負(fù)責(zé)隱性信息獲得處理,記錄用戶的動(dòng)態(tài)信息,在不影響用戶活動(dòng)的前提下動(dòng)態(tài)實(shí)時(shí)獲得最新信息。
(3)采用C/S框架結(jié)構(gòu),通信模塊介于之間,負(fù)責(zé)信息交互,個(gè)人用戶建模在客戶端代理執(zhí)行,可以保護(hù)用戶的隱私,用戶聚類與合作在服務(wù)器端代理實(shí)現(xiàn),可以在充分保護(hù)個(gè)人隱私的前提下,實(shí)現(xiàn)信息資源共享,提高Web信息的覆蓋率。
(4)建模技術(shù)的使用,一方面利用個(gè)人模型引導(dǎo)用戶提問,過濾檢索結(jié)果,使檢索更符合個(gè)性化要求;另一方面充分利用群用戶的信息,在合作的基礎(chǔ)上,得到和用戶請求相關(guān)的推薦結(jié)果,查詢擴(kuò)展,實(shí)現(xiàn)資源共享。
5 結(jié) 語
該個(gè)性化信息檢索模型提出多智能體的框架結(jié)構(gòu),運(yùn)用用戶建模和群建模技術(shù),使兩者相互結(jié)合,相互補(bǔ)充,既注重用戶的個(gè)性,過濾無關(guān)內(nèi)容,又發(fā)揮合作作用,共享相關(guān)內(nèi)容,實(shí)現(xiàn)了信息檢索的個(gè)性化、智能化。
評論