主題搜索引擎的探究
搜索引擎是本上世紀90年代興起的信息檢索技術,經(jīng)過十多年的發(fā)展,它已經(jīng)滲透到了人們生活的各個領域。然而,傳統(tǒng)的搜索引擎,也即通用搜索引擎,考慮了所有人的需求,即不管用戶是希望找計算機論文方面的信息還是要找籃球運動的信息都一致對待,這樣的搜索引擎需要耗費巨大的資源而速度較慢。并且,由于通用搜索引擎所面向的領域太廣泛,某些利于用戶提高檢索精度和查全率的技術,比如自動分類,在其中的應用效果不理想。
本文引用地址:http://butianyuan.cn/article/148952.htm在Lucene API的基礎上開發(fā)面向主題的搜索引擎[1]是一種有效、低成本的選擇,因為Lucene全文數(shù)據(jù)庫采用倒排文件索引技術[2],所以查詢速度優(yōu)于關系型數(shù)據(jù)庫,而且可以免費下載?;贚ucene的優(yōu)勢已有很多企業(yè)將其應用到自己的搜索引擎中,如Eclipse開發(fā)環(huán)境的內部搜索引擎就是用Lucene構建的。但由于Lucene自帶的中文分詞只能將中文切成單字不能實現(xiàn)詞語的切分,因此,符合需求的中文分詞器有待人們去開發(fā),并將其加入中文分詞模塊來實現(xiàn)更高效的檢索。
1 全文檢索引擎Lucene
1.1 Lucene簡介
Lucene是apache軟件基金會4jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包,即它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。Lucene的目的是為軟件開發(fā)人員提供一個簡單易用的工具包,以方便的在目標系統(tǒng)中實現(xiàn)全文檢索的功能,或者是以此為基礎建立起完整的全文檢索引擎。
Lucene是一個高性能、可伸縮的信息搜索(IR)庫。它使你可以為你的應用程序添加索引和搜索能力。Lucene是用java實現(xiàn)的成熟的、免費的開源項目,是著名的ApacheJakarta大家庭的一員,并且基于在Apache軟件許可[ASF,License].同樣,Lucene是當前與近幾年內非常流行的免費的Java信息搜索(IR)庫。
1.2 Lucene系統(tǒng)結構
Lucene系統(tǒng)結構[2]如圖1所示。從圖1中可以看到,Lucene的系統(tǒng)由基礎結構封裝、索引核心、對外接口三大部分組成。其中,直接操作索引文件的索引核心又是系統(tǒng)的重點。Lucene將所有源碼分為7個模塊(在Java語言中以包來表示),各個模塊所表示的系統(tǒng)部分見圖1.需要說明的是:org.apache.lucene.queryPaser是org.apache.lucene.search的語法解析器,不被系統(tǒng)之外實際調用,因此沒有當作對外接口看待。從面向對象的觀點來考慮,Lucene應用了最基本的一條程序設計準則:引入額外的抽象層以降低耦合性。首先,引入對索引文件的操作org.apache.lucene.STore的封裝,然后將索引部分的實現(xiàn)建立在org.apache.lucene.index之上,完成對索引核心的抽象。在索引核心的基礎上開始設計對外的接口org.apache.lucene.search及org.apache.lucene.analysis.
Lucene秉承了開放源代碼一貫的架構優(yōu)良的優(yōu)勢,設計了一個合理而極具擴充能力的面向對象架構,程序員可以在Lucene的基礎上擴充各種功能,比如擴充中文處理能力,從文本擴充到HTML、PDF等等文本格式的處理,編寫這些擴展的功能不僅僅不復雜,而且由于Lucene恰當合理的對系統(tǒng)設備做了程序上的抽象,擴展的功能也能輕易的達到跨平臺的能力。
1.3 Lucene程序運行機制
Lucene系統(tǒng)功能強大,實現(xiàn)復雜,但從根本上主要包括2個主要功能:(1)建立索引庫[4],也就是將待索引的純文本內容經(jīng)切分詞后索引入庫;(2)檢索索引庫,即根據(jù)查詢條件從索引庫中找出符合條件的文檔。
在研究建立索引庫時首先要知道如圖2所示的Lucene索引機制的架構。
從圖2可以看出,Lucene索引過程分為3個主要操作階段:將數(shù)據(jù)轉換成文本;分析文本;將分析過的文本保存到索引庫中。首先,Lucene使用各種解析器對各種不同類型的文檔進行解析,如對于HTML文檔,HTML解析器會做一些預處理的工作,過濾文檔中的HTML標簽等,然后輸出文本內容,接著Lucene的分詞器從文本內容中提取出索引項以及相關信息。
檢索索引庫的運行邏輯如下:
(1)輸入查詢條件,如用戶希望查詢到含有詞編程和入門但不含詞Java的記錄,則輸入條件為編程+入門-Java;查詢條件輸入搜索器(lucene.search),搜索器里有1個查詢解析器(lucene.queryParser),搜索器調用這個查詢解析器來解析查詢條件。
(2)查詢條件編程+入門-Java被傳送到查詢解析器中,解析器將對編程+入門-Java進行分析,首先分析器解析字符串的連接符,即加號和減號,然后調用語言解析器(lucene.analysis)對每個詞進行切詞,一般英文將按空格來切詞,最后得到的查詢條件表示為:編程AND入門AND NOTJava.
(3)查詢器根據(jù)查詢條件檢索事先已建立好的索引庫,得到查詢結果,并返回結果集lucene.search.Hits,Hits類似于JDBC中的ResultSet.
2 中文分詞
因為Lucene提供的兩個中文分析器(ChineseAnalyzer和CJKAnalyzer)只能將中文切成單漢字,這對于絕大多數(shù)中文用戶來說很不方便,因此有必要開發(fā)適合自己的中文分析器。本系統(tǒng)基于字符串匹配的分詞技術實現(xiàn)了一個中文分詞器。它是按照一定的策略將待分析的漢字串與1個充分大的詞庫中的詞條進行匹配。若在詞庫中找到某個字符串則匹配成功(識別出1個詞)。按照掃描方向的不同,串匹配分詞方法[5]可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配。本研究使用的方式是采用基于字典的雙向匹配算法,即需要進行正向和逆向2次匹配。傳統(tǒng)的方法都是先進行1次正向匹配,然后再進行逆向匹配,每次只有1個方向在進行匹配,而另1個方向的匹配過程需要第1個結束后才開始。本文的設計方法是把多線程技術引入到中文分詞程序當中[6].因此可以在正向匹配時,同時并發(fā)地執(zhí)行逆向匹配,提高了運行速度和執(zhí)行效率。以下為正向匹配和逆向匹配都將調用的核心程序:
載入處理完的文本,以字符數(shù)組的形式存儲起來。建立2個方法:(1)查找在文本中出現(xiàn)的詞,并且返回詞的長度;(2)用來統(tǒng)計詞出現(xiàn)的次數(shù)和控制程序進度。
方法1:public int zhaoCi(char[] ch,int juli,TreeMap[] tmp)。
評論