漢語框架網(wǎng)絡(luò)學(xué)習(xí)策略研究
O 引 言
本體學(xué)習(xí)能力對本體構(gòu)建和語義Web的快速發(fā)展及自動問答技術(shù)的發(fā)展,具有非常重要的意義?,F(xiàn)有本體可深層次理解領(lǐng)域知識,但是手工構(gòu)建本體的方式遠(yuǎn)遠(yuǎn)不能滿足語義檢索應(yīng)用的需求。因此,運(yùn)用本體學(xué)習(xí)策略提高本體構(gòu)建的速度成為本體應(yīng)用的關(guān)鍵。以漢語框架網(wǎng)絡(luò)本體知識庫為基礎(chǔ),采用不同的學(xué)習(xí)策略來處理不同特征的實例,抽取其中的語義信息,以便更好實現(xiàn)實例的定位和本體歸類。同時,通過實時監(jiān)控,系統(tǒng)檢查用戶的檢索情況,采用適合用戶特征的輔策略來控制和修正主策略,提高檢索的性能。
l 漢語框架網(wǎng)絡(luò)本體的構(gòu)建
以FrameNet本體為依據(jù),以法律領(lǐng)域為突破口,從語義角度描述法律概念與概念、詞語與詞語間的關(guān)系,形成語義知識網(wǎng)絡(luò),構(gòu)建法律詞匯及其所屬框架的計算機(jī)可讀信息。法律框架網(wǎng)絡(luò)本體中包含豐富的框架關(guān)系、配價模式等語義規(guī)則,機(jī)器可以此來自主地學(xué)習(xí)領(lǐng)域內(nèi)外相關(guān)的概念及屬性,建立概念之間的關(guān)系。通過學(xué)習(xí)可以實現(xiàn)已有的框架與新框架的有效融合,不斷豐富法律框架本體,擴(kuò)大其語義表述能力,提高本體知識庫的歸納、演繹、推理的能力。
2 本體學(xué)習(xí)策略
本體學(xué)習(xí)是一種可以由本體工程師使用,以便更容易地創(chuàng)建本體的方法,是一套用幾種資源以半自動化方式對現(xiàn)存本體進(jìn)行挖掘、豐富或改造來構(gòu)建新本體的方法和技術(shù)。目前,很多本體學(xué)習(xí)方法都以不同類型的無結(jié)構(gòu)的,或半結(jié)構(gòu)的,或充分結(jié)構(gòu)化數(shù)據(jù)來進(jìn)行訓(xùn)練,運(yùn)用聯(lián)想規(guī)則、概念聚類、本體修改、概念學(xué)習(xí)等方法,構(gòu)建一個自動或半自動的、協(xié)同的本體。在漢語框架網(wǎng)絡(luò)中,我們采用了基于本體學(xué)習(xí)的半自動本體構(gòu)建方法,采用多種學(xué)習(xí)策略,綜合構(gòu)建一體化的本體學(xué)習(xí)環(huán)境,加快本體構(gòu)建和本體語料加工的進(jìn)程。此方法能更好的發(fā)現(xiàn)概念間的關(guān)系,更有效地獲得本體信息,是一種比較高效可行的本體構(gòu)建方法。
本體學(xué)習(xí)的過程如圖l所示。首先,對各類語料進(jìn)行處理,其中包括分詞、詞性標(biāo)注、句法依存分析、語義信息的提取。其次,從語料庫中提取領(lǐng)域術(shù)語,使用自然語言處理、學(xué)習(xí)規(guī)則和統(tǒng)計的技術(shù)來過濾這些術(shù)語,然后使用通用本體中的概念對這些術(shù)語進(jìn)行語義解釋,確定術(shù)語的語義類型,形成本體學(xué)習(xí)的結(jié)果。最后,由專家對學(xué)習(xí)結(jié)果評估,從而利用通用本體和核心本體來學(xué)會新領(lǐng)域本體。
2.1 語義信息的抽取
漢語框架網(wǎng)絡(luò)本體的語義信息由框架、語義元素及語義關(guān)系構(gòu)成,而語義關(guān)系包括繼承關(guān)系、總分關(guān)系、使用關(guān)系和參照關(guān)系等。語義關(guān)系是對框架網(wǎng)絡(luò)本體間共同特性的描述,也是兩者的共同關(guān)注焦點,故可借助語義關(guān)系從一個已知框架來學(xué)習(xí)另一個未知框架的語義信息。
構(gòu)建漢語框架網(wǎng)絡(luò)本體時,我們采用一個5元組O:={C,R,HC,rel,AO}來表示框架的語義信息。其中:C表示與該框架發(fā)生關(guān)系的框架集合;R為框架間的關(guān)系的集合;XXXXXXX是一種有向關(guān)系,HC(Cl,C2)表示框架Cl是框架C2的上位框架,其中框架關(guān)系包括繼承關(guān)系和使用關(guān)系;rel:R→C×C是一個函數(shù),亦可表示為R(C1,C2),表示除了繼承關(guān)系和使用關(guān)系外的框架間關(guān)系;AO為框架進(jìn)行本體學(xué)習(xí)和推理的邏輯化、形式化公理,用以約束本體中的語義信息,校驗它的正確性或推導(dǎo)出新的信息。這樣,在上述5元組的基礎(chǔ)上,將學(xué)習(xí)任務(wù)的初始描述、中間狀態(tài)、學(xué)習(xí)到的規(guī)則等都借助例句庫保存起來,從而形成一組基本事實和判定公理。在公理中,我們利用了句法一語義相對應(yīng)的學(xué)習(xí)經(jīng)驗生成一系列規(guī)則,把每一個語法成分同它的框架元素聯(lián)系起來,然后從詞元和框架中找出合適的基本聯(lián)系,此方法對于不可繼承的框架元素的確定具有重要意義。然后,把基本學(xué)習(xí)器組成元學(xué)習(xí)器,元學(xué)習(xí)器分配給每個基本學(xué)習(xí)器一個權(quán)重,來顯示它所信任基本學(xué)習(xí)器在元學(xué)習(xí)器中學(xué)習(xí)能力。然后,由人工對此進(jìn)行確認(rèn)和修正,最終形成完整的框架網(wǎng)絡(luò)本體語義信息。
語義信息抽取時,學(xué)習(xí)器通過給定的學(xué)習(xí)策略不斷地在一組候選框架及例句中挑選最適合的選項加入學(xué)習(xí)器中,這些候選框架及例句被公理和規(guī)則不斷地特殊化(借助大量的反例來篩選候選框架及例句),直到它們符合第一類基本學(xué)習(xí)器的基本條件,然后由第二類學(xué)習(xí)器進(jìn)行語義關(guān)系的學(xué)習(xí)。其中,第一類基本學(xué)習(xí)器利用了每個框架特定的語義信息,來處理框架間的繼承關(guān)系,從上位框架中繼承所有的框架元素。例如,框架“文本”與框架“人造物品”屬于繼承關(guān)系,“人造物品”包含框架元素:創(chuàng)建者、類型、材料、人造物品、創(chuàng)造時間、名稱、使用價值等,以其語義信息作為學(xué)習(xí)的基礎(chǔ),可歸納出“文本”框架應(yīng)包括的框架元素及其它的語義信息。第二類基本學(xué)習(xí)器利用框架間的其它語義關(guān)系,如總分關(guān)系、先與關(guān)系、使用關(guān)系等。比如,框架“犯罪場景”與框架“犯罪”屬于總分關(guān)系?!胺缸铩辈糠掷^承“犯罪場景”的犯罪行為、犯罪人元素,同時增加了時間、地點、動機(jī)等其它元素。這需要學(xué)習(xí)器根據(jù)分框架中主體擔(dān)任的角色不同及情景的差異進(jìn)行總結(jié)而獲得。這樣,通過學(xué)習(xí)器的學(xué)習(xí),就獲得了未知框架網(wǎng)絡(luò)本體遺失的語義特性,再根據(jù)相應(yīng)的判斷公理來學(xué)會了未知框架所代表的語義信息。
2.2 配價模式的學(xué)習(xí)
通過對語義信息的學(xué)習(xí),我們把句子解析成了若干語法要素和語義元素。配價模式學(xué)習(xí)過程中,參照已有的本體及其語義模式(配價模式)等信息,根據(jù)詞性分析、語法分析和句法分析的結(jié)果及所總結(jié)的規(guī)則和統(tǒng)計信息,生成框架的配價模式。
框架配價模式學(xué)習(xí)過程:1)對例句做句法依存分析。2)以句法依存樹中的結(jié)點為目標(biāo)詞,將目標(biāo)詞所有的子樹看作一語義元素,每個子樹包含的所有詞語默認(rèn)為最大短語。3)根據(jù)子樹的根結(jié)點與目標(biāo)的句法依存關(guān)系類型,與已有配價模式匹配,確定子樹在配價模式中充當(dāng)?shù)目蚣茉?,比如,它們之間為動賓關(guān)系,那么子樹就作為“受事”框架元素。若存在使義動詞則子樹所做框架元素為“施事”。最后,如果子樹中存在像并列關(guān)系之類的依存關(guān)系則應(yīng)當(dāng)考慮將其進(jìn)一步細(xì)分為若干框架元素,算法如圖2所示。
評論