智能語義理解搜索引擎中漢語虛詞的形態(tài)特征略析
繆天鵬 1 ,韓建軍 1 ,王振江 1
本文引用地址:http://butianyuan.cn/article/201905/401021.htm?。ㄈA中科技大學 計算機科學與技術學院,湖北 武漢 430074)
摘要:語義智能化發(fā)展是大數(shù)據(jù)技術國家重大戰(zhàn)略需求,也是統(tǒng)計學、數(shù)據(jù)科學、信息科學和管理科學等學科的國際前沿。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的規(guī)模、類型、結(jié)構和增長速度發(fā)生了質(zhì)的變化,傳統(tǒng)數(shù)據(jù)分析和處理的統(tǒng)計學理論和分析方法已不能滿足大數(shù)據(jù)時代下的種種需求。本研究擬圍繞大數(shù)據(jù)分析與處理的統(tǒng)計學基礎理論與分析方法的核心問題和難點問題,略析語言大數(shù)據(jù)處理虛詞形態(tài)新方法, 為大數(shù)據(jù)技術發(fā)展和未來智能搜索引擎等應用提供新基礎理論和方法支撐。
關鍵詞: 語義理解;搜索引擎;古漢語;虛詞;形態(tài)特征
* 本文得到國家自然科學基金項目(61872411)資助。
1 認知、互動的智能需求
Internet互聯(lián)網(wǎng)廣泛應用,人們對信息查詢的要求越來越高,目前搜索引擎中全文檢索都是基于關鍵詞匹配的,在不斷膨脹的用戶需求面前,中文搜索所展現(xiàn)出的局限性越來越不可忽視,其中之一就是它不能區(qū)分同形異義,岐義現(xiàn)象的產(chǎn)生是沒有建立完整的語義理解支撐,完整的語義理解是智能化搜索引擎的基礎核心。西方語言是粘連型語言,而漢語是分析型語言,依據(jù)漢字的三要素音、形、義進行解析,解“義”而言漢字(詞)分為實詞和虛詞,在現(xiàn)有的搜索引擎中,往往通過實詞及關鍵詞匹配來滿足檢索需求,漢字的虛詞常被忽略,而用戶查詢語句的真實意向得不到完整的語義理解 [1-2] 。顯然,漢語虛詞雖無“意”卻有“形”,但在語句中具有語法等功能形態(tài),忽略虛詞、虛(詞)實(詞)關系是形成歧義現(xiàn)象的基本原因之—。
漢字一詞多義現(xiàn)象也與虛詞的形態(tài)變化相關,多義性導致字詞的智能化辨義解析程度降低,出現(xiàn)查詢精度不高、檢索效率低下等現(xiàn)象,為此簡單的關鍵詞匹配(實詞)和完整的語義匹配(實詞+虛詞)是有本質(zhì)區(qū)別的。虛詞雖無義卻有形,其形態(tài)量化與關系是首要任務之一,明晰了形態(tài)關系也就解決了語句中實詞與虛詞搭配組句的語法、語義、語用形態(tài)特征,漢語虛詞形態(tài)信息提取及量化分析是智能化語義理解不可或缺的 [3-4] 。換言之,詞匯語用修正了詞匯語義在詞語選擇與詞語理解上的缺陷,并指出語境化是理解和使用詞語的關鍵。詞匯的使用和理解不僅僅是一個語言問題,更是一個語用與認知(語感)的問題。
現(xiàn)代漢語虛詞約800左右,而古代虛詞約1100左右,文言文是古代的書面語言,也是現(xiàn)代漢語的源頭,追本溯源,從繁至簡,正確理解現(xiàn)代漢語虛詞的演變規(guī)律和形態(tài)變遷,唯有從文言虛詞的形態(tài)關系(穩(wěn)定知識源)分析著手,力求尋找漢語虛詞的自然演變規(guī)律 [5] 。
智能化搜索引擎面對的漢語語言是一種混合型文體(現(xiàn)代漢語+特殊文體),特殊文體包含詩詞歌賦文言文等,無疑在現(xiàn)代語言中文言虛詞古為今用比比皆是。文言虛詞四種完整形態(tài)包括單音、復音、定式搭配、慣性詞組,經(jīng)甄別該虛詞的完整構詞數(shù)量,以保證分詞定位匹配的正確精度。確定虛詞在句中的位置、形態(tài)、關系,也就保證了句子的語法、語義、語用方向判斷和邏輯推送的可計算性,從而為智能化搜索奠定了基礎。
虛詞的虛化程度評價體系是建立虛實關系、量化評價評測、虛化程度分布、相似度分析以及虛實用的概率統(tǒng)計分析 [6] 。虛詞關系模型的建立是語言數(shù)據(jù)預處理的必經(jīng)之路,也是打開未來智能漢語語義理解之窗。
2 感知到認知的數(shù)據(jù)處理
本研究主要分為數(shù)據(jù)預處理和數(shù)據(jù)分類規(guī)約處理。正確的理解現(xiàn)代漢語虛詞的演變規(guī)律和形態(tài)變遷,為文言虛詞的知識規(guī)則結(jié)構化處理及定量定位定性分析作準備。文本數(shù)據(jù)開采必須建立專家知識庫、樣本語料庫,其中包括對數(shù)據(jù)的凈化、轉(zhuǎn)換、變量的整合以進行數(shù)理統(tǒng)計、數(shù)據(jù)挖掘、人工智能等技術運用,構造以虛詞為中心的大數(shù)據(jù)開采平臺。
2.1 擬解決的關鍵問題
擬解決的虛詞形態(tài)、形態(tài)關系及關鍵技術問題:
?、偬撛~構詞形態(tài)的四種形式劃分,詞序關系形態(tài).
?、谔撛~虛用虛詞實用的詞法形態(tài).
?、厶撛~的句法形態(tài),句位形態(tài).
④虛實比關系.
2.2 研究內(nèi)容及方法
2.2.1 理解數(shù)據(jù)和數(shù)據(jù)的來源
統(tǒng)計知識庫的知識轉(zhuǎn)化為規(guī)則的靜態(tài)數(shù)據(jù)處理,具體而言將虛詞字典的知識內(nèi)容進行知識規(guī)則劃分,依據(jù)符號定義和符號規(guī)約,完成知識到規(guī)則的結(jié)構化處理。
知識庫的建立是將傳統(tǒng)的知識字典按照現(xiàn)代數(shù)據(jù)處理方法分層分類。語料庫是依據(jù)知識庫相對應的知識規(guī)則,抽取樣本語料進行規(guī)則驗證和規(guī)則升降維處理,以滿足規(guī)則置信度、相似度、精確匹配以及匹配命中率統(tǒng)計分析。知識庫轉(zhuǎn)化為規(guī)則庫是通過語料驗證匹配才能形成種子規(guī)則,以便于精確匹配和提高匹配命中率 [7] 。
2.2.2 獲取相關知識與方法
在建立虛詞的分層分類位置形式上實行定位分析,因為虛詞沒有嚴格形態(tài)特征,卻有句位特征,如“擇善而從之”(句末特征),以便于句位的統(tǒng)計概率規(guī)律分析。定量分析可分為四種形式(單音虛詞、復音虛詞、定式搭配、慣性詞組)的虛詞量化分析,用以滿足虛詞為中心詞的分詞劃分技術加統(tǒng)計分析來實現(xiàn),從而達到完整語句中的虛字虛用/實用的分層分類 [8-9] 。
形態(tài)特征分類:
(1)0層 基本形態(tài)特征1:構組詞關系(單音、復音、定式、慣性詞組),詞序(間)關系,虛實比關系(虛實用關系、虛詞與位置關系、虛詞與語義語用關系)。語言形態(tài)與詞匯映象。
?。?)1層 基本形態(tài)特征2:句法形態(tài)(陳述句,疑問句,祈使句,感嘆句),句法成分形態(tài)(主語,謂語,賓語,狀語,定語,補語)。語言形態(tài)與句法映象。語義結(jié)構形態(tài)標注,語用功能形態(tài)標注(判斷句,省略句,倒裝句,被動句,固定句式)。語言形態(tài)與句式映象。
?。?)2層 語義結(jié)構形態(tài)。虛/實 義結(jié)構。?
(4)3層 語用功能形態(tài)。虛/實 用結(jié)構。?
總之,0~1層的基本形態(tài)是從語形學視角分析詞匯相關符號與符號之間的關系。而語義學關注的是 有關符號與符號所指之間的關系。語用學則是有關符號與解釋者之間的關系。雖有異曲同工,但語形、語義、語用的三者關系而言,語形以語義為前提,語義是從語用中抽象出來的。而語用學是符號學基礎,確切的語用特征是它處理符號化過程的不同形態(tài)(如句位形態(tài))選擇同樣暗含語用信息(話語環(huán)境、交談對象或話語事件等)[10] 。上下文環(huán)境對象事件從語用視角延伸至語境都是認知語言學基本范疇,而句位形態(tài)引入展現(xiàn)人類語言習得過程和機理,認知形態(tài)的又一新視野。
2.3 整合與檢查數(shù)據(jù)
定性分析在完成了定量定位分析的基礎上,知識到規(guī)則轉(zhuǎn)換經(jīng)統(tǒng)計實現(xiàn)各虛詞特定位置所表達的意合概率以及分層聚類處理。
2.4 數(shù)據(jù)清理,去除錯誤或不一致的數(shù)據(jù)
虛字的虛實不分會造成數(shù)據(jù)的不一致性,虛字實用在虛實化統(tǒng)計分析中客觀反映量化分析的每一個字的虛化程度,從而將字的虛化演變過程從靜態(tài)到動態(tài)進行明確的量化屬性分析。通過形式量化、數(shù)理統(tǒng)計等方法,將常用虛字18(A集)對應中學語料117篇進行虛實分類得出四種形式與頻度的關系。確定了虛字在句中的位置、句位和形式以及規(guī)則分布和各概率分布映象,再經(jīng)過置信測試和語料保障測試,使其樣本依據(jù)具有足夠的置信度 [11] 。
根據(jù)字典的知識理論定性分析得出基于A集18常用虛字的虛實比分類結(jié)果。通過字的虛實規(guī)則形態(tài)確定,該句的語用功能語義結(jié)構方向判斷清晰,有效降低了歧義現(xiàn)象的產(chǎn)生。
2.5 數(shù)據(jù)域定義
歷時數(shù)據(jù)的采集:經(jīng)驗+知識=規(guī)則(虛詞字典)
共時數(shù)據(jù)的采集:中學語文常用虛詞18(A集)+大學語文常用虛詞36(B集)+專業(yè)語言工作者常用虛詞49(C集)
語料數(shù)據(jù)的采集:字典范例對應語料,中學文言文117篇,古文觀止220篇,歷年全國語文高考語料實例
通過規(guī)則結(jié)合統(tǒng)計的方法實現(xiàn)知識到規(guī)則的數(shù)字化處理,加上句位分析、虛詞分詞技術、詞序規(guī)則規(guī)約分類。經(jīng)基本處理,可以得到完整句子中的詞序詞態(tài)句位基因碼,為后續(xù)的數(shù)字解析與語義理解奠定了基礎。它是數(shù)據(jù)挖掘、云計算的基礎。
研究思路與技術路線示意圖如下:
2.6 實際數(shù)據(jù)挖掘工作
句位分析是依據(jù)漢字虛詞的句位特征進行區(qū)域劃分(固定句位/相鄰句位),通過概率統(tǒng)計得出虛字在句首句中句尾的句位特征與出現(xiàn)的概率頻度,結(jié)合分類歸層進行相似度分析以及優(yōu)先度分析等方法。
虛詞分詞劃分技術是采用經(jīng)驗知識將規(guī)則的形式分類(四種形式),以固定組詞長度、完整的內(nèi)容實現(xiàn)虛詞的準確劃分。其中虛詞虛實化是固定完整內(nèi)容的關鍵。
詞序描述:傳統(tǒng)的文本字符書寫習慣是從左至右線型順序展開,符號語言描述也應遵循習慣規(guī)律,即文本字符串(句子)=符號邏輯規(guī)則。
例1:彬之總師也 分解:彬/n01 之/c0701 總師/n02根據(jù)屬性抽取符號邏輯規(guī)則:n01c0701n02邏輯規(guī)則解釋:虛字“之”用作并列連詞c0701,詞序連接是邏輯與對象前置n01后置n02,n為名詞。
例2:上臨哭之慟 分解:上臨哭/O 之/u1802 慟/v01根據(jù)屬性抽取符號邏輯規(guī)則:Ou1802v01邏輯規(guī)則解釋:該虛字“之”為結(jié)構助詞u1802,詞序連接是邏輯與對象前置O后置v01,v為動詞,O為賓語。
由例1例2知,詞序規(guī)則碼不同,“之”字的詞法句法的語用功能完全不同。
7)測試和驗證挖掘結(jié)果、解釋和應用在獲取了最終的邏輯規(guī)則樹之后,就需要對邏輯規(guī)則的研究的正確性作驗證分析,在此處,以高考中的真題作為實例進行分析驗證 [12] 。
例3:2013年高考語文安徽卷下列各組句子中,加點詞的意義和用法相同的一組是(D)
A.陸生因說佗曰 B.將相欲移兵而誅王伺者因此覺知 今人有大功而擊之C.尉佗乃蹶然起坐 D.佗因稍以法誅秦所置長史今其智乃反不能急 獨籍所殺漢軍數(shù)百人運用邏輯規(guī)則的方法對例1進行驗證,驗證結(jié)果如表1例1各選項分析表所示。
形似結(jié)論XS邏輯判斷通式f(XS,A)=((CB(A1) ∧CB(A2))∨(JW(A1) ∧JW(A2)))
∧(YY(A1) ∧(YY(A2))
如此類推,得出f(XS,A,B,C,D)=(XS,F,F,F,T)。
由形似結(jié)論XS到分析結(jié)論FX的邏輯推送:XS1(A)∨ XS1(B)∨ XS1(C)∨ XS1(D)
﹛F,F(xiàn),F(xiàn),T﹜﹛D﹜通過邏輯規(guī)則和句位特征分析可以得到本題的正確答案為D。由此可知,句位特征屬性形似意不合是歧義產(chǎn)生的外在因素,其內(nèi)因是虛詞實用或虛用不同結(jié)果 [13] 。
3 技術創(chuàng)新點
?、偬撛~形式劃分與分詞技術,文言文在現(xiàn)代搜索技術中是無法切分的,本研究基本解決古文的以虛詞為中心的形態(tài)劃分與分詞技術實現(xiàn)。
?、谔撛~的虛用/實用形態(tài)特征加句位特征分析是解決組合形態(tài)特征的關鍵,為語句的邏輯判斷與邏輯推送起到了語義語用功能的方向判斷,為智能化的可計算的語義理解提供了科學的理論與技術支撐 [14-16] 。
綜上所述,運用定性分析方法解決虛詞的基本形態(tài)劃分和形態(tài)特征分析,可滿足以虛詞為中心的分詞技術在對特殊文體(文言文)中的虛用實用甄別,通過梳理句中的詞序關系和詞間關系,加上句位特征,形成一種穩(wěn)定組合形態(tài),依此對應句中的語法意義、語義結(jié)構、語用功能,使特征數(shù)據(jù)的結(jié)構更加明晰,更可計算,以便于大數(shù)據(jù)挖掘 [17-18] 。
漢語語義理解高端智能化終極目標之一就是實現(xiàn)人機交互更深層次需求,提出以虛詞為形態(tài)標識評價評測體系方法,實現(xiàn)特殊文體(文言文)分詞劃分技術 [19] ;運用句位分析方法完成語句的虛實化靜態(tài)到動態(tài)量化演變分析 [20] ,為語句中各形態(tài)建立可分析可計算多維形態(tài)標識 [21-22] 。
通過對漢語文言常用虛詞的虛實化數(shù)據(jù)挖掘與分析,以虛詞為中心對古漢語實現(xiàn)分詞劃分,結(jié)合形態(tài)、句位分析和虛用實用功用判別,實現(xiàn)詞法結(jié)構到語法語義結(jié)構和語用功能的全方位數(shù)據(jù)知識圖譜 [23-24] ,為未來的智能化搜索語義理解提供可計算、可判斷的全析理解奠定了實用基礎 [25] ,也就提供了語言數(shù)字化處理的智能理解支撐,在此基礎上可擴充到現(xiàn)代漢語虛字的延展,就能滿足未來各行各業(yè)的智能化(例:智能搜索、機器人、APP在線教育等)需求。
參考文獻
[1]呂叔湘. 現(xiàn)代漢語語法分析問題[M]. 北京:商務,1979.
[2]何樂士. 古代漢語虛詞詞典. 北京: 語文出版社, 2006: 1-663.
[3]何金松. 虛詞歷時詞典. 湖北: 湖北人民出版社, 1994: 1-554.
[4]王延飛, 秦鐵輝. 信息分析與決策. 北京:北京大學出版社, 2001.
[5]宗成慶. 統(tǒng)計自然語言處理. 北京:清華大學出版社. 2008年5月第1版: 1-243.
[6]俞士汶. 建設綜合型語言知識庫的理念與成果的價值[J]. 中文信息學報, 2007(6).
[7]Dong Zhendong, Dong Qiang. HowNet and the Computation of Meaning[M]. Singapore WorldScientific Publishing Company, 2006.
[8]昝紅英, 張坤麗, 柴玉梅, 俞士汶. 現(xiàn)代漢語虛詞知識庫的研究. 中文信息學報, 2007, 21(5):107-111.
[9]朱德熙. 語法講義. 北京: 商務印書館, 1982年9月第一版.
[10]詹衛(wèi)東. 基于配價的漢語語義詞典. 語言文字應用, 2000(1):37-43.
[11]魯川,漢語句子的語義成分和語用成分.中國語文雜志社編, 語法研究和探索, 北京:北京大學出版社,1988年9月,309-319.
[12]郭錫良, 古漢語虛詞研究評議. 語言科學,2003(1):87-98
[13]昝紅英, 朱學鋒. 面向自然語言處理的漢語虛詞研究與廣義虛詞知識庫構建. 當代語言學, 2009, 11(2):124-135
[14]俞士漢,朱學鋒. 關于漢語信息處理的認識及其研究方略. 《語言文字應用》, 2002(2):51-85
[15]Noam Chomsky. Syntactic Structures. 北京: 中國社會科學出版社, 1979: 28-35.
[16]Noam Chomsky, Aspects of the Theory of Syntax. MIT Press (Cambridge, MA), 1966, 127-145.
[17]Christopher D. Mannning, Hinrich Schutze. Foundations of Statistical Natural LanguageProcessing [M]. 2005.
[18]張大方, 張潔坤, 黃昆. 一種基于智能有限自動機的正則表達式匹配算法. 北京:電子學報, 2012(8).
[19]陳志泊.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:清華大學出版社.
[20]Liu B, Hsu W. Integrating classification and association rulemining Agrawal R, Stdorz P,PiatetskyG.rocof4thInternationalConferen. ce. on Knowledge Discovery and Data Mining. Menlo Park:AAAI Press, 1998:80-86.
[21]Kuncheva L I. Editingfor the knearest neighbors rule by agenetic. Pattern Recognition Letters, 1995,16:809-814.
[22]Friedman N, Geiger D, Goldszmidt M. Bayesian network classifier. Machine Learning,1997,29(1):131-163.
[23] 曾黃麟.粗集理論及其應用.重慶:重慶大學出版社,1996.
[24]Chureh K W, Mereer P L. Introduction to the Special Issue onComputational Linguistics Using Large Corpora. ComputationalLinguistics, 1993, 19(1):1-24.
[25]T. Cohn, F. Blunsom. Semantic Role Labeling with Tree ConditionalRandom Fields. Proceedings of the Ninth Conference on ComputationalNatural Language Learning. Ann Arbor, Michigan: Association forComputational Linguistics. 2005: 169-172.
本文來源于科技期刊《電子產(chǎn)品世界》2019年第6期第52頁,歡迎您寫論文時引用,并注明出處
評論