新聞中心

EEPW首頁 > 設(shè)計(jì)應(yīng)用 > 智能語義理解搜索引擎中漢語虛詞的形態(tài)特征略析

智能語義理解搜索引擎中漢語虛詞的形態(tài)特征略析

作者:繆天鵬 韓建軍 王振江 時(shí)間:2019-05-29 來源:電子產(chǎn)品世界 收藏

  繆天鵬 1 ,韓建軍 1 ,王振江 1

本文引用地址:http://www.butianyuan.cn/article/201905/401021.htm

 ?。ㄈA中科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430074)

  摘要:語義智能化發(fā)展是大數(shù)據(jù)技術(shù)國家重大戰(zhàn)略需求,也是統(tǒng)計(jì)學(xué)、數(shù)據(jù)科學(xué)、信息科學(xué)和管理科學(xué)等學(xué)科的國際前沿。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的規(guī)模、類型、結(jié)構(gòu)和增長速度發(fā)生了質(zhì)的變化,傳統(tǒng)數(shù)據(jù)分析和處理的統(tǒng)計(jì)學(xué)理論和分析方法已不能滿足大數(shù)據(jù)時(shí)代下的種種需求。本研究擬圍繞大數(shù)據(jù)分析與處理的統(tǒng)計(jì)學(xué)基礎(chǔ)理論與分析方法的核心問題和難點(diǎn)問題,略析語言大數(shù)據(jù)處理形態(tài)新方法, 為大數(shù)據(jù)技術(shù)發(fā)展和未來智能等應(yīng)用提供新基礎(chǔ)理論和方法支撐。

  關(guān)鍵詞: ;;;;

  * 本文得到國家自然科學(xué)基金項(xiàng)目(61872411)資助。

  1 認(rèn)知、互動(dòng)的智能需求

  Internet互聯(lián)網(wǎng)廣泛應(yīng)用,人們對(duì)信息查詢的要求越來越高,目前中全文檢索都是基于關(guān)鍵詞匹配的,在不斷膨脹的用戶需求面前,中文搜索所展現(xiàn)出的局限性越來越不可忽視,其中之一就是它不能區(qū)分同形異義,岐義現(xiàn)象的產(chǎn)生是沒有建立完整的支撐,完整的是智能化搜索引擎的基礎(chǔ)核心。西方語言是粘連型語言,而漢語是分析型語言,依據(jù)漢字的三要素音、形、義進(jìn)行解析,解“義”而言漢字(詞)分為實(shí)詞和,在現(xiàn)有的搜索引擎中,往往通過實(shí)詞及關(guān)鍵詞匹配來滿足檢索需求,漢字的虛詞常被忽略,而用戶查詢語句的真實(shí)意向得不到完整的語義理解 [1-2] 。顯然,漢語虛詞雖無“意”卻有“形”,但在語句中具有語法等功能形態(tài),忽略虛詞、虛(詞)實(shí)(詞)關(guān)系是形成歧義現(xiàn)象的基本原因之—。

  漢字一詞多義現(xiàn)象也與虛詞的形態(tài)變化相關(guān),多義性導(dǎo)致字詞的智能化辨義解析程度降低,出現(xiàn)查詢精度不高、檢索效率低下等現(xiàn)象,為此簡單的關(guān)鍵詞匹配(實(shí)詞)和完整的語義匹配(實(shí)詞+虛詞)是有本質(zhì)區(qū)別的。虛詞雖無義卻有形,其形態(tài)量化與關(guān)系是首要任務(wù)之一,明晰了形態(tài)關(guān)系也就解決了語句中實(shí)詞與虛詞搭配組句的語法、語義、語用,漢語虛詞形態(tài)信息提取及量化分析是智能化語義理解不可或缺的 [3-4] 。換言之,詞匯語用修正了詞匯語義在詞語選擇與詞語理解上的缺陷,并指出語境化是理解和使用詞語的關(guān)鍵。詞匯的使用和理解不僅僅是一個(gè)語言問題,更是一個(gè)語用與認(rèn)知(語感)的問題。

  現(xiàn)代漢語虛詞約800左右,而古代虛詞約1100左右,文言文是古代的書面語言,也是現(xiàn)代漢語的源頭,追本溯源,從繁至簡,正確理解現(xiàn)代漢語虛詞的演變規(guī)律和形態(tài)變遷,唯有從文言虛詞的形態(tài)關(guān)系(穩(wěn)定知識(shí)源)分析著手,力求尋找漢語虛詞的自然演變規(guī)律 [5] 。

  智能化搜索引擎面對(duì)的漢語語言是一種混合型文體(現(xiàn)代漢語+特殊文體),特殊文體包含詩詞歌賦文言文等,無疑在現(xiàn)代語言中文言虛詞古為今用比比皆是。文言虛詞四種完整形態(tài)包括單音、復(fù)音、定式搭配、慣性詞組,經(jīng)甄別該虛詞的完整構(gòu)詞數(shù)量,以保證分詞定位匹配的正確精度。確定虛詞在句中的位置、形態(tài)、關(guān)系,也就保證了句子的語法、語義、語用方向判斷和邏輯推送的可計(jì)算性,從而為智能化搜索奠定了基礎(chǔ)。

  虛詞的虛化程度評(píng)價(jià)體系是建立虛實(shí)關(guān)系、量化評(píng)價(jià)評(píng)測、虛化程度分布、相似度分析以及虛實(shí)用的概率統(tǒng)計(jì)分析 [6] 。虛詞關(guān)系模型的建立是語言數(shù)據(jù)預(yù)處理的必經(jīng)之路,也是打開未來智能漢語語義理解之窗。

  2 感知到認(rèn)知的數(shù)據(jù)處理

  本研究主要分為數(shù)據(jù)預(yù)處理和數(shù)據(jù)分類規(guī)約處理。正確的理解現(xiàn)代漢語虛詞的演變規(guī)律和形態(tài)變遷,為文言虛詞的知識(shí)規(guī)則結(jié)構(gòu)化處理及定量定位定性分析作準(zhǔn)備。文本數(shù)據(jù)開采必須建立專家知識(shí)庫、樣本語料庫,其中包括對(duì)數(shù)據(jù)的凈化、轉(zhuǎn)換、變量的整合以進(jìn)行數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘、人工智能等技術(shù)運(yùn)用,構(gòu)造以虛詞為中心的大數(shù)據(jù)開采平臺(tái)。

  2.1 擬解決的關(guān)鍵問題

  擬解決的虛詞形態(tài)、形態(tài)關(guān)系及關(guān)鍵技術(shù)問題:

 ?、偬撛~構(gòu)詞形態(tài)的四種形式劃分,詞序關(guān)系形態(tài).

 ?、谔撛~虛用虛詞實(shí)用的詞法形態(tài).

 ?、厶撛~的句法形態(tài),句位形態(tài).

 ?、芴搶?shí)比關(guān)系.

  2.2 研究內(nèi)容及方法

  2.2.1 理解數(shù)據(jù)和數(shù)據(jù)的來源

  統(tǒng)計(jì)知識(shí)庫的知識(shí)轉(zhuǎn)化為規(guī)則的靜態(tài)數(shù)據(jù)處理,具體而言將虛詞字典的知識(shí)內(nèi)容進(jìn)行知識(shí)規(guī)則劃分,依據(jù)符號(hào)定義和符號(hào)規(guī)約,完成知識(shí)到規(guī)則的結(jié)構(gòu)化處理。

  知識(shí)庫的建立是將傳統(tǒng)的知識(shí)字典按照現(xiàn)代數(shù)據(jù)處理方法分層分類。語料庫是依據(jù)知識(shí)庫相對(duì)應(yīng)的知識(shí)規(guī)則,抽取樣本語料進(jìn)行規(guī)則驗(yàn)證和規(guī)則升降維處理,以滿足規(guī)則置信度、相似度、精確匹配以及匹配命中率統(tǒng)計(jì)分析。知識(shí)庫轉(zhuǎn)化為規(guī)則庫是通過語料驗(yàn)證匹配才能形成種子規(guī)則,以便于精確匹配和提高匹配命中率 [7] 。

  2.2.2 獲取相關(guān)知識(shí)與方法

  在建立虛詞的分層分類位置形式上實(shí)行定位分析,因?yàn)樘撛~沒有嚴(yán)格,卻有句位特征,如“擇善而從之”(句末特征),以便于句位的統(tǒng)計(jì)概率規(guī)律分析。定量分析可分為四種形式(單音虛詞、復(fù)音虛詞、定式搭配、慣性詞組)的虛詞量化分析,用以滿足虛詞為中心詞的分詞劃分技術(shù)加統(tǒng)計(jì)分析來實(shí)現(xiàn),從而達(dá)到完整語句中的虛字虛用/實(shí)用的分層分類 [8-9] 。

  形態(tài)特征分類:

  (1)0層 基本形態(tài)特征1:構(gòu)組詞關(guān)系(單音、復(fù)音、定式、慣性詞組),詞序(間)關(guān)系,虛實(shí)比關(guān)系(虛實(shí)用關(guān)系、虛詞與位置關(guān)系、虛詞與語義語用關(guān)系)。語言形態(tài)與詞匯映象。

  (2)1層 基本形態(tài)特征2:句法形態(tài)(陳述句,疑問句,祈使句,感嘆句),句法成分形態(tài)(主語,謂語,賓語,狀語,定語,補(bǔ)語)。語言形態(tài)與句法映象。語義結(jié)構(gòu)形態(tài)標(biāo)注,語用功能形態(tài)標(biāo)注(判斷句,省略句,倒裝句,被動(dòng)句,固定句式)。語言形態(tài)與句式映象。

 ?。?)2層 語義結(jié)構(gòu)形態(tài)。虛/實(shí) 義結(jié)構(gòu)。?

 ?。?)3層 語用功能形態(tài)。虛/實(shí) 用結(jié)構(gòu)。?

  總之,0~1層的基本形態(tài)是從語形學(xué)視角分析詞匯相關(guān)符號(hào)與符號(hào)之間的關(guān)系。而語義學(xué)關(guān)注的是 有關(guān)符號(hào)與符號(hào)所指之間的關(guān)系。語用學(xué)則是有關(guān)符號(hào)與解釋者之間的關(guān)系。雖有異曲同工,但語形、語義、語用的三者關(guān)系而言,語形以語義為前提,語義是從語用中抽象出來的。而語用學(xué)是符號(hào)學(xué)基礎(chǔ),確切的語用特征是它處理符號(hào)化過程的不同形態(tài)(如句位形態(tài))選擇同樣暗含語用信息(話語環(huán)境、交談對(duì)象或話語事件等)[10] 。上下文環(huán)境對(duì)象事件從語用視角延伸至語境都是認(rèn)知語言學(xué)基本范疇,而句位形態(tài)引入展現(xiàn)人類語言習(xí)得過程和機(jī)理,認(rèn)知形態(tài)的又一新視野。

1559543981451079.png

1559543944367396.png

  2.3 整合與檢查數(shù)據(jù)

  定性分析在完成了定量定位分析的基礎(chǔ)上,知識(shí)到規(guī)則轉(zhuǎn)換經(jīng)統(tǒng)計(jì)實(shí)現(xiàn)各虛詞特定位置所表達(dá)的意合概率以及分層聚類處理。

  2.4 數(shù)據(jù)清理,去除錯(cuò)誤或不一致的數(shù)據(jù)

  虛字的虛實(shí)不分會(huì)造成數(shù)據(jù)的不一致性,虛字實(shí)用在虛實(shí)化統(tǒng)計(jì)分析中客觀反映量化分析的每一個(gè)字的虛化程度,從而將字的虛化演變過程從靜態(tài)到動(dòng)態(tài)進(jìn)行明確的量化屬性分析。通過形式量化、數(shù)理統(tǒng)計(jì)等方法,將常用虛字18(A集)對(duì)應(yīng)中學(xué)語料117篇進(jìn)行虛實(shí)分類得出四種形式與頻度的關(guān)系。確定了虛字在句中的位置、句位和形式以及規(guī)則分布和各概率分布映象,再經(jīng)過置信測試和語料保障測試,使其樣本依據(jù)具有足夠的置信度 [11] 。

  根據(jù)字典的知識(shí)理論定性分析得出基于A集18常用虛字的虛實(shí)比分類結(jié)果。通過字的虛實(shí)規(guī)則形態(tài)確定,該句的語用功能語義結(jié)構(gòu)方向判斷清晰,有效降低了歧義現(xiàn)象的產(chǎn)生。

  2.5 數(shù)據(jù)域定義

  歷時(shí)數(shù)據(jù)的采集:經(jīng)驗(yàn)+知識(shí)=規(guī)則(虛詞字典)

  共時(shí)數(shù)據(jù)的采集:中學(xué)語文常用虛詞18(A集)+大學(xué)語文常用虛詞36(B集)+專業(yè)語言工作者常用虛詞49(C集)

  語料數(shù)據(jù)的采集:字典范例對(duì)應(yīng)語料,中學(xué)文言文117篇,古文觀止220篇,歷年全國語文高考語料實(shí)例

  通過規(guī)則結(jié)合統(tǒng)計(jì)的方法實(shí)現(xiàn)知識(shí)到規(guī)則的數(shù)字化處理,加上句位分析、虛詞分詞技術(shù)、詞序規(guī)則規(guī)約分類。經(jīng)基本處理,可以得到完整句子中的詞序詞態(tài)句位基因碼,為后續(xù)的數(shù)字解析與語義理解奠定了基礎(chǔ)。它是數(shù)據(jù)挖掘、云計(jì)算的基礎(chǔ)。

  研究思路與技術(shù)路線示意圖如下:

  2.6 實(shí)際數(shù)據(jù)挖掘工作

  句位分析是依據(jù)漢字虛詞的句位特征進(jìn)行區(qū)域劃分(固定句位/相鄰句位),通過概率統(tǒng)計(jì)得出虛字在句首句中句尾的句位特征與出現(xiàn)的概率頻度,結(jié)合分類歸層進(jìn)行相似度分析以及優(yōu)先度分析等方法。

  虛詞分詞劃分技術(shù)是采用經(jīng)驗(yàn)知識(shí)將規(guī)則的形式分類(四種形式),以固定組詞長度、完整的內(nèi)容實(shí)現(xiàn)虛詞的準(zhǔn)確劃分。其中虛詞虛實(shí)化是固定完整內(nèi)容的關(guān)鍵。

  詞序描述:傳統(tǒng)的文本字符書寫習(xí)慣是從左至右線型順序展開,符號(hào)語言描述也應(yīng)遵循習(xí)慣規(guī)律,即文本字符串(句子)=符號(hào)邏輯規(guī)則。

  例1:彬之總師也 分解:彬/n01 之/c0701 總師/n02根據(jù)屬性抽取符號(hào)邏輯規(guī)則:n01c0701n02邏輯規(guī)則解釋:虛字“之”用作并列連詞c0701,詞序連接是邏輯與對(duì)象前置n01后置n02,n為名詞。

  例2:上臨哭之慟 分解:上臨哭/O 之/u1802 慟/v01根據(jù)屬性抽取符號(hào)邏輯規(guī)則:Ou1802v01邏輯規(guī)則解釋:該虛字“之”為結(jié)構(gòu)助詞u1802,詞序連接是邏輯與對(duì)象前置O后置v01,v為動(dòng)詞,O為賓語。

  由例1例2知,詞序規(guī)則碼不同,“之”字的詞法句法的語用功能完全不同。

  7)測試和驗(yàn)證挖掘結(jié)果、解釋和應(yīng)用在獲取了最終的邏輯規(guī)則樹之后,就需要對(duì)邏輯規(guī)則的研究的正確性作驗(yàn)證分析,在此處,以高考中的真題作為實(shí)例進(jìn)行分析驗(yàn)證 [12] 。

  例3:2013年高考語文安徽卷下列各組句子中,加點(diǎn)詞的意義和用法相同的一組是(D)

  A.陸生因說佗曰 B.將相欲移兵而誅王伺者因此覺知 今人有大功而擊之C.尉佗乃蹶然起坐 D.佗因稍以法誅秦所置長史今其智乃反不能急 獨(dú)籍所殺漢軍數(shù)百人運(yùn)用邏輯規(guī)則的方法對(duì)例1進(jìn)行驗(yàn)證,驗(yàn)證結(jié)果如表1例1各選項(xiàng)分析表所示。

  形似結(jié)論XS邏輯判斷通式f(XS,A)=((CB(A1) ∧CB(A2))∨(JW(A1) ∧JW(A2)))

  ∧(YY(A1) ∧(YY(A2))

  如此類推,得出f(XS,A,B,C,D)=(XS,F,F,F,T)。

  由形似結(jié)論XS到分析結(jié)論FX的邏輯推送:XS1(A)∨ XS1(B)∨ XS1(C)∨ XS1(D)

  ﹛F,F(xiàn),F(xiàn),T﹜﹛D﹜通過邏輯規(guī)則和句位特征分析可以得到本題的正確答案為D。由此可知,句位特征屬性形似意不合是歧義產(chǎn)生的外在因素,其內(nèi)因是虛詞實(shí)用或虛用不同結(jié)果 [13] 。

  3 技術(shù)創(chuàng)新點(diǎn)

  ①虛詞形式劃分與分詞技術(shù),文言文在現(xiàn)代搜索技術(shù)中是無法切分的,本研究基本解決古文的以虛詞為中心的形態(tài)劃分與分詞技術(shù)實(shí)現(xiàn)。

  ②虛詞的虛用/實(shí)用形態(tài)特征加句位特征分析是解決組合形態(tài)特征的關(guān)鍵,為語句的邏輯判斷與邏輯推送起到了語義語用功能的方向判斷,為智能化的可計(jì)算的語義理解提供了科學(xué)的理論與技術(shù)支撐 [14-16] 。

  綜上所述,運(yùn)用定性分析方法解決虛詞的基本形態(tài)劃分和形態(tài)特征分析,可滿足以虛詞為中心的分詞技術(shù)在對(duì)特殊文體(文言文)中的虛用實(shí)用甄別,通過梳理句中的詞序關(guān)系和詞間關(guān)系,加上句位特征,形成一種穩(wěn)定組合形態(tài),依此對(duì)應(yīng)句中的語法意義、語義結(jié)構(gòu)、語用功能,使特征數(shù)據(jù)的結(jié)構(gòu)更加明晰,更可計(jì)算,以便于大數(shù)據(jù)挖掘 [17-18] 。

  漢語語義理解高端智能化終極目標(biāo)之一就是實(shí)現(xiàn)人機(jī)交互更深層次需求,提出以虛詞為形態(tài)標(biāo)識(shí)評(píng)價(jià)評(píng)測體系方法,實(shí)現(xiàn)特殊文體(文言文)分詞劃分技術(shù) [19] ;運(yùn)用句位分析方法完成語句的虛實(shí)化靜態(tài)到動(dòng)態(tài)量化演變分析 [20] ,為語句中各形態(tài)建立可分析可計(jì)算多維形態(tài)標(biāo)識(shí) [21-22] 。

  通過對(duì)漢語文言常用虛詞的虛實(shí)化數(shù)據(jù)挖掘與分析,以虛詞為中心對(duì)實(shí)現(xiàn)分詞劃分,結(jié)合形態(tài)、句位分析和虛用實(shí)用功用判別,實(shí)現(xiàn)詞法結(jié)構(gòu)到語法語義結(jié)構(gòu)和語用功能的全方位數(shù)據(jù)知識(shí)圖譜 [23-24] ,為未來的智能化搜索語義理解提供可計(jì)算、可判斷的全析理解奠定了實(shí)用基礎(chǔ) [25] ,也就提供了語言數(shù)字化處理的智能理解支撐,在此基礎(chǔ)上可擴(kuò)充到現(xiàn)代漢語虛字的延展,就能滿足未來各行各業(yè)的智能化(例:智能搜索、機(jī)器人、APP在線教育等)需求。

  參考文獻(xiàn)

  [1]呂叔湘. 現(xiàn)代漢語語法分析問題[M]. 北京:商務(wù),1979.

  [2]何樂士. 古代漢語虛詞詞典. 北京: 語文出版社, 2006: 1-663.

  [3]何金松. 虛詞歷時(shí)詞典. 湖北: 湖北人民出版社, 1994: 1-554.

  [4]王延飛, 秦鐵輝. 信息分析與決策. 北京:北京大學(xué)出版社, 2001.

  [5]宗成慶. 統(tǒng)計(jì)自然語言處理. 北京:清華大學(xué)出版社. 2008年5月第1版: 1-243.

  [6]俞士汶. 建設(shè)綜合型語言知識(shí)庫的理念與成果的價(jià)值[J]. 中文信息學(xué)報(bào), 2007(6).

  [7]Dong Zhendong, Dong Qiang. HowNet and the Computation of Meaning[M]. Singapore WorldScientific Publishing Company, 2006.

  [8]昝紅英, 張坤麗, 柴玉梅, 俞士汶. 現(xiàn)代漢語虛詞知識(shí)庫的研究. 中文信息學(xué)報(bào), 2007, 21(5):107-111.

  [9]朱德熙. 語法講義. 北京: 商務(wù)印書館, 1982年9月第一版.

  [10]詹衛(wèi)東. 基于配價(jià)的漢語語義詞典. 語言文字應(yīng)用, 2000(1):37-43.

  [11]魯川,漢語句子的語義成分和語用成分.中國語文雜志社編, 語法研究和探索, 北京:北京大學(xué)出版社,1988年9月,309-319.

  [12]郭錫良, 虛詞研究評(píng)議. 語言科學(xué),2003(1):87-98

  [13]昝紅英, 朱學(xué)鋒. 面向自然語言處理的漢語虛詞研究與廣義虛詞知識(shí)庫構(gòu)建. 當(dāng)代語言學(xué), 2009, 11(2):124-135

  [14]俞士漢,朱學(xué)鋒. 關(guān)于漢語信息處理的認(rèn)識(shí)及其研究方略. 《語言文字應(yīng)用》, 2002(2):51-85

  [15]Noam Chomsky. Syntactic Structures. 北京: 中國社會(huì)科學(xué)出版社, 1979: 28-35.

  [16]Noam Chomsky, Aspects of the Theory of Syntax. MIT Press (Cambridge, MA), 1966, 127-145.

  [17]Christopher D. Mannning, Hinrich Schutze. Foundations of Statistical Natural LanguageProcessing [M]. 2005.

  [18]張大方, 張潔坤, 黃昆. 一種基于智能有限自動(dòng)機(jī)的正則表達(dá)式匹配算法. 北京:電子學(xué)報(bào), 2012(8).

  [19]陳志泊.?dāng)?shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社.

  [20]Liu B, Hsu W. Integrating classification and association rulemining Agrawal R, Stdorz P,PiatetskyG.rocof4thInternationalConferen. ce. on Knowledge Discovery and Data Mining. Menlo Park:AAAI Press, 1998:80-86.

  [21]Kuncheva L I. Editingfor the knearest neighbors rule by agenetic. Pattern Recognition Letters, 1995,16:809-814.

  [22]Friedman N, Geiger D, Goldszmidt M. Bayesian network classifier. Machine Learning,1997,29(1):131-163.

  [23] 曾黃麟.粗集理論及其應(yīng)用.重慶:重慶大學(xué)出版社,1996.

  [24]Chureh K W, Mereer P L. Introduction to the Special Issue onComputational Linguistics Using Large Corpora. ComputationalLinguistics, 1993, 19(1):1-24.

  [25]T. Cohn, F. Blunsom. Semantic Role Labeling with Tree ConditionalRandom Fields. Proceedings of the Ninth Conference on ComputationalNatural Language Learning. Ann Arbor, Michigan: Association forComputational Linguistics. 2005: 169-172.

  本文來源于科技期刊《電子產(chǎn)品世界》2019年第6期第52頁,歡迎您寫論文時(shí)引用,并注明出處



評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉