一文 Get 汽車知識的語義網(wǎng)絡及圖譜構(gòu)建(1)
出品 | AI科技大本營(ID:rgznai100)知識圖譜的概念最早由 Google 在2012 年提出, 旨在架構(gòu)更智能的搜索引擎,2013年之后開始在學術(shù)界和產(chǎn)業(yè)界普及,目前很多大型互聯(lián)網(wǎng)公司都在積極部署本企業(yè)的知識圖譜,F(xiàn)acebook、百度、阿里、騰訊、美團等企業(yè)的落地應用場景如下圖所示。作為人工智能核心技術(shù)驅(qū)動力,知識圖譜可以緩解深度學習依賴海量數(shù)據(jù)訓練,需要大規(guī)模算力的問題,能夠廣泛適配不同的下游任務,且具有良好的解釋性。目前,這一技術(shù)已廣泛應用于搜索、推薦、廣告、風控、智能調(diào)度、語音識別、機器人等多個業(yè)務領(lǐng)域。
從落地行業(yè)來看,目前知識圖譜的應用主要集中在電商、醫(yī)療、金融等商業(yè)和服務領(lǐng)域,關(guān)于汽車知識的語義網(wǎng)絡及知識圖譜構(gòu)建缺少系統(tǒng)性的指導方法。本文以汽車領(lǐng)域知識為例,圍繞車系、車型、經(jīng)銷商、廠商、品牌等實體及相互關(guān)系,提供一種從零搭建領(lǐng)域圖譜的思路。
如何進行圖譜構(gòu)建?構(gòu)建挑戰(zhàn)知識圖譜是真實世界的語義表示,其基本組成單位是“實體-關(guān)系-實體”,“實體-屬性-屬性值”的三元組(Triplet),實體之間通過關(guān)系相互聯(lián)結(jié),從而構(gòu)成語義網(wǎng)絡。圖譜構(gòu)建中會面臨較大的挑戰(zhàn),但構(gòu)建之后,可在數(shù)據(jù)分析、推薦計算、可解釋性等多個場景中展現(xiàn)出豐富的應用價值。其中,構(gòu)建挑戰(zhàn)包括:
Schema 難定義。目前尚無統(tǒng)一成熟的本體構(gòu)建流程,且特定領(lǐng)域本體定義通常需專家參與;
數(shù)據(jù)類型異構(gòu)。通常情況下,一個知識圖譜構(gòu)建中面對的數(shù)據(jù)源不會是單一類型,面對結(jié)構(gòu)各異的數(shù)據(jù),知識轉(zhuǎn)模及挖掘的難度較高;
依賴專業(yè)知識。領(lǐng)域知識圖譜通常依賴較強的專業(yè)知識,例如車型對應的維修方法,涉及機械、電工、材料、力學等多個領(lǐng)域知識,且此類關(guān)系對于準確度的要求較高,需要保證知識足夠正確;
數(shù)據(jù)質(zhì)量無保證。挖掘或抽取信息需要知識融合或人工校驗,才能作為知識助力下游應用。
構(gòu)建后將獲得的收益:
- 知識圖譜統(tǒng)一知識表示。通過整合多源異構(gòu)數(shù)據(jù),形成統(tǒng)一視圖;
- 語義信息豐富。通過關(guān)系推理可以發(fā)現(xiàn)新關(guān)系邊,獲得更豐富的語義信息;
- 可解釋性強。顯式的推理路徑對比深度學習結(jié)果具有更強的解釋性;
- 高質(zhì)量且能不斷積累。根據(jù)業(yè)務場景設(shè)計合理的知識存儲方案,實現(xiàn)知識更新和累積。
架構(gòu)設(shè)計技術(shù)架構(gòu)主要分為構(gòu)建層、存儲層及應用層三大層,架構(gòu)圖如下:
構(gòu)建層。包括Schema定義,結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)模,非結(jié)構(gòu)化數(shù)據(jù)挖掘,以及知識融合;
存儲層。包括知識的存儲和索引,知識更新,元數(shù)據(jù)管理,以及支持基本的知識查詢;
服務層。包括智能推理、結(jié)構(gòu)化查詢等業(yè)務相關(guān)的下游應用層。
構(gòu)建步驟及流程
依據(jù)架構(gòu)圖,具體構(gòu)建流程可分為四步:本體設(shè)計、知識獲取、知識入庫,以及應用服務設(shè)計及使用。
本體構(gòu)建本體(Ontology)是公認的概念集合,本體的構(gòu)建是指依據(jù)本體的定義,構(gòu)建出知識圖譜的本體結(jié)構(gòu)和知識框架。基于本體構(gòu)建圖譜的原因主要有以下幾點:
明確專業(yè)術(shù)語、關(guān)系及其領(lǐng)域公理,當一條數(shù)據(jù)必須滿足Schema預先定義好的實體對象和類型后,才允許被更新到知識圖譜中。
將領(lǐng)域知識與操作性知識分離,通過Schema可以宏觀了解圖譜架構(gòu)及相關(guān)定義,無須再從三元組中歸納整理。
實現(xiàn)一定程度的領(lǐng)域知識復用。在構(gòu)建本體之前,可以先調(diào)研是否有相關(guān)本體已經(jīng)被構(gòu)建出來,這樣可以基于已有本體進行改進和擴展,達到事半功倍的效果。
基于本體的定義,可以避免圖譜與應用脫節(jié),或者修改圖譜Schema比重新構(gòu)建成本還要高的情況。
按照知識的覆蓋面來看,知識圖譜可以劃分為通用知識圖譜和領(lǐng)域知識圖譜,通用圖譜更注重廣度,強調(diào)融合更多的實體數(shù)量,但對精確度的要求不高,很難借助本體庫對公理、規(guī)則及約束條件進行推理和使用。而領(lǐng)域圖譜的知識覆蓋范圍較小,但知識深度更深,往往是在某一專業(yè)領(lǐng)域上的構(gòu)建。
考慮對準確率的要求,領(lǐng)域本體構(gòu)建多傾向于手工構(gòu)建的方式,例如代表性的七步法、IDEF5方法等[1],該類方法的核心思想是,基于已有結(jié)構(gòu)化數(shù)據(jù),進行本體分析,將符合應用目的和范圍的本體進行歸納及構(gòu)建,再對本體進行優(yōu)化和驗證,從而獲取初版本體定義。若想獲取更大范疇的領(lǐng)域本體,則可以從非結(jié)構(gòu)化語料中補充,考慮手工構(gòu)建過程較長,以汽車領(lǐng)域為例,提供一種半自動本體構(gòu)建的方式。
構(gòu)建詳細步驟如下:
- 首先,收集大量汽車非結(jié)構(gòu)化語料(如車系咨詢、新車導購文章等),作為初始個體概念集,利用統(tǒng)計方法或無監(jiān)督模型(TF-IDF、BERT等)獲取字特征和詞特征;
- 其次,利用BIRCH聚類算法對概念間層次劃分,初步構(gòu)建起概念間層級關(guān)系,并對聚類結(jié)果進行人工概念校驗和歸納,獲取本體的等價、上下位概念;
- 最后,使用卷積神經(jīng)網(wǎng)絡結(jié)合遠程監(jiān)督的方法,抽取本體屬性的實體關(guān)系,并輔以人工識別本體中的類及屬性的概念,構(gòu)建起汽車領(lǐng)域本體。
上述方法可有效利用BERT等深度學習技術(shù),更好地捕捉語料間的內(nèi)部關(guān)系,使用聚類分層次對本體各模塊進行構(gòu)建,輔以人工干預,能夠快速、準確的完成初步本體構(gòu)建。下圖為半自動化本體構(gòu)建示意圖:
利用Protégé本體構(gòu)建工具[2],可以進行本體概念類、關(guān)系、屬性和實例的構(gòu)建,下圖為本體構(gòu)建可視化示例圖:Protégé可以導出不同類型的Schema配置文件,其中owl.xml結(jié)構(gòu)配置文件如下圖所示。該配置文件可直接在MySQL、JanusGraph中加載使用,實現(xiàn)自動化的創(chuàng)建Schema。
知識獲取
知識圖譜的數(shù)據(jù)來源通常包括三類數(shù)據(jù)結(jié)構(gòu),分別為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。面向不同類型的數(shù)據(jù)源,知識抽取涉及的關(guān)鍵技術(shù)和需要解決的技術(shù)難點有所不同。結(jié)構(gòu)化知識轉(zhuǎn)模結(jié)構(gòu)化數(shù)據(jù)是圖譜最直接的知識來源,基本通過初步轉(zhuǎn)換就可以使用,相較其他類型數(shù)據(jù)成本最低,所以圖譜數(shù)據(jù)一般優(yōu)先考慮結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)可能涉及多個數(shù)據(jù)庫來源,通常需要使用ETL方法轉(zhuǎn)模,ETL即Extract(抽取)、Transform(轉(zhuǎn)換)、Load(裝載)。通過ETL流程可將不同源數(shù)據(jù)落到中間表,從而方便后續(xù)的知識入庫。下圖為車系實體屬性、關(guān)系表示例圖:車系與品牌關(guān)系表:非結(jié)構(gòu)化知識抽取——三元組抽取除了結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)中也存在著海量的知識(三元組)信息。一般來說,企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)量要遠大于結(jié)構(gòu)化數(shù)據(jù),挖掘非結(jié)構(gòu)化知識能夠極大拓展和豐富知識圖譜。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
數(shù)字通信相關(guān)文章:數(shù)字通信原理