博客專欄

EEPW首頁 > 博客 > 大規(guī)模開放數(shù)字商業(yè)知識圖譜評測基準(zhǔn)來了:OpenBG上線天池

大規(guī)模開放數(shù)字商業(yè)知識圖譜評測基準(zhǔn)來了:OpenBG上線天池

發(fā)布人:機(jī)器之心 時間:2022-11-19 來源:工程師 發(fā)布文章
在數(shù)字商業(yè)領(lǐng)域,知識圖譜業(yè)務(wù)的蓬勃發(fā)展在許多應(yīng)用顯示出了巨大的潛力,但它仍面臨著諸多挑戰(zhàn)。由阿里巴巴藏經(jīng)閣團(tuán)隊和浙江大學(xué)開放的數(shù)字商業(yè)知識圖譜評測基準(zhǔn) OpenBG 提供了豐富的數(shù)字商業(yè)領(lǐng)域知識圖譜的評測數(shù)據(jù)集,覆蓋基于知識圖譜的商品顯著性推理、商品同款挖掘、商品知識圖譜鏈接預(yù)測等任務(wù),對模型展開了全方位評測,旨在幫助算法人員對模型取得更好的理解。


圖片


近年來,知識圖譜受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注,在教育、生物醫(yī)學(xué)、金融等領(lǐng)域得到了廣泛的應(yīng)用,凸顯了結(jié)構(gòu)化知識在智能應(yīng)用中的重要作用。2020 年圖靈獎得主 LeCun、Bengio 和 Hinton 在 2015 年《Nature》論文[1]曾指出:融合表示學(xué)習(xí)與復(fù)雜知識推理是人工智能進(jìn)步的階梯。在數(shù)字商業(yè)領(lǐng)域,知識圖譜業(yè)務(wù)的蓬勃發(fā)展在許多應(yīng)用顯示出了巨大的潛力,但它仍面臨著諸多挑戰(zhàn)。例如,現(xiàn)有的商業(yè)知識圖譜往往存在大量的缺失屬性、實體節(jié)點和大量相同的未對齊的實體節(jié)點,且知識圖譜通常由多種模態(tài)構(gòu)成,因而如何對大規(guī)模數(shù)字知識圖譜進(jìn)行鏈接預(yù)測和實體對齊(同款商品挖掘)面臨嚴(yán)峻挑戰(zhàn);此外,現(xiàn)有的知識圖譜通常缺乏對知識顯著性的建模,如當(dāng)用戶在電商平臺搜索 “跑步”關(guān)鍵詞 時,“瓶裝水”一般不是用戶真實的購物意圖,用戶關(guān)注的商品一般是 “跑步鞋、跑步機(jī)” 等健身用品。顯著的常識可以幫助搜索引擎有更好的理解能力,從而返回更貼合用戶需要的商品,因此如何基于數(shù)字商業(yè)知識圖譜進(jìn)行商品顯著性推理也面臨巨大挑戰(zhàn)。


由阿里巴巴藏經(jīng)閣團(tuán)隊和浙江大學(xué)開放的數(shù)字商業(yè)知識圖譜評測基準(zhǔn) OpenBG Benchmark 提供了在數(shù)字商業(yè)領(lǐng)域知識圖譜的評測數(shù)據(jù)集,覆蓋基于知識圖譜的商品顯著性推理、商品同款挖掘、電商知識圖譜鏈接預(yù)測等任務(wù),對模型展開了全方位的評測,旨在幫助科研和算法人員對模型取得更好的理解。


OpenBG Benchmark 介紹


OpenBG Benchmark 是一個大規(guī)模開放數(shù)字商業(yè)知識圖譜評測基準(zhǔn),包含多個子數(shù)據(jù)集任務(wù)。數(shù)據(jù)集以開放的數(shù)字商業(yè)知識圖譜 OpenBG[2]為基礎(chǔ)構(gòu)建,OpenBG 是開放的數(shù)字商業(yè)知識圖譜,是一個使用統(tǒng)一 Schema 組織、涵蓋產(chǎn)品和消費需求的百萬級多模態(tài)數(shù)據(jù)集。OpenBG 由阿里巴巴藏經(jīng)閣團(tuán)隊和浙江大學(xué)提供,開放的目標(biāo)是利用開放的商業(yè)知識發(fā)現(xiàn)社會經(jīng)濟(jì)的價值,促進(jìn)數(shù)字商務(wù)數(shù)字經(jīng)濟(jì)等領(lǐng)域的交叉學(xué)科研究,服務(wù)數(shù)字經(jīng)濟(jì)健康發(fā)展的國家戰(zhàn)略需求。首期開放包含以下三大類任務(wù):


商品常識知識顯著性推理


  • 任務(wù)描述


常識知識是被社會廣泛承認(rèn)的對同一事物普遍存在的日常共識。在電商場景中,顯著性常識基于背后的知識體系,能為不同的用戶推薦合適的商品,對用戶體驗和購物效率有重要的意義?,F(xiàn)有的常識分類方法往往只注重評判常識是否合理,如 "跑步需要喝水"、"出差需要背包"。但當(dāng)在電商平臺搜索 "跑步" 時,瓶裝水一般不是用戶真實的購物意圖,用戶關(guān)注的商品一般是 “跑步鞋”、“跑步機(jī)” 等健身用品;在搜索 "出差" 時,“背包”一般并不是用戶需要的商品,但 “旅行箱” 可能是符合用戶意圖的商品。顯著的常識可以幫助搜索引擎有更好的理解能力,從而返回更貼合用戶需要的商品。


  • 任務(wù)說明


本任務(wù)要求對電商常識三元組的顯著性進(jìn)行判斷,即給定常識三元組(S,P,O),輸出其顯著性分類標(biāo)簽,如下表所示,其中 1 表示顯著,0 表示不顯著。


圖片

商品同款挖掘


  • 任務(wù)描述


同款商品是指商品的重要屬性完全相同且客觀可比的商品,商品同款識別的主要目的是從海量結(jié)構(gòu)化和無結(jié)構(gòu)化的商品圖文數(shù)據(jù)庫中匹配得到同款商品,是構(gòu)建電商產(chǎn)品關(guān)系的重要環(huán)節(jié)。商品同款作為商品知識圖譜的重要組成部分,有很多應(yīng)用場景,如同款商品發(fā)現(xiàn)等。


  • 任務(wù)說明


我們將商品同款識別任務(wù)定義為二分類任務(wù),即給定商品對信息,判斷商品 item 是否同款,示例如下:


圖片


商品關(guān)系推理與鏈接預(yù)測


  • 任務(wù)描述


由于知識圖譜普遍存在不完整的問題,因此需要關(guān)系推理與鏈接預(yù)測技術(shù)對缺失的圖譜節(jié)點進(jìn)行預(yù)測。本任務(wù)旨在提升數(shù)字商業(yè)場景下知識圖譜嵌入效果,滿足商品推薦等應(yīng)用對推理商品潛在關(guān)聯(lián)性的需求。


  • 任務(wù)說明


知識圖譜一般通過三元組(h,r,t)的形式組織數(shù)據(jù),其中 h 被稱為頭實體,t 為尾實體,r 為連接頭、尾實體的關(guān)系。如下圖所示(“化妝棉”,“品牌”,“屈臣氏”)就是一個圖譜三元組。知識圖譜的鏈接預(yù)測任務(wù)指的是已知頭實體(或尾實體)和關(guān)系的情況下,預(yù)測缺失的尾實體(或頭實體)。下圖中,(“化妝棉”,“適用群體”,?)就是一個鏈接預(yù)測任務(wù),需要預(yù)測出尾實體。


圖片

  • 數(shù)據(jù)集


與商品常識顯著性推理以及同款挖掘任務(wù)不同的是,鏈接預(yù)測任務(wù)由 3 個子任務(wù)數(shù)據(jù)集組成:OpenBG500、OpenBG500-L 和 OpenBG-IMG。其中 OpenBG500 包含 500 類關(guān)系,含百萬級別規(guī)模的圖譜數(shù)據(jù);OpenBG500-L 在 OpenBG500 的基礎(chǔ)上擴(kuò)大了數(shù)據(jù)規(guī)模,含千萬級別規(guī)模的圖譜數(shù)據(jù),是電子商務(wù)領(lǐng)域大規(guī)模的知識圖譜;OpenBG-IMG 是電商領(lǐng)域的多模態(tài)知識圖譜。3 個數(shù)據(jù)集均以 OpenBG 為基礎(chǔ)構(gòu)建,構(gòu)建流程如下:


圖片

OpenBG Benchmark 挑戰(zhàn)榜


OpenBG Benchmark 的提出旨在解決當(dāng)前數(shù)字商業(yè)領(lǐng)域知識圖譜數(shù)據(jù)集相對匱乏的問題,為算法和科研人員提供評測基準(zhǔn)去衡量算法模型的有效性?;?OpenBG Benchmark 阿里巴巴藏經(jīng)閣團(tuán)隊曾在 CCKS2022 大會成功組織了學(xué)術(shù)評測比賽,吸引了 3000 多支隊伍報名參賽。目前 OpenBG Benchmark 已經(jīng)在阿里云天池平臺長期開放,感興趣的研究者們可以訪問如下鏈接參與挑戰(zhàn),平臺會在每個月的月底評出榜單 Top5 選手,并贈予天池定制禮品! 


挑戰(zhàn)榜地址:https://tianchi.aliyun.com/dataset/122271


官方也提供了基線代碼供算法人員參考: https://github.com/OpenBGBenchmark


OpenBG 參考論文如下:

  • Qu, Yincen, et al. "Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in E-commerce." Findings of EMNLP 2022.

  • Xie, Xin, et al. "From Discrimination to Generation: Knowledge Graph Completion with Generative Transformer." WWW 2022 (Poster).

  • Deng, Shumin, et al. "Construction and Applications of Billion-Scale Multimodal Pre-trained Business Knowledge Graph." arXiv preprint arXiv:2209.15214  2022.


引用:

[1] https://www.nature.com/articles/nature14539

[2] https://kg.alibaba.com



*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

離子色譜儀相關(guān)文章:離子色譜儀原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉