大規(guī)模開放數(shù)字商業(yè)知識圖譜評測基準(zhǔn)來了：OpenBG上線天池

發(fā)布人：機(jī)器之心時間：2022-11-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

在數(shù)字商業(yè)領(lǐng)域，知識圖譜業(yè)務(wù)的蓬勃發(fā)展在許多應(yīng)用顯示出了巨大的潛力，但它仍面臨著諸多挑戰(zhàn)。由阿里巴巴藏經(jīng)閣團(tuán)隊和浙江大學(xué)開放的數(shù)字商業(yè)知識圖譜評測基準(zhǔn) OpenBG 提供了豐富的數(shù)字商業(yè)領(lǐng)域知識圖譜的評測數(shù)據(jù)集，覆蓋基于知識圖譜的商品顯著性推理、商品同款挖掘、商品知識圖譜鏈接預(yù)測等任務(wù)，對模型展開了全方位評測，旨在幫助算法人員對模型取得更好的理解。

近年來，知識圖譜受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注，在教育、生物醫(yī)學(xué)、金融等領(lǐng)域得到了廣泛的應(yīng)用，凸顯了結(jié)構(gòu)化知識在智能應(yīng)用中的重要作用。2020 年圖靈獎得主 LeCun、Bengio 和 Hinton 在 2015 年《Nature》論文[1]曾指出：融合表示學(xué)習(xí)與復(fù)雜知識推理是人工智能進(jìn)步的階梯。在數(shù)字商業(yè)領(lǐng)域，知識圖譜業(yè)務(wù)的蓬勃發(fā)展在許多應(yīng)用顯示出了巨大的潛力，但它仍面臨著諸多挑戰(zhàn)。例如，現(xiàn)有的商業(yè)知識圖譜往往存在大量的缺失屬性、實體節(jié)點和大量相同的未對齊的實體節(jié)點，且知識圖譜通常由多種模態(tài)構(gòu)成，因而如何對大規(guī)模數(shù)字知識圖譜進(jìn)行鏈接預(yù)測和實體對齊（同款商品挖掘）面臨嚴(yán)峻挑戰(zhàn)；此外，現(xiàn)有的知識圖譜通常缺乏對知識顯著性的建模，如當(dāng)用戶在電商平臺搜索 “跑步”關(guān)鍵詞時，“瓶裝水”一般不是用戶真實的購物意圖，用戶關(guān)注的商品一般是 “跑步鞋、跑步機(jī)” 等健身用品。顯著的常識可以幫助搜索引擎有更好的理解能力，從而返回更貼合用戶需要的商品，因此如何基于數(shù)字商業(yè)知識圖譜進(jìn)行商品顯著性推理也面臨巨大挑戰(zhàn)。

由阿里巴巴藏經(jīng)閣團(tuán)隊和浙江大學(xué)開放的數(shù)字商業(yè)知識圖譜評測基準(zhǔn) OpenBG Benchmark 提供了在數(shù)字商業(yè)領(lǐng)域知識圖譜的評測數(shù)據(jù)集，覆蓋基于知識圖譜的商品顯著性推理、商品同款挖掘、電商知識圖譜鏈接預(yù)測等任務(wù)，對模型展開了全方位的評測，旨在幫助科研和算法人員對模型取得更好的理解。

OpenBG Benchmark 介紹

OpenBG Benchmark 是一個大規(guī)模開放數(shù)字商業(yè)知識圖譜評測基準(zhǔn)，包含多個子數(shù)據(jù)集任務(wù)。數(shù)據(jù)集以開放的數(shù)字商業(yè)知識圖譜 OpenBG[2]為基礎(chǔ)構(gòu)建，OpenBG 是開放的數(shù)字商業(yè)知識圖譜，是一個使用統(tǒng)一 Schema 組織、涵蓋產(chǎn)品和消費需求的百萬級多模態(tài)數(shù)據(jù)集。OpenBG 由阿里巴巴藏經(jīng)閣團(tuán)隊和浙江大學(xué)提供，開放的目標(biāo)是利用開放的商業(yè)知識發(fā)現(xiàn)社會經(jīng)濟(jì)的價值，促進(jìn)數(shù)字商務(wù)數(shù)字經(jīng)濟(jì)等領(lǐng)域的交叉學(xué)科研究，服務(wù)數(shù)字經(jīng)濟(jì)健康發(fā)展的國家戰(zhàn)略需求。首期開放包含以下三大類任務(wù)：

商品常識知識顯著性推理

任務(wù)描述

常識知識是被社會廣泛承認(rèn)的對同一事物普遍存在的日常共識。在電商場景中，顯著性常識基于背后的知識體系，能為不同的用戶推薦合適的商品，對用戶體驗和購物效率有重要的意義?，F(xiàn)有的常識分類方法往往只注重評判常識是否合理，如 "跑步需要喝水"、"出差需要背包"。但當(dāng)在電商平臺搜索 "跑步" 時，瓶裝水一般不是用戶真實的購物意圖，用戶關(guān)注的商品一般是 “跑步鞋”、“跑步機(jī)” 等健身用品；在搜索 "出差" 時，“背包”一般并不是用戶需要的商品，但 “旅行箱” 可能是符合用戶意圖的商品。顯著的常識可以幫助搜索引擎有更好的理解能力，從而返回更貼合用戶需要的商品。

任務(wù)說明

本任務(wù)要求對電商常識三元組的顯著性進(jìn)行判斷，即給定常識三元組（S，P，O），輸出其顯著性分類標(biāo)簽，如下表所示，其中 1 表示顯著，0 表示不顯著。

商品同款挖掘

任務(wù)描述

同款商品是指商品的重要屬性完全相同且客觀可比的商品，商品同款識別的主要目的是從海量結(jié)構(gòu)化和無結(jié)構(gòu)化的商品圖文數(shù)據(jù)庫中匹配得到同款商品，是構(gòu)建電商產(chǎn)品關(guān)系的重要環(huán)節(jié)。商品同款作為商品知識圖譜的重要組成部分，有很多應(yīng)用場景，如同款商品發(fā)現(xiàn)等。

任務(wù)說明

我們將商品同款識別任務(wù)定義為二分類任務(wù)，即給定商品對信息，判斷商品 item 是否同款，示例如下：

商品關(guān)系推理與鏈接預(yù)測

任務(wù)描述

由于知識圖譜普遍存在不完整的問題，因此需要關(guān)系推理與鏈接預(yù)測技術(shù)對缺失的圖譜節(jié)點進(jìn)行預(yù)測。本任務(wù)旨在提升數(shù)字商業(yè)場景下知識圖譜嵌入效果，滿足商品推薦等應(yīng)用對推理商品潛在關(guān)聯(lián)性的需求。

任務(wù)說明

知識圖譜一般通過三元組（h,r,t）的形式組織數(shù)據(jù)，其中 h 被稱為頭實體，t 為尾實體，r 為連接頭、尾實體的關(guān)系。如下圖所示（“化妝棉”，“品牌”，“屈臣氏”）就是一個圖譜三元組。知識圖譜的鏈接預(yù)測任務(wù)指的是已知頭實體（或尾實體）和關(guān)系的情況下，預(yù)測缺失的尾實體（或頭實體）。下圖中，（“化妝棉”，“適用群體”，？）就是一個鏈接預(yù)測任務(wù)，需要預(yù)測出尾實體。

數(shù)據(jù)集

與商品常識顯著性推理以及同款挖掘任務(wù)不同的是，鏈接預(yù)測任務(wù)由 3 個子任務(wù)數(shù)據(jù)集組成：OpenBG500、OpenBG500-L 和 OpenBG-IMG。其中 OpenBG500 包含 500 類關(guān)系，含百萬級別規(guī)模的圖譜數(shù)據(jù)；OpenBG500-L 在 OpenBG500 的基礎(chǔ)上擴(kuò)大了數(shù)據(jù)規(guī)模，含千萬級別規(guī)模的圖譜數(shù)據(jù)，是電子商務(wù)領(lǐng)域大規(guī)模的知識圖譜；OpenBG-IMG 是電商領(lǐng)域的多模態(tài)知識圖譜。3 個數(shù)據(jù)集均以 OpenBG 為基礎(chǔ)構(gòu)建，構(gòu)建流程如下：

OpenBG Benchmark 挑戰(zhàn)榜

OpenBG Benchmark 的提出旨在解決當(dāng)前數(shù)字商業(yè)領(lǐng)域知識圖譜數(shù)據(jù)集相對匱乏的問題，為算法和科研人員提供評測基準(zhǔn)去衡量算法模型的有效性?；?OpenBG Benchmark 阿里巴巴藏經(jīng)閣團(tuán)隊曾在 CCKS2022 大會成功組織了學(xué)術(shù)評測比賽，吸引了 3000 多支隊伍報名參賽。目前 OpenBG Benchmark 已經(jīng)在阿里云天池平臺長期開放，感興趣的研究者們可以訪問如下鏈接參與挑戰(zhàn)，平臺會在每個月的月底評出榜單 Top5 選手，并贈予天池定制禮品！

挑戰(zhàn)榜地址：https://tianchi.aliyun.com/dataset/122271

官方也提供了基線代碼供算法人員參考: https://github.com/OpenBGBenchmark

OpenBG 參考論文如下：

Qu, Yincen, et al. "Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in E-commerce." Findings of EMNLP 2022.
Xie, Xin, et al. "From Discrimination to Generation: Knowledge Graph Completion with Generative Transformer." WWW 2022 (Poster).
Deng, Shumin, et al. "Construction and Applications of Billion-Scale Multimodal Pre-trained Business Knowledge Graph." arXiv preprint arXiv:2209.15214 2022.

引用：

[1] https://www.nature.com/articles/nature14539

[2] https://kg.alibaba.com

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

離子色譜儀相關(guān)文章:離子色譜儀原理

博客專欄

大規(guī)模開放數(shù)字商業(yè)知識圖譜評測基準(zhǔn)來了：OpenBG上線天池

相關(guān)推薦

技術(shù)專區(qū)