中國AI又奪一冠！依圖刷榜全球聲紋識別挑戰(zhàn)賽，刷新紀錄，大比分奪魁

作者：魚羊時間：2019-09-12 來源：量子位

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

本文經AI新媒體量子位（公眾號 ID: QbitAI）授權轉載，轉載請聯系出處。

本文引用地址：http://butianyuan.cn/article/201909/404744.htm

中國軍團，繼續(xù)刷新全球ＡＩ各項競賽。

這一次，是全球聲紋識別競賽；這一次，是獨角獸依圖。

ＶｏｘＣｅｌｅｂ說話人識別挑戰(zhàn)賽，簡稱ＶｏｘＳＲＣ，近日正式公布結果。

在這場匯聚了中外語音領域頂級高手的挑戰(zhàn)賽中，依圖（ｌｏｇｉｃｗｏｒｌｄ）以絕對領先優(yōu)勢斬獲冠軍。

而且挑戰(zhàn)賽比拼內容，正是當前語音識別領域最高精尖的“聲紋識別”賽道。

之前依圖已經展示了視覺感知、語音識別和語義理解等方面的不俗實力。

現在，依圖則進一步用一個前沿技術領域的全球冠軍，展示了其技術深度之外，在廣度方面的開拓。

真是依圖出沒，氣勢洶涌。

依圖又奪何冠？

ＶｏｘＳＲＣ，由來自牛津大學，斯坦福國際研究院和麻省理工的學者組織舉辦。

參賽者包括約翰霍普金斯大學、法國國家信息與自動化研究所、日本電氣（ＮＥＣ）等傳統(tǒng)豪強，也有中國的清華大學，天津大學，中山大學，依圖科技，平安科技等學校企業(yè)。

選手都有備而來，比拼直接而激烈。

指紋識別，人臉識別已經被大眾所熟知，但同樣作為生物信息識別的一種——聲紋識別（即說話人識別），目前還是技術挑戰(zhàn)的前沿，常在科幻電影中出現，也常被語音ＡＩ公司當展望談及。

聲紋識別權威評判標準不多，但真正檢驗技術的，ＶｏｘＣｅｌｅｂ說話人識別挑戰(zhàn)賽可能算一個。

其主要考核，是運用ＡＩ技術如何能夠從自然語音中識別出說話人。

比賽采用的訓練數據集為ＶｏｘＣｅｌｅｂ２，由牛津大學發(fā)起提供。這一數據集中的音頻全部采集自ＹｏｕＴｕｂｅ，場景包括明星紅地毯、名人演講、真人節(jié)目訪談以及大型體育解說等，包含了５９９４位名人的超過一百萬條語音。

這些名人涉及不同的性別，種族，口音，職業(yè)和年齡，并且音頻中存在各種各樣的背景噪聲，包括環(huán)境突發(fā)噪聲、背景人聲、笑聲、回聲，室內噪聲和錄音設備噪聲等等。

比賽的測試集則全部沒有標注，屬于“盲測”，保證了競賽的公平與公正。

面對如此挑戰(zhàn)，想讓ＡＩ準確提取聲學特征、說話人特征，并實現準確的識別匹配，并非易事。

在發(fā)表于Ｉｎｔｅｒｓｐｅｅｃｈ?。玻埃保傅恼撐闹?，ＶｏｘＣｅｌｅｂ２的作者牛津大學Ｖｉｓｕａｌ　Ｇｅｏｍｅｔｒｙ?。牵颍铮酰饘嶒炇矣柧毘龅模遥澹螅危澹簦担斑_到了３．９５％的等錯誤率（ＥＥＲ），超越了當時的基線方法。

而就在這場比賽中，依圖不僅大幅刷新該紀錄，將ＥＥＲ壓縮至０．９８％，還超出第二名（１．４２％）一個身位，以絕對優(yōu)勢奪冠。

毫無疑問，這是一次技術實力的肌肉展示。

但如果熟悉依圖業(yè)務，就可能忍不住想得更多。

依圖參與全球聲紋識別競賽，又怎會是為了刷榜而刷榜？

技術“冗余”，增強場景化落地

從聲紋識別本身來說，作為生物識別技術的一種，應用前景原本就非常廣闊。

在個人信息加密領域，更能發(fā)揮重要的作用。

作為一種生物識別解決方案，聲紋識別在金融等對個人信息安全有高要求的行業(yè)當中，也能夠提供更高的安全性，強化風控能力。

此外作為智能語音應用落地的更大挑戰(zhàn)，聲紋識別的攻堅，對于性別年齡畫像、語種方言識別，進而做到真正的語音交互千人千面，都是繞不過去的核心問題。

而且隨著ＡＩ在各行各業(yè)的場景化落地越來越普遍，技術冗余，針對不同問題提供不同解決方案，也在成為ＡＩ公司競爭力的核心要求。

在各項技術上有實力、有儲備，才能發(fā)展、落地更全面。

也就意味著，ＡＩ公司下一階段發(fā)展，深度和廣度，都得兼?zhèn)洹?/span>

ＡＩ公司的深度＆廣度

這或許也是依圖目前發(fā)展開拓的背后思路。

之前，依圖被人熟知，更多是“ＣＶ四小龍”的并稱，強調其在視覺領域的地位。

依圖也確實在多項視覺國際比拼中斬獲冠軍。比如依圖連續(xù)三年參加美國國家標準技術局（ＮＩＳＴ）人臉識別供應商測試（ＦＶＲＴ），連續(xù)三次斬獲冠軍。

在安防、金融和醫(yī)療領域，依圖的ＡＩ視覺能力，也贏得了真實業(yè)務場景的認可。

但２０１８年以來，依圖開始展現出強大的“泛化”能力，開始將ＡＩ技術打通，并迅速在拓展領域取得核心突破。

在語音領域，其語音識別算法在全球最大的開源中文數據庫ＡＩＳＨＥＬＬ－２上字錯率僅３．７１％，大幅刷新紀錄。

在ＮＬＰ方面，依圖聯合廣州婦女兒童醫(yī)療中心等機構，將自然語言處理（ＮＬＰ）技術應用于兒科疾病診斷，成果登上《自然·醫(yī)學》（Ｎａｔｕｒｅ?。停澹洌椋悖椋睿澹?，這也創(chuàng)下中國ＡＩ醫(yī)學的新紀錄。

其后更令業(yè)界震動的是，依圖低調部署研發(fā)，完成了自主ＡＩ芯片“求索”的流片、發(fā)布并商用，以“算法即芯片”理念，提出智能密度的新理論，為ＡＩ場景化落地，提供坐標參考系。

最近一次，由工信部、公安部及網信辦三部委指導主辦的“中國人工智能高峰論壇”上，依圖ＡＩ芯片不僅獲得了ＡＩ創(chuàng)新之星，依圖也在首屆多媒體信息識別競賽中，于１１個任務中，斬獲１０個Ａ級，為所有參賽者中奪冠最多。

所以，依圖路徑、依圖模式，也是時候值得更多討論了。

這種模式在科技創(chuàng)業(yè)的歷史中并不陌生。先有垂直深度，然后平臺化遷移，打造技術更為全面、應用更加廣泛的大平臺。

但在ＡＩ歷程中，這樣既要保證深度又有兼顧廣度的事情，依圖之外，還無人做到。

所以聲紋之冠，或許還不是依圖實力的全部。

依圖之路，也值得上下求索。

你說呢？

新聞中心

中國AI又奪一冠！依圖刷榜全球聲紋識別挑戰(zhàn)賽，刷新紀錄，大比分奪魁

依圖又奪何冠？

技術“冗余”，增強場景化落地

ＡＩ公司的深度＆廣度

評論

相關推薦

技術專區(qū)

新聞中心

中國AI又奪一冠！依圖刷榜全球聲紋識別挑戰(zhàn)賽，刷新紀錄，大比分奪魁

依圖又奪何冠？

技術“冗余”，增強場景化落地

ＡＩ公司的深度＆廣度

評論

相關推薦

技術專區(qū)

中國AI又奪一冠！依圖刷榜全球聲紋識別挑戰(zhàn)賽，刷新紀錄，大比分奪魁

依圖又奪何冠？

技術“冗余”，增強場景化落地