對話式AI落地最難的一道題，在京東云被這些科學家搞定了

發(fā)布人：機器之心時間：2022-07-21 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

與你對話的智能客服，可能比想象中更懂你。

2012 年 10 月的一天，Geoffrey Hinton 發(fā)送給鄧力一封郵件，提到了自己最近在做的一項工作。與往常不同的是，Hinton 在郵件正文中使用了「look at this huge margin!!!」這樣的描述。
這項研究成果就是大名鼎鼎的 AlexNet。在當年的 ImageNet 挑戰(zhàn)賽上，AlexNet 將圖像識別的錯誤率從 26% 直接降低到 16%，一戰(zhàn)成名。
現(xiàn)在看來，這個成果就像是破曉時分的第一縷陽光。人們對深度學習的質(zhì)疑自此打消，AI 的第三次發(fā)展浪潮終于到來。
Hinton 和鄧力在深度學習方面的交流其實始于很久之前。2008 年的 NIPS 大會，時任微軟研究院語音研究首席研究員的鄧力和同事何曉冬在溫哥華舉辦了一場語音語言研討會，邀請過 Hinton 來做報告。但當時的深度學習始終缺少具備說服力的成果，尚不被看好。
之后，鄧力多次邀請 Hinton 到訪微軟交流。同時，鄧力和微軟的同事開始嘗試將深度神經(jīng)網(wǎng)絡應用于語音識別領域，在 2012 年于天津舉辦的「二十一世紀的計算」論壇上，微軟全球技術副總裁 Richard Rashid 演示了用深度學習進行語音識別，相比之前的語音識別系統(tǒng)錯誤率降低 30% 以上，引發(fā)業(yè)界轟動。
語音、語義、視覺等領域的突飛猛進，展示出一種希望：以往那些尚不可用的人工智能技術，在不久的未來就能真正為人類服務。
Hinton 最終選擇了谷歌，但微軟研究院陸續(xù)誕生了一系列最具影響力的早期成果，也造就了一批知名 AI 學者。
提到深度學習領域，微軟的鄧力、俞棟、何曉冬都是最早一批入場的人。在密蘇里大學哥倫比亞分校取得博士學位之后，何曉冬就加入了微軟。

鄧力與何曉冬。
2013 年，何曉冬、鄧力等人提出了深度結(jié)構(gòu)化語義模型 DSSM （Deep Structured Semantic Models）。這一模型在工業(yè)界的適應性是前所未有的，至今幾乎所有做搜索推薦場景的大廠仍在使用 DSSM 及其衍生模型。
大洋這一邊的中國，也正在經(jīng)歷一場巨變。移動互聯(lián)網(wǎng)的高速發(fā)展，衍生出大量的數(shù)據(jù)以及豐富的應用場景。京東就是極具代表性的企業(yè)之一。
2018 年，何曉冬選擇回國，加入京東。從全球范圍內(nèi)來看，京東在人工智能技術上不是起步最早的企業(yè)。但和其他公司不同，京東的 AI 技術從一開始就脫胎于大規(guī)模的產(chǎn)業(yè)實踐，帶著明顯的「產(chǎn)業(yè)烙印」。
這正是推動何曉冬選擇京東的關鍵因素。
走到產(chǎn)業(yè)的「最深處」
何曉冬一直認為，「AI 本身是個科學問題，其實也是個應用問題?！?/span>
微軟在 2014 年專門成立了深度學習技術中心（DLTC），展開了一系列探索性研究。如今的熱門方向「多模態(tài)深度學習」，就是在那個時候啟動的。圍繞微軟的 MSCOCO 數(shù)據(jù)集，一眾大學和研究機構(gòu)嘗試教會模型用一句話來描述一張圖片。
2015 年，何曉冬在 CVPR 大會上介紹了 DSSM 升級版本——DMSM，為模型添加了「看圖說話」的多模態(tài)能力，這在當時是一項很前沿的研究，立即引起了大量關注。
在波士頓的會場，當時的微軟全球執(zhí)行副總裁沈向洋穿過人群找到他，表示「就想來看看這個論文的海報」，并希望這項研究不只停留在實驗室，而是真正成為一個產(chǎn)品。后來，DLTC 成立了一個產(chǎn)品團隊，并將其視覺模塊替換為孫劍、何愷明等人最新提出的 ResNet。

DMSM 的「看圖說話」能力：「Jen-Hsun Huang, Xiaodong He, Jian Sun et al. that are posing for a picture.」（黃仁勛、何曉冬、孫劍等合影留念）
在 2016 年初微軟研究院舉辦的技術節(jié)（TechFest）上，何曉冬也在自己的「攤位」向微軟 CEO Satya Nadella 展示了這項工作。

同年 3 月，這項技術被 Satya Nadella 拿到了微軟 Build 大會上介紹，在場的記者們掏出手機拍照，發(fā)現(xiàn)生成的描述意外地精確，全球轟動。

「在微軟研究院，你可以做任何研究；但是如果想放大，就要選擇場景，選擇合適的產(chǎn)業(yè)和行業(yè)。中國互聯(lián)網(wǎng)服務的天花板更高，服務量更大，應用場景更廣，后來我們想到，比如京東的人工智能技術很多就是在實踐中打磨的，某種意義上說，京東的智能客戶服務場景，可能是國內(nèi)在客服領域最佳的 AI 實踐場景?！?/span>
2017 年到 2018 年間，幾位 AI 領域的知名學者陸續(xù)加盟京東。他們的初衷是相似的：將學界最先進的技術帶過來，在產(chǎn)業(yè)中真正用一用。
全面向技術轉(zhuǎn)型之后，京東內(nèi)部曾就「走哪種 AI 發(fā)展路線」進行過一番探討和規(guī)劃。他們得出的結(jié)論是，要從技術、產(chǎn)品、生態(tài)三方面啟動搭建。
2019 年底至 2021 年初，京東云經(jīng)歷了兩次組織架構(gòu)上的調(diào)整。第一次是京東云與人工智能、IoT 三大事業(yè)部整合為京東云與 AI 事業(yè)部，第二次是京東將云與 AI 業(yè)務與京東數(shù)科整合，成立京東科技子集團。
三年兩次的架構(gòu)調(diào)整，伴隨著的是京東在 AI 落地經(jīng)驗上的不斷深化。大家的共識逐漸清晰：一定要更懂產(chǎn)業(yè)，在產(chǎn)業(yè)服務上做文章。
據(jù)統(tǒng)計，京東體系目前用于技術研發(fā)的投入超過了 800 億，京東科技 60% 以上的員工都是技術和產(chǎn)品人才，何曉冬、鄭宇、陶大程、梅濤 4 位科學家入選 IEEE Fellow，此外還包括 40 + 位全球頂級科學家。迄今為止，京東累計申請專利 4635 個，在國際 AI 頂級會議共發(fā)表近 500 篇論文，獲得了 25 項國家 AI 競賽冠軍。
幾年過后，京東在 AI 技術上的積累愈發(fā)深厚。更重要的是，京東可以提供基于最佳實踐的解決方案，通過產(chǎn)品為客戶創(chuàng)造價值，客戶不需要是有經(jīng)驗的開發(fā)者，用戶只需要做出商業(yè)上的決策。
如何成為「最懂產(chǎn)業(yè)的云」
來到京東之后，何曉冬延續(xù)了此前在對話式 AI、多模態(tài)等領域的研究，并帶領團隊將一系列研究成果迅速轉(zhuǎn)化，應用在京東的智能服務業(yè)務中，包括知識融合的預訓練模型 K-PLUG、長文本閱讀 Read-over-Read 模型、數(shù)值推理 OPERA 模型、時序知識圖譜 TSQA 模型等。
其中，基于領域預訓練 K-PLUG 的商品文案生成模型已經(jīng)覆蓋了京東的 3000 多個三級品類，人工審核通過率 95% 以上，媲美優(yōu)秀的人類寫手，目前共生成文案 30 億字，已應用于京東發(fā)現(xiàn)好貨頻道、搭配購、AI 直播帶貨等，累計帶來超過 3 億元 GMV。

一鍵生成 3000 + 品類文案。
同時，何曉冬還牽頭搭建了京東內(nèi)部大規(guī)模對話式 AI 系統(tǒng)的搭建工作。
和國外主要針對 To C 業(yè)務的「閑聊機器人」相比，京東的智能對話系統(tǒng)以 To B 為主，往往是來自真實場景的具體問題或任務驅(qū)動型的對話。京東積累了大量與真人溝通的場景數(shù)據(jù)，為智能人機對話與交互等前沿技術的落地提供了最好的實踐場。
技術上的差距已經(jīng)不構(gòu)成絕對挑戰(zhàn)，但到了落地應用又是另外一回事。拿對話式 AI 來說，比較常見的技術壁壘包括口語不流利、話語權決策、魯棒性這三個問題。
業(yè)界一直在尋找好的破解路徑。在今年 5 月的谷歌 I/O 大會上，為了解決語音背景噪聲、用戶說話磕巴、語句斷斷續(xù)續(xù)產(chǎn)生的問題，谷歌宣布 Google Assistant 已經(jīng)進一步優(yōu)化了神經(jīng)網(wǎng)絡模型，可以對非連續(xù)的對話進行理解。
京東云遇到此類問題的時間要比谷歌早，形成了有效解決方案的時間也更早。
2020 年底，業(yè)界首個大規(guī)模商用的智能對話與交互系統(tǒng)「言犀」應運而生。針對上述的問題，言犀給出了自己的解決方案。
以口語不流利的問題為例，我們都知道，口語化表達經(jīng)常包含磕巴、語句斷斷續(xù)續(xù)的情況，還會有大量的重復、停頓、自我修正等表述；不同文化背景、不同地區(qū)的方言習慣也存在不同的呈現(xiàn)方式。此外，幾乎每年都會出現(xiàn)大量互聯(lián)網(wǎng)新詞匯。這些都會對下游的語義理解造成干擾。
言犀采用序列標注模型對句子中的每個字進行分類，從而識別句子中需要刪除的冗余成分，達到口語順滑的目的。面向為了緩解模型對于標注數(shù)據(jù)的過度依賴，言犀采用自監(jiān)督學習的方式，通過對大規(guī)模的書面流暢文本進行插入、刪除等操作，從而生成大量的不流暢文本。同時，還聯(lián)合語法判別任務，對于輸入的文本，從整個句子層面判斷是否語法正確。
還有一個問題是怎么學習「接話」問題。對于智能對話系統(tǒng)來說，判斷在合適的時機接過話語權，并且在聽者和說話者之間流暢、自然地轉(zhuǎn)換，是個有些超綱的問題。
對此，言犀引入了多模態(tài)技術，不再單憑語音信號來判斷是否接過話語權，而是分別使用語音、語義以及時間三種不同緯度的特征來判斷是否切換話語權。

多模態(tài)融合的話語權決策 (Turn taking)
對于語義特征，言犀采用 transformer 等語言模型，根據(jù)上下文來判斷當前語句是否完整；對于語音特征，言犀會將音頻片段分楨，提取每一幀的特征向量，再將其輸入到一個深層的 ResNet 網(wǎng)絡，提取其特征表示。如果提取的特征有音調(diào)偏低、語速變慢等特點，則代表可能是結(jié)尾的最后一個字；此外，還會基于語音片段的時長、語速、聲調(diào)等時間維度進一步判斷，最后通過融合三種不同模態(tài)的特征，來判斷是否接過話語權。
一個形象的比喻是：京東每天有千萬級的對話量，相當于千萬次「圖靈測試」。通過和用戶間的不斷溝通，言犀持續(xù)測試最佳的應答方式，提升自己解決問題的能力。
在近日舉行的 2022 京東云峰會上，言犀官宣了品牌升級動作。升級后的「言犀 2.0」，產(chǎn)業(yè)標簽更加突出。

相比于第一代，言犀 2.0 最大的特點是突出了交互型多模態(tài)數(shù)字人的應用，在語音、語義的功能之上，增加了視覺技術的驅(qū)動。
言犀多模態(tài)數(shù)字人平臺定位「產(chǎn)業(yè)服務型數(shù)字人」，集成智能多模態(tài)技術于一身，包括語音語義、多輪對話、表情形象驅(qū)動等能力，可以生成生動的語音、自然的面部表情和身體姿勢，提供身臨其境的交互體驗。

在 2022 京東云峰會上，全新發(fā)布的多模態(tài)數(shù)字人「言小?！埂?/span>
言犀多模態(tài)數(shù)字人平臺已經(jīng)通過信通院首批數(shù)字人系統(tǒng)基礎能力評測，現(xiàn)在擁有 100 + 數(shù)字人形象，廣泛應用在零售直播、****業(yè)務辦理、政務服務等場景。數(shù)智供應鏈的最后一環(huán)
在當前環(huán)境下，以及產(chǎn)業(yè)數(shù)字化正由量變向質(zhì)變進化。京東指出，產(chǎn)業(yè)數(shù)字化的下一站一定是數(shù)智供應鏈。
智能服務則是「數(shù)智供應鏈的最后一環(huán)」。京東 2009 年就自建了客服團隊，2012 年就開始做智能客服，至今已超過 10 年。目前，京東云自研的言犀平臺已涵蓋了售前、售中、售后、物流等全鏈路服務。
在大會上，何曉冬還分享了一些數(shù)字：

目前，言犀平臺擁有海量的脫敏數(shù)據(jù)，每天可提供1000萬次的智能客戶服務，每月共計200萬小時通話語音，成功抗住了春晚5.5億次服務流量洪峰和多個京東618和11.11。言犀擁有業(yè)內(nèi)最細粒度的知識庫，包括4層知識體系，40+獨立子系統(tǒng)，3000+意圖，3000萬個高質(zhì)量的問答知識點，覆蓋1000萬自營SKU的電商知識圖譜。言犀每天自動回流7萬+知識點，可以實現(xiàn)動態(tài)語言模型更新以及對話路徑自動挖掘。
作為一家新型實體企業(yè)，京東一端連接消費互聯(lián)網(wǎng)，一端連接產(chǎn)業(yè)互聯(lián)網(wǎng)，已經(jīng)將對話式 AI 技術服務于京東 5.8 億用戶和 17.4 萬商家。今年 618 期間，京東智能客服累計咨詢服務量 6.1 億次，物流智能外呼累計提供電話預約服務 253 萬通；還累計完成了 3.3 億次智能質(zhì)檢與風控。
同樣的能力，也已經(jīng)應用在全國多地的政務咨詢業(yè)務中。
疫情之下，各個城市的防控需求變得常態(tài)化。常規(guī)的疫情防控與排查需要城市各級單位進行大量的調(diào)查走訪，人力物力消耗極大，同時人群聚集更易增加疾病傳播風險，這為科技防疫提供了用武之地。
在這樣的情況下，京東言犀推出了疫情防控與排查解決方案，30 分鐘內(nèi)就可以從 0 到 1 搭建完成，且擁有高并發(fā)穩(wěn)定可靠的系統(tǒng)架構(gòu)，最高可支撐 100 萬人次 / 小時，支持多批次需求的外呼任務。今年 5 月北京疫情防控過程中，一些北京市民接到過 96010 打來的流調(diào)電話。這個「外呼人員」，就來自京東言犀。

在北京生活的市民群眾來自全國各地，口音皆不相同，且電話端還可能存在高噪音的問題。針對這些挑戰(zhàn)，言犀利用其深度語音識別引擎以及口語順滑、話語權決策等前沿技術進行優(yōu)化，保證了通話流暢自然。
北京市通州區(qū)政府聯(lián)合京東云言犀平臺，對近 3 日未做核酸檢測的市民進行了超過 50 萬人的智能外呼排查，在 5 個小時內(nèi)就完成了通知、提醒近 40 萬人參與核酸檢測，為疫情防控大大減輕了壓力，節(jié)約了大量人力成本。作為抗疫外呼的官方電話號碼，96010 正在推廣至全北京市，以提供疫情防控智能外呼服務。
政務熱線被稱為「民情的溫度計」，特別是疫情期間，人們會打政務熱線咨詢能不能打疫苗、能不能出門的問題，但很多群眾會感覺到「打不通、說不清、辦不了」，這就對智能對話系統(tǒng)提出了要求：首先響應速度要快，然后要能準確識別方言濃厚、斷斷續(xù)續(xù)的句子。
在「大同 12345 政務熱線」的合作項目中，運營人員經(jīng)過一段時間的數(shù)據(jù)追蹤發(fā)現(xiàn)：京東言犀的呼入電話接起率達到了 92%，遙遙領先于其他城市。同時，言犀也自動完成了工單創(chuàng)建、智能匹配至對應委辦局、跟蹤工單執(zhí)行情況、自動對市民回訪等全閉環(huán)流程。

從場景中來，到場景中去。憑借 19 年來高效、創(chuàng)新、可持續(xù)的跨越式發(fā)展，京東已經(jīng)驗證和凝練了一套完整的能力體系。對話式 AI 落地再難，京東的科學家們也早已準備好了答案。
用何曉冬博士的一句總結(jié)：「如果想走得更遠，AI 必須要成規(guī)模的覆蓋低頻、長尾的場景。將單點的、最先進的科研模型在產(chǎn)品上綜合落地，這是真正能夠拓展 AI 價值邊界的事情?！?/span>
最先進的人工智能算法，服務最接地氣的場景，就是京東云的本色，也應該是產(chǎn)業(yè) AI 發(fā)展的本色。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

對話式AI落地最難的一道題，在京東云被這些科學家搞定了

相關推薦

技術專區(qū)