揭秘阿里打假AI大腦：數(shù)據(jù)總量186個國家圖書館，1 AI=50000人類，獲創(chuàng)新大獎

作者：李根時間：2019-08-15 來源：量子位

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

本文經(jīng)AI新媒體量子位（公眾號 ID: QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

本文引用地址：http://www.butianyuan.cn/article/201908/403730.htm

“令人震驚的是，在打假這方面，美國竟然遠遠落后！”一個月前，美國司法委員會副主席、共和黨參議員道格·柯林斯痛陳美國被假貨所困的問題，其話言猶在耳，近日阿里打假技術又拿下國內(nèi)高規(guī)格的技術大獎。

8月9日，由工信部、公安部及網(wǎng)信辦三部委指導主辦的“中國人工智能高峰論壇”在廈門召開，經(jīng)過層層評選，阿里巴巴知產(chǎn)保護科技大腦被三部委評為“人工智能創(chuàng)新之星” 。

知識產(chǎn)權(quán)保護所指，更喜聞樂見的叫法就是打假。而阿里的知產(chǎn)保護科技大腦是一套阿里20年間積累的海量線上線下假貨特征庫、打假經(jīng)驗聚合而成的算法技術系統(tǒng)，獨創(chuàng)“安全AI”大腦是核心。

這套系統(tǒng)24小時自動運轉(zhuǎn)，96%的疑似侵權(quán)鏈接在發(fā)布的那一剎那就已被秒殺。在過去3年，阿里已使用這套技術協(xié)助全國31個省份、227個區(qū)縣的警方抓獲制售假嫌疑人4439人，搗毀制售假窩點4289個。

從美國議員點贊到國內(nèi)技術大獎，可以說時節(jié)已至，阿里打假正進入爆發(fā)性收獲階段。量子位也了解到這背后的安全AI運作之力、創(chuàng)新之功，接下來為大家一一揭秘。

1 AI 大腦=5 萬人類

知產(chǎn)保護科技大腦，就是誠心和技術創(chuàng)新的集大成產(chǎn)品。

該“大腦”完全由阿里自主研發(fā)，已經(jīng)被廣泛應用于阿里生態(tài)內(nèi)外，對假貨、山寨、侵權(quán)盜版等進行偵測和打擊。

而且作為一支上崗AI，各方面實力，不僅比人類干得好，而且很多能力人類干不了。

阿里方面公布了一系列驚人數(shù)據(jù)表現(xiàn)：

如果人工查看1張圖片的信息需要10秒鐘，那么5萬人同時工作的效率才能勉強趕上“知產(chǎn)保護科技大腦”掃描甄別圖片的速度。淘寶天貓平臺每日新發(fā)商品量以千萬計，如果人工巡查，138889人工作1天才能把這項工作完成。

阿里安全圖靈實驗室負責人薛暉透露，這套系統(tǒng)的樣本數(shù)據(jù)總量相當于186個中國國家圖書館藏量，僅累積的打假圖片樣本量就超過137億張，用0.3毫米的標準相紙打印疊加后高達4110千米，是世界最高建筑迪拜塔的4964倍，約等于464個珠穆朗瑪峰。

驚人的效果背后是阿里在安全場景里不斷進化技術力量所鍛造的“安全AI”風控體系。

安全AI如何服務知識產(chǎn)權(quán)保護？

所謂安全AI，是指安全場景中進化出的AI，擁有更強、更多元化的能力；與當前通用AI的理念不同，阿里安全更注重在業(yè)務安全領域垂直縱深的技術積淀，開發(fā)出適應更多安全場景的新一代AI，讓傳統(tǒng)的安全問題找到新的AI解法。阿里在今年年初提出這一全新理念，稱其將成為未來網(wǎng)絡安全問題的核心解法。

據(jù)悉，阿里知產(chǎn)科技大腦的秘密在于四大智能核心引擎，涵蓋阿里上百項自主研發(fā)的安全AI技術。分而解之，涉及感知引擎、認知引擎、決策引擎和計算引擎。

實際也是通用人工智能（AGI）必不可少的四大引擎，只是阿里垂直為打假服務。

從項目申報說明里，也能尋得宏觀架構(gòu)脈絡。

感知引擎：核心技術是計算機視覺技術及語音識別技術，是整個系統(tǒng)的感官系統(tǒng)，是對象識別的基礎，為形成后續(xù)一系列處理動作邁出第一步。

包括，用于開店身份認證環(huán)節(jié)的人臉識別、聲紋識別、活體檢測等生物識別技術；用于開店資質(zhì)核驗環(huán)節(jié)的證件識別、篡改檢測技術；用于線上商品識別的商標檢測、物體檢測、光學字符識別技術；用于營銷環(huán)節(jié)檢測的廣告圖片分析和視頻直播監(jiān)測技術，以及用于原創(chuàng)作品保護的多媒體檢索和圖像水印技術等。

正是“感官系統(tǒng)”精準的語音、圖像、音頻、視頻感知能力，整個系統(tǒng)才能在數(shù)億復雜數(shù)據(jù)中準確識別出需要保護和防御的對象，進行下一步處理。

認知引擎：核心技術是自然語言處理技術

認知引擎是系統(tǒng)的“翻譯官”，讓機器懂得文字的意思、人類聲音的含義，以及人們動作的性質(zhì)，從而判斷善意惡意、危險安全。

具體包括針對海量商品結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建的知識圖譜技術；面向海外電商的多語言分析和機器翻譯技術，針對外部反饋的評價、輿情進行識別的語義分析技術；以及融合多模態(tài)信息，對商品的全面認知和理解的技術。

第三，決策引擎：核心技術包括深度學習和強化學習兩塊，用來解決現(xiàn)實中的復雜決策問題。

它是系統(tǒng)的“軍師”，決定了系統(tǒng)該如何動作，如何更合理有效地作出最佳應對。例如當面臨商家實時博弈、信息內(nèi)容的變異，以及黑產(chǎn)的惡意攻擊時，在全局視角下做出更有利的決策。

最后還有計算引擎，包括實時指標計算系統(tǒng)、分布式異構(gòu)計算系統(tǒng)、和大規(guī)模圖神經(jīng)網(wǎng)絡系統(tǒng)。

這是打假AI大腦的發(fā)動機，它強大的性能保證了系統(tǒng)在數(shù)千并發(fā)、數(shù)十億數(shù)據(jù)面前坦然自若、精準高效。

計算引擎背后，支撐的是阿里云機器學習平臺 – PAI 3.0。

它可以實現(xiàn)單任務支持上千worker并發(fā)訓練，并支持5k+超大規(guī)模異構(gòu)計算集群，保證全天候監(jiān)控數(shù)十億商品異常情況，以及對經(jīng)營者行為的全方位監(jiān)督。

臺上一分鐘，技術20年功

值得一提的是，四大引擎架構(gòu)宏觀，但背后每一項技術積累，都是工程師們?nèi)找箍喙Φ慕Y(jié)果。

值得一提的是，打假AI大腦是阿里安全“安全AI”落地應用場景之一。阿里在高風險、強對抗的場景中不斷進化AI的力量，通過小樣本學習、多模態(tài)、自監(jiān)督學習等新技術的持續(xù)應用，在內(nèi)容安全、新零售安全、交易安全等百余場景中持續(xù)應用，其凝聚著阿里安全圖靈實驗室在AI領域超過10年的技術積淀，實現(xiàn)水滴石穿。

從最近阿里安全圖靈實驗室在人工智能頂會的論文中，不難發(fā)現(xiàn)其功力所在。