王曉雷:從自動駕駛看人工智能的能與不能
近年來,結合了感知、融合、決策、控制的自動駕駛技術無疑是近年最火的研發(fā)領域之一。這得益于現(xiàn)在人工智能技術的發(fā)展,但是在ThoughtWorks大數(shù)據(jù)團隊首席科學家王曉雷看來,人工智能不是萬能的,深度學習也可能被“愚弄”。
本文引用地址:http://butianyuan.cn/article/201807/383346.htm在近日舉行的2018 ThoughtWorks技術雷達峰會上,王曉雷進行了主題為《自動駕駛——人工智能的能與不能 》的演講,并結合自動駕駛技術的最新發(fā)展,分享了我們對于真實世界中,關于智能算法的長處和局限性的一些思考。
從備受爭議的自動駕駛談起
2015年5月,工信部發(fā)表《中國制造2025》,將智能車聯(lián)網(wǎng)提升到國家戰(zhàn)略高度。至今三年時間里,各項政策層出不窮,甚至開放了包括北京上海的部分道路在內的一部分路段作為路測。然而,近來,自動駕駛汽車的安全與倫理一直備受爭議,不僅發(fā)生了幾起令人側目的特斯拉自動駕駛系統(tǒng)事故,還在2018年3月發(fā)生一起致命事件。在該起致命事件中,Uber自動駕駛車輛與行人之間發(fā)生碰撞并導致行人死亡。這讓人們不禁關注起自動駕駛技術的敏捷度、安全性、以及車企如何能夠保證它萬無一失。
王曉雷表示, 比起完全信息博弈,自動駕駛更像是一場司機與環(huán)境的對話。這里面涉及眾多環(huán)節(jié)。比如定位與映射;場景理解;路徑規(guī)劃;狀態(tài)感知等等 。
如此復雜的流程必須依靠包括深度學習在內的人工智能技術進行支撐,機器通過大量數(shù)據(jù)的采集與特征提取,在一定算法的基礎上自主的完成優(yōu)化和改進,從而最終得出一個具有統(tǒng)計學意義的結果。這個統(tǒng)計學結果的得出其實是值得探討的。由于包括數(shù)據(jù)量不足和模型本身的種種限制,深度學習并不能實現(xiàn)100%的準確性。
人工智能背后是一整套算法的支持,而這些算法的優(yōu)化又依賴于大量的數(shù)據(jù)進行不斷的訓練,從而獲取到一個在訓練數(shù)據(jù)上相對較好的模型,然后再利用這一模型對其他數(shù)據(jù)做出預測。在這一過程中,任何一個因素都有可能導致預測結果出現(xiàn)一個偏差。舉一個例子,當我們試圖訓練一個模型來創(chuàng)作一行標題用以描述圖片內容時,我們常常認為該模型是在“理解”圖片的內容的基礎上,從而產(chǎn)生相應的標題。然而,當輕微改變訓練數(shù)據(jù)中存在的圖像時,比如調制一些特制的噪聲進去后,研發(fā)者會非常驚訝地發(fā)現(xiàn)模型開始創(chuàng)作完全荒謬的字幕。
通常,這類行為被強調為對抗案例,通過向深度學習網(wǎng)絡輸出錯誤的樣本來欺騙模型。 如上圖所示,我們拍攝一輛卡車,添加一個“鴕鳥”梯度噪聲,則訓練好的神經(jīng)網(wǎng)絡可以以很高的置信度將這輛卡車分類為鴕鳥,而人類肉眼完全無法判斷這兩張圖片之間的區(qū)別。 這證明了深度學習模型并非萬能的,它們從輸入到輸出映射與我們人類感知之間的深刻差異。
簡而言之,深度學習模式對他們的輸入沒有任何理解,至少不是從人的意義上來說。我們對圖像,聲音和語言的理解是基于我們的運動感覺體驗。然而機器人卻沒有這種經(jīng)驗,因此不能以任何以人為本的方式理解他們的駛入。通過輸入大量的培訓示例來訓練我們的模型,我們讓他們學習一個幾何變換,將數(shù)據(jù)映射到這個特定的一組示例上的人類概念,但是這個映射只是我們思想中原始模型的簡單草圖。
這也就是現(xiàn)在人工智能技術發(fā)展的困境。同樣,這與適用于自動駕駛技術?!艾F(xiàn)在對于人工智能的態(tài)度,兩類人是恐懼的。一類是不懂的人,他們認為人工智能是破壞性的;另一類是懂的人,因為他們知道人工智能能夠解決很多現(xiàn)實問題,但是這需要對人工智能技術有個正確的認識和用法,特別是算法的設計。
當算法應用于產(chǎn)品時,我們不僅僅要考慮算法是否能夠實現(xiàn)需求,同時還必須考慮算法本身的性能和準確性,這就和算法本身的體系搭建有著密切的關系。
為你的場景找到人工智能的位置
人工智能只是一個單純的技術,需要與對應的應用場景進行結合,自動駕駛就是典型應用。王曉雷表示,AI能做的與人類想要的交集就是我們的機會。所以,我們給人工智能找到一個合適的落地場景。為了實現(xiàn)這樣的目標,我們需要思考以下問題:
預測的目標可以被量化嗎?
與目標相關的特征可以被有效的表達嗎?
指標和目標相關嗎?
有足夠的數(shù)據(jù)來訓練模型嗎?
不可否認,人工智能代表著未來的方向。但是在生活中,除了在某些特定的場景(自然語言處理和計算機視覺)使用到外,人們還無法感受到它的存在和意義。目前人工智能還遠沒有達到一個被公眾所大范圍接受的地步,因為它真正缺失的也是最核心的東西,正是用戶場景。更準確地來說是接地氣的用戶場景。
在當前,隨著CNN、RNN等算法成熟和GPU對計算能力的提高,現(xiàn)今人工智能所需要面臨的是如何使應用深化,從而對產(chǎn)業(yè)發(fā)起變革。特別是場景化、標簽化的數(shù)據(jù)獲得是人工智能應用落地的關鍵。我們以安防為例,在深度學習、計算機視覺算法開源化的大趨勢下,具有特征性的場景數(shù)據(jù)集的獲得,是對安防行業(yè)人工智能視頻分析技術真正落地應用的關鍵。
1956年,美國達特茅斯大學會議標志著人工智能研究的正式誕生,推動了了全球第一次人工智能浪潮。但這一次人工智能的春天只持續(xù)了20年,原因是當時過于重視算法和方法論,而導致了人工智能在處理問題范圍的局限性。
如今,人工智能研究的發(fā)展已經(jīng)歷了六十多年的沉浮,從硬件的計算能力、到深度學習算法、計算機視覺技術和自然語言處理等各領域都有了本質上的飛躍,人工智能已經(jīng)從一個學術層面上的探索發(fā)展成一種可推動產(chǎn)業(yè)結構變革的新興生產(chǎn)方式。
在這樣的情況,整個社會需要正視人工智能技術,擁抱人工智能,推動其在行業(yè)中的落地,而問題是在發(fā)展中解決的,我們不能因噎廢食。相信未來人工智能在整個產(chǎn)業(yè)革新方面發(fā)揮越來越重要的作用。
評論