微軟CEO談人工智能、算法責任以及Tay黑化的教訓
在納德拉設想的未來中,聊天機器人將大行其道。
本文引用地址:http://butianyuan.cn/article/201611/339839.htm周一(9月26日),該公司首席執(zhí)行官薩蒂亞·納德拉(Satya Nadella)站在舞臺上發(fā)表了年內(nèi)關于人工智能(AI)的第二場主題演講。
從云計算服務到Microsoft Word,他重申了微軟要在旗下各項業(yè)務中注入某種人工智能技術的承諾。
在納德拉走下舞臺之后,筆者獲得了這次采訪機會,他向我們介紹了微軟在開發(fā)人工智能助手方面的進展情況。
今年早些時候,你開始談到我們需要打造透明的AI、道德的AI以及負責任的AI。自那以后你都做了哪些工作,具體是什么?
納德拉:我想,我做的第一件事情,甚至于在微軟的內(nèi)部,就是提出原則以及喚起開發(fā)者的意識,正如我們對用戶界面所做的那樣。
我們打造的機器智能是在幫助人類嗎,是在增強人類嗎?
微軟開發(fā)的所有AI產(chǎn)品,在我第一次拿到手時,首先都會問:
它增強了什么?
做了哪些賦權?
用了哪些我們可以在算法上負起責任的訓練方法?
這些都是可以具體落實的要求。不過,我并不想簡單地把這些要求當成某種業(yè)績指標類的東西。
落實這些要求,關鍵在于設計上的敏感性,在于我們的開發(fā)人員、我們的設計師以及我們的產(chǎn)品選擇。
一家公司想要提供優(yōu)秀的用戶體驗,都要提到設計原則,那么對于優(yōu)秀的人工智能,它的設計原則是什么呢?
這個問題,極大地吸引我去思考:
當你在訓練一個深度神經(jīng)網(wǎng)絡時,負起算法責任(algorithmic accountability)意味著什么?
當你們在做圖像識別那樣的技術時,開發(fā)者依賴于你們的服務,如果某個地方出了錯,那可能在他們那里造成不良影響。對于客戶和最終用戶,你們是否有必要提供一種開放性?
納德拉:我們無法知道所有的用例。
人們將會使用這些認知性API,不管是圖像識別還是語音識別,那取決于他們正在做的事情。
我們不會成為“檢查員”或者編輯。
就以圖像識別為例。
如果我們的圖像識別API本身就存在一些偏見——那可能是因為缺乏數(shù)據(jù),或者是特征選擇出了問題,又或者是我們構建的卷積神經(jīng)網(wǎng)絡偏離了設計——我完全認為,我們必須負起責任,就像我們?yōu)槟切┸浖┒磽撠熑我粯印?/p>
因為,說到底,雖然我們談論著人工智能,但人工智能賴以工作的參數(shù)最終還是由人類工程師定義的。
并不是說我們想要所有事情時時刻刻都做到完美,但如果有人發(fā)現(xiàn)某個地方存在錯誤,那么我們就會對它進行重新訓練。
再來談談聊天機器人,我們可以讓一個聊天機器人大體上理解用戶在說什么,但語言生成仍然是一個很大的研究課題。我們?nèi)绾尾拍茏屃奶鞕C器人說的話聽上去更智能呢?
納德拉:這個問題可以分為多個層次。
教導計算機學會人類語言是我們的終極任務之一。
因此,對我來說,事情要一步一步地來做。在AI學會自由運用人類語言之前,首先要讓它理解你來我往的對話。
只不過,實現(xiàn)語言生成是一個通用人工智能(AGI)問題;它并不是一個應用人工智能問題。
你必須掌握一種通用人工智能和通用學習模型,它要能充分理解人類知識和詞匯中一切事物的語義。
只要是會遇到歧義和錯誤,就需要思考如何讓人類介入進來,以及如何升格到由人來做出選擇。在我看來,這就是人工智能產(chǎn)品最講究的地方。
如果有一定比例會出現(xiàn)歧義和錯誤,那你就必須要有處理異常情況的能力。
可是這首先要能夠檢測出那個異常來。
幸運的是,在人工智能中,你擁有信心和概率分布的支持。
所以,你必須利用所有這一切讓人類介入進來。
就拿客戶支持來說,我們不認為虛擬助理能夠回答所有問題。
這種事可能需要升格到讓人類客服代表進行處理,這時候聊天機器人就從主角變成了配角。
客服代表回答問題,然后虛擬助理藉由強化學習從中汲取經(jīng)驗教訓。
所以,那樣的過程將會幫助我們做得越來越好。
但是,要做到這一點,我們需要在通用學習技術上取得突破性進展。
當人們都在努力爭取實現(xiàn)這些突破時,你如何保持對聊天機器人這種技術的興趣?你怎樣屏蔽掉輿論炒作帶來的干擾?”
納德拉:這就是所謂的產(chǎn)品選擇,它是一點點的藝術,加一點點的設計,再加上一大堆的人工智能能力,但這就是我們學到的東西。
我的意思是,即便是通過微軟小娜(Cortana),我們也解決了很多難題,并且意識到很多人喜歡聽小娜講笑話。
于是我們想:“哇哦,那很酷,讓我們?yōu)橛脩糇龀鲞@項功能吧。”
這不僅僅在于技術,而是我們必須找到技術與設計之間的那個能夠讓它們共同發(fā)展的黃金回路。
你是否認為存在一種讓所有業(yè)務都擁有聊天機器人的設計?它是否適用于每一項業(yè)務?
納德拉:我想我們會找到答案的。
我的確認為,有些特定的業(yè)務和特定的業(yè)務流程,比如買保險,是非常適合聊天機器人的,可以通過設計實現(xiàn)。
事實上,監(jiān)管要求是這樣的,當你購買保險時,使用聊天機器人的效果要比自己通過移動應用或網(wǎng)站摸索好得多。所以,那至少可以算作一個用例。
我們正從這些開發(fā)者身上學到很多東西。
什么時候保護人工智能免受攻擊或反向工程變成了一個問題?
納德拉:如今這已經(jīng)是一個問題。
我從(聊天機器人)Tay身上得到的最大收獲之一就是,你需要打造出能夠抵御惡意攻擊的人工智能。
觀察Twitter上發(fā)生的事情,那很有趣,但舉例來說,我們在中國沒有遇到同樣的事情。
聊天機器人在中國進行的社交對話是不同的,如果你把它置于美國的語料庫當中,結果就不一樣了。
當然,Tay還遇到了集中攻擊。
就像如今開發(fā)軟件要能經(jīng)受住DDOS攻擊,你也要能夠經(jīng)受住語料庫攻擊——這種攻擊試圖污染語料庫,對AI進行誤導,從而讓AI學習模型選中錯誤的東西。
我們正想方設法應對這些挑戰(zhàn)。
我們(開發(fā)Tay)是作為一個學習模型的原型產(chǎn)品。
如今,考慮到現(xiàn)有的媒體新聞周期,原型和正式發(fā)布的版本之間已經(jīng)區(qū)別不大。
當然,這是有意為之;如果你以一種公開的方式做這件事,毋庸置疑大家都能看到。在某些層面上,結果令人震驚。
但與此同時,我們并沒有說自己想要推出某個完美無缺的東西。
它不像Windows 10的發(fā)布,它屬于那種研究項目,而不是用來賺錢的產(chǎn)品。
而且,盡管有那種種“反應”,它確實幫到了我們,也起到了很好的號召作用,讓我們更好地為自己所談論的設計原則打好基礎,負起更大的算法責任,思考質(zhì)量保證意味著什么?以及思考你是基于公開語料庫發(fā)布產(chǎn)品,還是先發(fā)布到一個不同的語料庫中并進行觀察?
這些都是我們正在學習和改進的技術。
評論