谷歌和OpenAI研發(fā)新工具，深入了解AI如何識(shí)別圖片

作者：時(shí)間：2019-03-11 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　　人工智能的世界到底是什么樣子的?

本文引用地址：http://www.butianyuan.cn/article/201903/398352.htm

　　幾十年來，研究人員一直對(duì)此感到困惑，但近年來，這個(gè)問題變得愈加緊迫。機(jī)器視覺系統(tǒng)正被越來越多地應(yīng)用于生活的各個(gè)領(lǐng)域，從醫(yī)療保健到自動(dòng)駕駛。

　　但通過機(jī)器的眼睛“看”世界，仍然是一個(gè)不小的挑戰(zhàn)，比如我們?cè)撛趺蠢斫鉃槭裁此延行┤藲w為行人，而把有些人歸為路標(biāo)。如果我們無(wú)法做到這一點(diǎn)，就有可能會(huì)造成嚴(yán)重的，甚至是致命的后果。比如前段時(shí)間已經(jīng)發(fā)生的，自動(dòng)駕駛汽車撞上行人致死的事件。

　　雖然，神經(jīng)網(wǎng)絡(luò)在識(shí)別圖像中的物體等任務(wù)上取得了巨大的成功，但它們是如何做到的在很大程度上仍是一個(gè)謎。它們的內(nèi)部工作方式被屏蔽，隱藏在層層計(jì)算中，不讓人看到，使得人類很難診斷錯(cuò)誤或偏差。

　　來自谷歌和非盈利實(shí)驗(yàn)室open Ai的新研究希望通過繪制系統(tǒng)來了解世界的視覺數(shù)據(jù)，進(jìn)一步撬開人工智能視覺的黑匣子。

　　這種被稱為“激活圖集”的方法，可以讓研究人員分析出各個(gè)算法的工作原理，不僅能揭示它們識(shí)別的抽象形狀、顏色和模式，還揭示了它們?nèi)绾谓Y(jié)合這些元素來識(shí)別特定的對(duì)象、動(dòng)物和場(chǎng)景。

　　這項(xiàng)工作的主要研究者，谷歌的Shan Carter說，如果以前的研究就像在算法的視覺字母表中顯示單個(gè)字母，那么激活圖集提供了一個(gè)更接近整個(gè)詞典的東西，它顯示出字母是如何組合成實(shí)際單詞的。卡特說：“例如，在像‘鯊魚’這樣的圖像中，會(huì)由很多激活碼構(gòu)成，比如‘牙齒’和‘水’。”

　　雖然這不一定是一個(gè)巨大的突破，但它是在被稱為“功能可視化”的更廣泛的研究領(lǐng)域向前邁出的一步。佐治亞理工大學(xué)的博士生Ramprasaath Selvaraju表示，這項(xiàng)研究“非常吸引人”，并結(jié)合了許多現(xiàn)有的想法，創(chuàng)造了一個(gè)新的極其有用的工具。

　　Selvaraju說，這樣的工作將有很多用途，幫助我們建立更高效和先進(jìn)的算法，并通過讓研究人員深入研究來提高安全性和消除偏差?！坝捎谏窠?jīng)網(wǎng)絡(luò)固有的復(fù)雜性，它們有時(shí)缺乏可解釋性，”但他說，在未來，當(dāng)網(wǎng)絡(luò)被廣泛用于自動(dòng)駕駛汽車和引導(dǎo)機(jī)器人時(shí)，這將是必不可少的一步。Open Ai的Chris Olah也參與了這個(gè)項(xiàng)目，他說：“這有點(diǎn)像制作顯微鏡。至少，這是我們所設(shè)想的?！?/p>

　　要了解激活圖集和其他功能可視化工具的工作原理，首先需要了解一點(diǎn)人工智能系統(tǒng)如何識(shí)別對(duì)象。實(shí)現(xiàn)這一點(diǎn)的基本方法是使用神經(jīng)網(wǎng)絡(luò)：一種與人腦大致相似的計(jì)算結(jié)構(gòu)(盡管它在復(fù)雜程度上落后了一個(gè)光年)。

　　每一個(gè)神經(jīng)網(wǎng)絡(luò)內(nèi)部都是人工神經(jīng)元層，它們像網(wǎng)一樣連接在一起。就像你大腦中的細(xì)胞一樣，這些細(xì)胞會(huì)響應(yīng)刺激，這一過程稱成為激活。重要的是，它們不僅可以啟動(dòng)或關(guān)閉，它們可以在一個(gè)頻譜上注冊(cè)，給每個(gè)激活一個(gè)特定的值或“權(quán)重”。

　　要把神經(jīng)網(wǎng)絡(luò)變成有用的東西，你必須給它大量的訓(xùn)練數(shù)據(jù)。這意味著數(shù)十萬(wàn)甚至數(shù)百萬(wàn)張圖像，每一張都標(biāo)有特定的類別。在谷歌和Openai的研究人員為這項(xiàng)工作測(cè)試的過程中，這些圖像涉及面廣泛：從羊毛到溫莎領(lǐng)帶，從安全帶到空間加熱器。

　　當(dāng)它輸入這些數(shù)據(jù)時(shí)，神經(jīng)網(wǎng)絡(luò)中的不同神經(jīng)元會(huì)響應(yīng)每個(gè)圖像而亮起。此模式連接到圖像的標(biāo)簽。一旦經(jīng)過訓(xùn)練后，您就可以向網(wǎng)絡(luò)展示一張以前它從未見過的圖片，并且神經(jīng)元將激活，將輸入內(nèi)容與特定類別相匹配。恭喜你!剛剛成功訓(xùn)練了機(jī)器學(xué)習(xí)視覺算法。

　　這讓研究人員可以觀察到網(wǎng)絡(luò)的一些情況，通過在不同信息層之間切換，他們可以看到網(wǎng)絡(luò)是如何從構(gòu)建到最終決策的，從形狀和紋理等基本視覺概念開始到具體的對(duì)象。

　　例如，Olah注意到，狗的品種在很大程度上是以耳朵的下垂程度來區(qū)分的。圖集還展示了網(wǎng)絡(luò)是如何聯(lián)系不同的物體和想法的，比如說，把狗耳朵放在離貓耳朵不太遠(yuǎn)的地方，看隨著層級(jí)的發(fā)展，這些區(qū)別是如何變得清晰的。

　　該研究還發(fā)現(xiàn)了一些驚喜，例如，Olah拍攝了一張魚鰭的照片，一條魚鰭劃過了洶涌的海水，那么它到底是屬于灰鯨還是大白鯊?作為一個(gè)沒有釣魚經(jīng)驗(yàn)的人，我不會(huì)冒險(xiǎn)猜測(cè)，但是作為曾經(jīng)看到過大量鯊魚和鯨魚鰭的神經(jīng)網(wǎng)絡(luò)不應(yīng)該有問題。

　　然后Olah展示了在神經(jīng)網(wǎng)絡(luò)的特定層面上與兩只動(dòng)物相關(guān)的圖集圖像，但其中一個(gè)鯊魚圖像特別奇怪。如果你仔細(xì)一看，你可能會(huì)看到一排排潔白的牙齒和牙齦，樣子卻同棒球的接縫十分相似。

　　事實(shí)證明，他們研究的神經(jīng)網(wǎng)絡(luò)也有這樣的視覺隱喻的天賦，這可以作為愚弄系統(tǒng)的廉價(jià)技巧。通過改變魚鰭照片，比如說，在一個(gè)角落放置一個(gè)棒球郵票圖像，Carter和Olah發(fā)現(xiàn)可以很容易地說服神經(jīng)網(wǎng)絡(luò)鯨魚實(shí)際上是一條鯊魚。

　　Olah說，這種方法不太可能被網(wǎng)絡(luò)破壞者所使用，因?yàn)槠鋵?shí)有更簡(jiǎn)單更微妙的方式來制造混亂。比如他們可以自動(dòng)生成所謂的對(duì)抗性補(bǔ)丁，使網(wǎng)絡(luò)混淆，把貓當(dāng)作是一碗鱷梨醬，甚至導(dǎo)致自動(dòng)駕駛汽車誤讀停止標(biāo)志。

　　但令人興奮的是，有了這個(gè)工具，人類可以充分了解網(wǎng)絡(luò)的內(nèi)部深度，使得它最終幫助我們識(shí)別混淆或偏差，并及時(shí)糾正。

　　但是錯(cuò)誤也是時(shí)有發(fā)生的，比如說，把不同種族的人類識(shí)別成大猩猩而非人。有了這樣的可視化工具，研究人員可以查看是什么外來信息或視覺相似性導(dǎo)致了錯(cuò)誤的發(fā)生。

　　也就是說，試圖預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)的內(nèi)核是存在風(fēng)險(xiǎn)的?！叭藗兂３?dān)心你可能在欺騙你自己，”奧拉說，風(fēng)險(xiǎn)在于我們可能試圖強(qiáng)加我們熟悉的視覺概念或?qū)ふ矣幸饬x的簡(jiǎn)單解釋。

　　這就是包括人工智能先驅(qū)Hinton在內(nèi)的一些人物一直反對(duì)人類解釋AI運(yùn)作規(guī)律的原因之一，正如人類無(wú)法解釋他們的大腦如何做出決定一樣，計(jì)算機(jī)也是同樣。他最近在接受WIRED采訪時(shí)說道：“如果你非要要求他們解釋所做的決定，你就會(huì)強(qiáng)迫他們編造一個(gè)故事?！?/p>

　　雖然爭(zhēng)議不斷，但“激活圖集”的研究者們始終認(rèn)為：每一代新工具的研發(fā)都在讓我們更接近這些在網(wǎng)絡(luò)中發(fā)生事情的真相。

新聞中心

谷歌和OpenAI研發(fā)新工具，深入了解AI如何識(shí)別圖片

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)