一文帶你讀懂深度學(xué)習(xí):AI 認(rèn)識世界的方式如同小孩
如果你經(jīng)常花時間和小孩子待在一起的話,你會不由得思考小孩子怎么能夠?qū)W習(xí)得如此之快。哲學(xué)家們,比如柏拉圖也曾經(jīng)考慮過這個問題,但是從來沒有找到一個滿意的答案。我五歲的兒子,奧吉最近認(rèn)識了植物,動物和鐘,當(dāng)然也少不了恐龍和飛船。他還弄懂了如何理解他人的需要和感受。他可以用知識來定義他看到和聽到的東西,并且做出新的預(yù)測。比如他最近就說前不久在紐約市美國自然歷史博物館展示的新雷龍是食草動物,所以說并沒有那么可怕。
但其實奧吉體驗到的不過是一串光子到達(dá)了他的視網(wǎng)膜,他的耳膜接收到了空氣的振動而已。他藍(lán)眼睛背后的“神經(jīng)電腦”從某種角度上來說通過他感知到的有限的信息做出了食草雷龍不是很可怕的預(yù)測。那么問題來了,是不是說電腦也可以做到這樣呢?
過去15年的時間里,計算機(jī)科學(xué)家和心理學(xué)家一直在嘗試找到一個答案。兒童從老師和家長那有限的輸入當(dāng)中獲取了大量的知識。盡管如今機(jī)器智能風(fēng)頭正盛,但是最厲害的電腦也不能像一個5歲兒童那樣進(jìn)行學(xué)習(xí)。
搞清楚兒童的大腦究竟是如何運轉(zhuǎn)的,然后設(shè)計出一個電子版本能夠同樣有效地運轉(zhuǎn),可能需要計算機(jī)科學(xué)家們幾十年的努力。但同時,他們已經(jīng)在開發(fā)融合了人類學(xué)習(xí)模型的人工智能了。
追根溯源
在上世紀(jì)五六十年代的第一次熱潮爆發(fā)以后,接下來對AI的探索就沉寂了幾十年。不過在過去的幾年里,學(xué)界突然取得了重大進(jìn)展,尤其是在機(jī)器學(xué)習(xí)領(lǐng)域。AI一時間變成了最熱門的技術(shù)。這些進(jìn)展究竟是拯救人類還是毀滅人類,一時間也眾說紛紜。AI在也確實曾被用來預(yù)示永生或者世界末日,這兩種可能性文學(xué)作品里都已經(jīng)寫過很多。
我覺得在AI領(lǐng)域取得了這些發(fā)展引起人們強(qiáng)烈感受的主要原因在于我們內(nèi)心深處其實非常害怕類人類的出現(xiàn)的。不管是《科學(xué)怪人》里的魔偶還是2015年《機(jī)械姬》電影里的性感機(jī)器人,未來會出現(xiàn)一種“生物”會成為連接人類與人工之間鴻溝的橋梁,這種想法本身就讓人覺得恐慌。
但是計算機(jī)真的能像人類那樣學(xué)習(xí)嗎?那些席卷媒體的熱點新聞,有多少是真正具有革命意義的產(chǎn)品,而又有多少只是噱頭而已呢?電腦學(xué)習(xí)分辨貓,或者一個平片假名的過程很難被人理解。但是仔細(xì)觀察之后我們會發(fā)現(xiàn),機(jī)器學(xué)習(xí)背后的基礎(chǔ)理論并沒有一開始看上去的那么難以捉摸。
但是計算機(jī)真的能像人類那樣學(xué)習(xí)嗎?那些席卷媒體的熱點新聞,有多少是真正具有革命意義的產(chǎn)品,而又有多少只是噱頭而已呢?電腦學(xué)習(xí)分辨貓,或者一個平片假名的過程很難被人理解。但是仔細(xì)觀察之后我們會發(fā)現(xiàn),機(jī)器學(xué)習(xí)背后的基礎(chǔ)理論并沒有一開始看上去的那么難以捉摸。
一種解決辦法是我們接收到的光子和空氣振動,到了電腦上就會以數(shù)字圖像的像素和錄音的聲音片段呈現(xiàn)出來。然后試著從數(shù)據(jù)中提取一串圖案用來探測并識別周圍世界的物體。這種自底向上的研究方法在一些哲學(xué)家和心理學(xué)家的理論中也可以找到,比如約翰·密爾。
上世紀(jì)八十年代,科學(xué)家找到了一種令人信服的方式應(yīng)用這種自底向上的方式讓計算機(jī)在數(shù)據(jù)中尋找有價值的圖案?!鄙窠?jīng)網(wǎng)絡(luò)“系統(tǒng)通過神經(jīng)元將視網(wǎng)膜上的光圖案再現(xiàn)了你周圍的環(huán)境。神經(jīng)網(wǎng)絡(luò)也是一樣的圖案。通過互相連接的類似生物細(xì)胞的處理單元將某一層網(wǎng)絡(luò)上的像素轉(zhuǎn)換成抽象的表達(dá)——比如一個鼻子或一整張臉。
神經(jīng)網(wǎng)絡(luò)的概念由于最近深度學(xué)習(xí)新技術(shù)的出現(xiàn)又重新振興了。深度學(xué)習(xí)這種技術(shù)是由谷歌,F(xiàn)acebook和其他互聯(lián)網(wǎng)巨頭進(jìn)行商業(yè)落地的。計算機(jī)不斷增長的能力——比如由摩爾定律體現(xiàn)的計算能力的指數(shù)增長,也是這些系統(tǒng)獲得成功的一部分原因,大數(shù)據(jù)集地快速發(fā)展也是其中一部分原因。有了更高的處理速度和更多的數(shù)據(jù)之后,連接系統(tǒng)能夠更加高效地學(xué)習(xí)。
就像科學(xué)家一樣,自頂向上的系統(tǒng)形成了抽象廣泛的對于世界的假設(shè)。這個系統(tǒng)會預(yù)測在假設(shè)是正確的情況下,數(shù)據(jù)會呈現(xiàn)出什么樣子。同時這個系統(tǒng)也會不斷根據(jù)這些預(yù)測的結(jié)果來修改自身的假設(shè)。
尼日利亞、萬艾可和垃圾郵件
自底向上的方式可能是最容易被理解的,我們首先來解釋這個。想像一下你試圖讓計算機(jī)從你的收件箱中分辨出重要郵件。你可能注意到垃圾郵件都有某種讓人討厭的特征:收件人列表特別長,源地址來自尼日利亞或巴伐利亞,總是提到一百萬美元的獎金或提到偉哥。但是很可能非常有用的郵件看起來也是這樣。你不想錯過表示你升職或者得了學(xué)術(shù)獎項的郵件。
如果你對比大量垃圾郵件和正常郵件之后,你會發(fā)現(xiàn)只有垃圾郵件一般會具備以上的講故事方式——比如,來自尼日利亞的郵件,并承諾有一百萬美元的獎金出現(xiàn)了問題。事實上,也許存在更加明顯的區(qū)分垃圾郵件和正常郵件的方式——比如不太明顯的錯誤拼寫和IP地址。如果你能發(fā)現(xiàn)這些信息,你就可以準(zhǔn)確地過濾掉垃圾郵件了,而且也不用擔(dān)心你的正常郵件被攔截。
自底向上的機(jī)器學(xué)習(xí)可以探索出解決這種問題的相關(guān)線索。為了達(dá)到這一目的,神經(jīng)網(wǎng)絡(luò)必須回顧之前的學(xué)習(xí)過程。神經(jīng)網(wǎng)絡(luò)從巨大的數(shù)據(jù)庫中對成百萬的樣例進(jìn)行評估,每一個樣例標(biāo)記為垃圾郵件或者正常郵件。然后計算機(jī)從一組識別特征中提取出能區(qū)分垃圾郵件的特征。
評論