專訪UC伯克利馬毅:一場為了探究智能本質(zhì)的個人戰(zhàn)爭
人工智能領(lǐng)域正在掀起一場思維的戰(zhàn)爭,雙方卻并不勢均力敵。
上周一,加州大學(xué)伯克利分校教授馬毅、同校教授曹穎,和粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院 (IDEA) 的創(chuàng)院理事長沈向洋博士,三人共同發(fā)表了一篇立場論文《關(guān)于形成智能的簡約和自洽原則》(On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence)。
作者提出所有智能——無論人工還是自然智能——都應(yīng)當(dāng)遵循簡約和自洽的原則,并進(jìn)一步指出這兩條原則結(jié)合之后形成了一種切實有效的計算框架,名為“壓縮閉環(huán)轉(zhuǎn)錄”(compressive closed-loop transcription),并指出了當(dāng)前流行的深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)思路過度依賴算力,過于臃腫,可解釋性差的弊端。
![圖片](http://editerupload.eepw.com.cn/fetch/202207/fdfa1aa911afb24b46593bd9137c5e23.png)
當(dāng)學(xué)/業(yè)界的大部分人都把堆參數(shù)、堆算力作為實現(xiàn)智能的唯一路徑時,馬毅對此尖銳地反駁:“智能應(yīng)該是最普及化 (democratized) 的技術(shù),螞蟻運動,能搜索,能識別物體,不會走丟,還是社會性動物,具有分工的能力。它的資源有多少?它需要有‘云’嗎?”
這篇立場論文,其實是他希望在整個學(xué)術(shù)界對“智能”這個命題以正視聽:地球上的70億人以及數(shù)以成千上萬億計的其它生物都具備智能??紤]到這一背景,智能不應(yīng)該,也不可能通過大量資源實現(xiàn)。
![圖片](http://editerupload.eepw.com.cn/fetch/202207/757686f3fe80fd215edf1737c90a74bf.jpeg)
馬毅在UC伯克利辦公室 圖片來源:杜晨 | 品玩&硅星人
| 尋找智能的真理
馬毅接受品玩/硅星人采訪表示,由于過去十年里深度學(xué)習(xí)突然爆發(fā),讓相當(dāng)一部分這幾年取得了成就的人形成了一種錯覺,認(rèn)為自己做的東西比前人發(fā)明的東西更好。比如他在教課的時候就發(fā)現(xiàn),在高維數(shù)據(jù)優(yōu)化算法上面,來自前十年的算法總是比后十年的算法更快,結(jié)果今天深度學(xué)習(xí)用的一些基礎(chǔ)算法其實全都是在50、60年代提出來的。
“以前都是用計算尺算。每一次迭代都要人來算,耗費很多時間精力,所以算法必須保證是最高效率的。以前的計算機(jī)也是,計算能力就那么多,內(nèi)存就這么多,計算機(jī)不動腦,人得動腦子,”他說道。
“現(xiàn)在反而大家都在炒作了,最后能提高一兩個點就可以發(fā)篇文章——是因為方法好嗎?不是,而是因為用更快的計算機(jī)在算?!?/span>
在深度學(xué)習(xí)爆炸式發(fā)展的過去十年里,人工智能方面的進(jìn)步的確大多來自于使用同質(zhì)化的、粗暴工程的方式訓(xùn)練出來的深度神經(jīng)網(wǎng)絡(luò)。問題在于它們太重度依賴統(tǒng)計學(xué)近似的方法,成了一個個巨大的黑箱,難以用數(shù)學(xué)解釋;并且訓(xùn)練數(shù)據(jù)量需求太高,計算成本太高,訓(xùn)練也缺乏穩(wěn)定性,訓(xùn)練出來的模型過大且缺乏適應(yīng)性,容易受到攻擊。
這不是智能應(yīng)該有的樣子,至少我們在大自然當(dāng)中看到的生物智能,都不是這樣的。馬毅認(rèn)為智能的核心是學(xué)習(xí),而學(xué)習(xí)的核心是觀察高維度的外部世界,從中識別出通用的低維度的結(jié)構(gòu),用緊湊的方式將它們準(zhǔn)確地存儲下來,并且在后續(xù)的使用中仍然能夠忠實體現(xiàn)外部世界的情況。
這種學(xué)習(xí)能力不應(yīng)該具有計算資源門檻。比如一只螞蟻最多可能只有幾十萬個神經(jīng)元,然而在自然中我們看到螞蟻都能夠表現(xiàn)出非常復(fù)雜和令人驚嘆的智能行為,并且這些行為能力不是它在窩里花多久的時間訓(xùn)練出來的,而是一生下來就具備,以及不斷的獨立和社會生活過程中進(jìn)一步學(xué)習(xí)和模仿獲得。
如果像螞蟻這樣資源極其有限的生物智能在大自然當(dāng)中都可以存在,構(gòu)建人工智能還不得不用大量計算資源,就是一件很離譜的事了。
前幾天,馬毅在新開設(shè)沒多久的 Twitter 賬號上,發(fā)表了一個會讓很多追趕深度學(xué)習(xí)時髦的人不舒服的觀點:如果一個學(xué)者只讀過去五六年里發(fā)表的文章的話,這輩子能夠產(chǎn)生真正突破性想法的可能性幾乎為零。與其這樣做學(xué)問,還不如去****城玩角子機(jī)****的概率大。
這位UC伯克利駐校教授,也是這一觀點的踐行者。他是誕生于上世紀(jì)4、50年代的控制論、信息論、博弈論等忠實信徒,也是發(fā)展出這些理論的維納、香農(nóng)、馮·諾伊曼等人的擁躉。
他堅信當(dāng)今以深度學(xué)習(xí)為主要方向的人工智能的發(fā)展,特別是發(fā)展過程中已經(jīng)出現(xiàn)的一些問題(比如深度網(wǎng)絡(luò)作為開環(huán)系統(tǒng)缺乏魯棒性、存在“災(zāi)難性遺忘”等問題)早在六七十年前就已經(jīng)得到了預(yù)示。
不僅如此,他認(rèn)為智能系統(tǒng)的必要元素(包括緊湊編碼、錯誤反饋、博弈論、非線性和平移不變性等),維納早在在《控制論》一書中都已經(jīng)提到并且講對了。
“一個人得有多么自大,以為自己花半年想到的想法,在過去70年里那些比你更聰明,更會動腦筋,(計算)資源比你更少的人沒有想到?現(xiàn)在被大家認(rèn)為世界上最聰明的這樣一群人,實際上反而變得最沒有常識了,這是一個非常不幸的事情,”馬毅表示。
![圖片](http://editerupload.eepw.com.cn/fetch/202207/2e38f9ad6f236ab95bd83cf2b65fd54c.png)
圖片來源:@YiMaTweets
| 不求成為主流,但求真正行家的共鳴
盡管身為 IEEE、ACM、SIAM 三個計算機(jī)和數(shù)學(xué)方面頂級學(xué)會的會士 (fellow),馬毅對來自學(xué)術(shù)和產(chǎn)業(yè)界的質(zhì)疑和疏遠(yuǎn)并不陌生。過去五六年里他所發(fā)表的研究和提出的觀點,經(jīng)常讓他成為學(xué)術(shù)挑戰(zhàn)的對象。
這次也不例外。雖然論文發(fā)表之后引起了不小的影響,有人回帖表示對自己的研究很有啟發(fā)——但這篇文章依舊延續(xù)了馬毅多年以來堅持的思路,并且直言了對深度學(xué)習(xí)當(dāng)下流行思路的批評,還是被一些深度學(xué)習(xí)研究者和從業(yè)者評價為“小題大做”。
當(dāng)然,在學(xué)術(shù)界沒有人能一下子就說服所有人。馬毅還是對這次研究的成效感到滿意。特別考慮到美國國家科學(xué)院成員,前不久剛加入 UC伯克利的神經(jīng)生物學(xué)專家曹穎 (Doris Tsao),不僅認(rèn)可他的觀點,還以第二作者的身份為論文提供了巨大的幫助。
作為更習(xí)慣用數(shù)字說話,以結(jié)果論英雄的“工程師思維”學(xué)者,馬毅表示,這還是他第一次跟更“純粹”的科學(xué)家合寫論文,感受非常獨特:
“我們做數(shù)學(xué)或者做工程的人都用結(jié)果說話,你看我這個算法比之前的好了10%,那它一定有道理對不對?然而在曹穎的面前,我必須要說服她我提的這個智能的工作原理,不是一個更好的選項,而是唯一的選項,是非此不可的?!?/span>
首先,馬毅和課題組學(xué)生在研究智能基本原則中發(fā)現(xiàn)的最合理數(shù)據(jù)表達(dá)方式,跟曹穎過去在靈長類動物大腦里看到的一些現(xiàn)象非常相似,比如人腦和猴腦也是在用子空間的形式對學(xué)到的東西進(jìn)行表達(dá)。
曹穎在論文中提供了從神經(jīng)科學(xué)角度的一些觀察和意見。具體來說,大腦用于建構(gòu)世界的模型,在解剖學(xué)上也是高度結(jié)構(gòu)化的,而且根本不會使用反向傳播,因為需要的神經(jīng)元對稱突出太多,反饋機(jī)制過于復(fù)雜——換言之,現(xiàn)在很多人認(rèn)為用深度神經(jīng)網(wǎng)絡(luò)就能模仿大腦工作的實現(xiàn)方式,完全有可能從根本上就是錯的。
“我喜歡像這樣‘非此不可’的思想體系和重要研究,”曹穎在她的推特賬號上寫道。
![圖片](http://editerupload.eepw.com.cn/fetch/202207/6da5f5be782558c71a5f98dcfd208451.png)
在論文中,馬毅引用了物理學(xué)家費曼等人的名言。有趣的是,對于自己一生的成就,費曼曾表示因為發(fā)展出重整化方法而獲得的名譽(yù),本應(yīng)屬于另一位在當(dāng)時岌岌無名的同行斯提克爾堡。而觀點不是當(dāng)今深度學(xué)習(xí)主流的馬毅,和斯提克爾堡的經(jīng)歷頗有幾分相似。
雖然在社交網(wǎng)絡(luò)上偶爾“出言不遜”,現(xiàn)實中馬毅還是平和地看到自己的遭遇,“倒未必說我發(fā)的文章大家一定要相信,科學(xué)界都是會有質(zhì)疑的,這是很自然的現(xiàn)象,包括我自己也對別人做的東西有質(zhì)疑的態(tài)度?!?/span>
他在智能基本原則問題上發(fā)表一篇又一篇論文,在網(wǎng)上做出一些“過激"的表述,其實更多是希望大家能夠看到一個糟糕的現(xiàn)狀:
太多深度學(xué)習(xí)學(xué)者過于依賴反向傳播、梯度下降等通用方法, 認(rèn)為在局部找到最優(yōu)解的思路就能夠解決所有問題,甚至把深度學(xué)習(xí)當(dāng)成研究對象(而不是實現(xiàn)研究目標(biāo)的工具),這是一種“盲人摸象”、“一葉障目”的行為。
“大家現(xiàn)在都在說深度學(xué)習(xí)可以解決世界上的所有問題。甚至有人說什么 attention/reward is all you need。這就是只見樹木不見森林的一個典型表現(xiàn)。而我們所做的是把所有的模塊都整合起來,讓大家看到智能不是單個的模塊,而是一個整體的系統(tǒng),它包括控制、對策(博弈)、優(yōu)化,加上深度網(wǎng)絡(luò),四個放在一起形成一個閉環(huán)系統(tǒng),每一塊都是必要的。”
在華人科學(xué)家群體當(dāng)中,包括菲爾茲獎得主丘成桐教授在內(nèi)的一些專家都認(rèn)可或欣賞馬毅的觀點,支持和邀請他在這方面做更深的研究。在國際上,他的觀點得到了深度學(xué)習(xí)奠基人物 Yann LeCun 等人的關(guān)注,他的學(xué)生和實習(xí)生也收到了 LeCun 組(NYU/Meta)的邀請。
“這是很好的事情。我們這里資源有限已經(jīng)快做到頭了,他們有更多的資源,我們的研究可以在他們那得到繼續(xù)研究驗證,”馬毅表示。
| 關(guān)鍵性的基石原則,背后的研究新勢力
另一在這篇論文中扮演了關(guān)鍵角色的,就是文章的第三作者 "Heung-Yeung Shum"——他不是別人,正是前微軟全球執(zhí)行副總裁沈向洋博士。
這不是沈向洋和馬毅在學(xué)術(shù)課題上的首次交集。
馬毅2006年來微軟亞洲研究院 (MSRA) 訪問研究,2009年正式加入擔(dān)任首席研究員和經(jīng)理,也接手了由沈向洋創(chuàng)辦的視覺計算組 (VCG)。他在任期間的一些下屬同事,如何愷明、孫劍等,后來成為了國際上知名的計算機(jī)視覺專家。
![圖片](http://editerupload.eepw.com.cn/fetch/202207/51a7df74ceee85cb861c48a2d580cc6a.png)
馬毅與在 MSRA 訪問期間輔導(dǎo)的學(xué)生合影 圖片來源:馬毅
沈、馬在 MSRA 不只是師徒和上下級關(guān)系,更是研究伙伴。二人在大學(xué)本科主修的都是控制和自動化,這讓他們在研究思路上承襲了相似的傳統(tǒng)。在 MSRA 訪問期間,馬毅提出的從壓縮的觀點來看高維數(shù)據(jù)分類聚類工作的思路,得到了沈向洋的贊同,二人也合作進(jìn)行了相關(guān)的研究。
“我們發(fā)現(xiàn)閉環(huán)系統(tǒng) work 得很好,當(dāng)時我們倆一下子就意識到這個事情(的重要性)了,因為我們都是學(xué)控制的,這個事情在我們看來就很有道理?!?/span>
沈向洋是 MSRA 創(chuàng)始成員之一,在他的領(lǐng)導(dǎo)和影響下,MSRA 成為了當(dāng)代科技公司學(xué)術(shù)研究部門當(dāng)中,成績最優(yōu)秀、和母公司的產(chǎn)研結(jié)合最有機(jī)融洽、對社會和對產(chǎn)業(yè)帶來的積極影響最大的一家。很多科技公司都曾效仿 AT&T 和施樂,打造屬于自己的“貝爾實驗室”或“PARC 研究中心”,但沒有一家像微軟-MSRA 這樣成功。
2019年,沈向洋從微軟“退休”,將更多精力放在科研創(chuàng)新和產(chǎn)研結(jié)合上,并于2020年11月正式創(chuàng)立了粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院,即 IDEA 研究院。
![圖片](http://editerupload.eepw.com.cn/fetch/202207/fc63bc3fafb603978b4e437fc2089e4f.jpeg)
沈向洋在2021年IDEA 大會 圖片來源:IDEA
馬毅直言表示,國外大公司的研發(fā)機(jī)構(gòu)勢力整體比較強(qiáng),國內(nèi)公司最近幾年也在模仿。但是一段時間后發(fā)現(xiàn),很多國內(nèi)公司想要研究部門的“光環(huán)”,卻不愿意付出代價,或者沒有持久的信心。
“一些國內(nèi)公司,招了一個優(yōu)秀的研究員進(jìn)來,過兩年再問起來,發(fā)現(xiàn)這個人已經(jīng)被調(diào)去做開發(fā)了。結(jié)果他開發(fā)也不是最好的開發(fā),學(xué)術(shù)的知識也不是最領(lǐng)先的了,整個人廢掉了……”
“像何愷明、孫劍這樣的人才,都曾經(jīng)在我們的組里,研究院培養(yǎng)了他們十年,給他們擋子彈,讓他們可以專心搞科研。當(dāng)時我們隔壁的中國公司,跳槽工資就漲一倍,他們卻不愿意離開,可想而知為什么。”
這也是為什么馬毅非常欣賞沈向洋發(fā)起的 IDEA 這樣一家機(jī)構(gòu),為那些聰明、有抱負(fù)的人提供一個不急功近利環(huán)境,可以做真正有意義和前瞻性的研究工作,同時在組織層面,仍能保留敏銳的行業(yè)觸角和實現(xiàn)能力。他用深度學(xué)習(xí)做蛋白質(zhì)折疊舉例,這個領(lǐng)域知識對于一個計算機(jī)學(xué)者和工程師來說可能需要好幾年才能搞清楚,甚至做了幾年下來可能沒有一個可以發(fā)表的結(jié)果。
所以,做類似的前瞻研究必須要能夠忍得住寂寞,能夠承受風(fēng)險,“誰能做這個事情?至少我在中國還沒有看到。但是 Harry(沈向洋)有這方面的經(jīng)歷,他知道這里面的重要性,知道沒有人去推動,這些事情永遠(yuǎn)不可能去發(fā)生,”馬毅告訴硅星人。
過去十年間,深度學(xué)習(xí)方面的研究已然成為顯學(xué)。太多人忙著做數(shù)據(jù)集、加碼算力、調(diào)參、發(fā)論文、追求 SOTA (state-of-the-art 最佳成績),反而真正關(guān)注基石性理論研究的人,少之又少(至少在馬毅看來一些所謂的“基石模型”并不是真正基石性的研究,因為深度神經(jīng)網(wǎng)絡(luò)應(yīng)該是實現(xiàn)目標(biāo)的工具,而不應(yīng)該成為被研究的對象。)
在應(yīng)用研究的潮流面前,理論研究者注定形單影只。在這場探究智能的基本原則,挑戰(zhàn)深度學(xué)習(xí)主流的戰(zhàn)爭中扮演大衛(wèi),既驚險刺激,感受良多,卻也十分殘酷。
馬毅最近表示,雖然在加入UC伯克利之后已經(jīng)完成當(dāng)初給自己設(shè)立的目標(biāo),這五年在腦力付出上也是極為痛苦的五年。“也許到明年我也想休息一下,仔細(xì)想想接下來該做些什么?!?br />
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。