專訪UC伯克利馬毅:一場(chǎng)為了探究智能本質(zhì)的個(gè)人戰(zhàn)爭(zhēng)
人工智能領(lǐng)域正在掀起一場(chǎng)思維的戰(zhàn)爭(zhēng),雙方卻并不勢(shì)均力敵。
上周一,加州大學(xué)伯克利分校教授馬毅、同校教授曹穎,和粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院 (IDEA) 的創(chuàng)院理事長(zhǎng)沈向洋博士,三人共同發(fā)表了一篇立場(chǎng)論文《關(guān)于形成智能的簡(jiǎn)約和自洽原則》(On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence)。
作者提出所有智能——無論人工還是自然智能——都應(yīng)當(dāng)遵循簡(jiǎn)約和自洽的原則,并進(jìn)一步指出這兩條原則結(jié)合之后形成了一種切實(shí)有效的計(jì)算框架,名為“壓縮閉環(huán)轉(zhuǎn)錄”(compressive closed-loop transcription),并指出了當(dāng)前流行的深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)思路過度依賴算力,過于臃腫,可解釋性差的弊端。
當(dāng)學(xué)/業(yè)界的大部分人都把堆參數(shù)、堆算力作為實(shí)現(xiàn)智能的唯一路徑時(shí),馬毅對(duì)此尖銳地反駁:“智能應(yīng)該是最普及化 (democratized) 的技術(shù),螞蟻運(yùn)動(dòng),能搜索,能識(shí)別物體,不會(huì)走丟,還是社會(huì)性動(dòng)物,具有分工的能力。它的資源有多少?它需要有‘云’嗎?”
這篇立場(chǎng)論文,其實(shí)是他希望在整個(gè)學(xué)術(shù)界對(duì)“智能”這個(gè)命題以正視聽:地球上的70億人以及數(shù)以成千上萬億計(jì)的其它生物都具備智能??紤]到這一背景,智能不應(yīng)該,也不可能通過大量資源實(shí)現(xiàn)。
馬毅在UC伯克利辦公室 圖片來源:杜晨 | 品玩&硅星人
| 尋找智能的真理
馬毅接受品玩/硅星人采訪表示,由于過去十年里深度學(xué)習(xí)突然爆發(fā),讓相當(dāng)一部分這幾年取得了成就的人形成了一種錯(cuò)覺,認(rèn)為自己做的東西比前人發(fā)明的東西更好。比如他在教課的時(shí)候就發(fā)現(xiàn),在高維數(shù)據(jù)優(yōu)化算法上面,來自前十年的算法總是比后十年的算法更快,結(jié)果今天深度學(xué)習(xí)用的一些基礎(chǔ)算法其實(shí)全都是在50、60年代提出來的。
“以前都是用計(jì)算尺算。每一次迭代都要人來算,耗費(fèi)很多時(shí)間精力,所以算法必須保證是最高效率的。以前的計(jì)算機(jī)也是,計(jì)算能力就那么多,內(nèi)存就這么多,計(jì)算機(jī)不動(dòng)腦,人得動(dòng)腦子,”他說道。
“現(xiàn)在反而大家都在炒作了,最后能提高一兩個(gè)點(diǎn)就可以發(fā)篇文章——是因?yàn)?/span>方法好嗎?不是,而是因?yàn)橛酶斓挠?jì)算機(jī)在算?!?/span>
在深度學(xué)習(xí)爆炸式發(fā)展的過去十年里,人工智能方面的進(jìn)步的確大多來自于使用同質(zhì)化的、粗暴工程的方式訓(xùn)練出來的深度神經(jīng)網(wǎng)絡(luò)。問題在于它們太重度依賴統(tǒng)計(jì)學(xué)近似的方法,成了一個(gè)個(gè)巨大的黑箱,難以用數(shù)學(xué)解釋;并且訓(xùn)練數(shù)據(jù)量需求太高,計(jì)算成本太高,訓(xùn)練也缺乏穩(wěn)定性,訓(xùn)練出來的模型過大且缺乏適應(yīng)性,容易受到攻擊。
這不是智能應(yīng)該有的樣子,至少我們?cè)诖笞匀划?dāng)中看到的生物智能,都不是這樣的。馬毅認(rèn)為智能的核心是學(xué)習(xí),而學(xué)習(xí)的核心是觀察高維度的外部世界,從中識(shí)別出通用的低維度的結(jié)構(gòu),用緊湊的方式將它們準(zhǔn)確地存儲(chǔ)下來,并且在后續(xù)的使用中仍然能夠忠實(shí)體現(xiàn)外部世界的情況。
這種學(xué)習(xí)能力不應(yīng)該具有計(jì)算資源門檻。比如一只螞蟻?zhàn)疃嗫赡苤挥袔资f個(gè)神經(jīng)元,然而在自然中我們看到螞蟻都能夠表現(xiàn)出非常復(fù)雜和令人驚嘆的智能行為,并且這些行為能力不是它在窩里花多久的時(shí)間訓(xùn)練出來的,而是一生下來就具備,以及不斷的獨(dú)立和社會(huì)生活過程中進(jìn)一步學(xué)習(xí)和模仿獲得。
如果像螞蟻這樣資源極其有限的生物智能在大自然當(dāng)中都可以存在,構(gòu)建人工智能還不得不用大量計(jì)算資源,就是一件很離譜的事了。
前幾天,馬毅在新開設(shè)沒多久的 Twitter 賬號(hào)上,發(fā)表了一個(gè)會(huì)讓很多追趕深度學(xué)習(xí)時(shí)髦的人不舒服的觀點(diǎn):如果一個(gè)學(xué)者只讀過去五六年里發(fā)表的文章的話,這輩子能夠產(chǎn)生真正突破性想法的可能性幾乎為零。與其這樣做學(xué)問,還不如去****城玩角子機(jī)****的概率大。
這位UC伯克利駐校教授,也是這一觀點(diǎn)的踐行者。他是誕生于上世紀(jì)4、50年代的控制論、信息論、博弈論等忠實(shí)信徒,也是發(fā)展出這些理論的維納、香農(nóng)、馮·諾伊曼等人的擁躉。
他堅(jiān)信當(dāng)今以深度學(xué)習(xí)為主要方向的人工智能的發(fā)展,特別是發(fā)展過程中已經(jīng)出現(xiàn)的一些問題(比如深度網(wǎng)絡(luò)作為開環(huán)系統(tǒng)缺乏魯棒性、存在“災(zāi)難性遺忘”等問題)早在六七十年前就已經(jīng)得到了預(yù)示。
不僅如此,他認(rèn)為智能系統(tǒng)的必要元素(包括緊湊編碼、錯(cuò)誤反饋、博弈論、非線性和平移不變性等),維納早在在《控制論》一書中都已經(jīng)提到并且講對(duì)了。
“一個(gè)人得有多么自大,以為自己花半年想到的想法,在過去70年里那些比你更聰明,更會(huì)動(dòng)腦筋,(計(jì)算)資源比你更少的人沒有想到?現(xiàn)在被大家認(rèn)為世界上最聰明的這樣一群人,實(shí)際上反而變得最沒有常識(shí)了,這是一個(gè)非常不幸的事情,”馬毅表示。
圖片來源:@YiMaTweets
| 不求成為主流,但求真正行家的共鳴
盡管身為 IEEE、ACM、SIAM 三個(gè)計(jì)算機(jī)和數(shù)學(xué)方面頂級(jí)學(xué)會(huì)的會(huì)士 (fellow),馬毅對(duì)來自學(xué)術(shù)和產(chǎn)業(yè)界的質(zhì)疑和疏遠(yuǎn)并不陌生。過去五六年里他所發(fā)表的研究和提出的觀點(diǎn),經(jīng)常讓他成為學(xué)術(shù)挑戰(zhàn)的對(duì)象。
這次也不例外。雖然論文發(fā)表之后引起了不小的影響,有人回帖表示對(duì)自己的研究很有啟發(fā)——但這篇文章依舊延續(xù)了馬毅多年以來堅(jiān)持的思路,并且直言了對(duì)深度學(xué)習(xí)當(dāng)下流行思路的批評(píng),還是被一些深度學(xué)習(xí)研究者和從業(yè)者評(píng)價(jià)為“小題大做”。
當(dāng)然,在學(xué)術(shù)界沒有人能一下子就說服所有人。馬毅還是對(duì)這次研究的成效感到滿意。特別考慮到美國(guó)國(guó)家科學(xué)院成員,前不久剛加入 UC伯克利的神經(jīng)生物學(xué)專家曹穎 (Doris Tsao),不僅認(rèn)可他的觀點(diǎn),還以第二作者的身份為論文提供了巨大的幫助。
作為更習(xí)慣用數(shù)字說話,以結(jié)果論英雄的“工程師思維”學(xué)者,馬毅表示,這還是他第一次跟更“純粹”的科學(xué)家合寫論文,感受非常獨(dú)特:
“我們做數(shù)學(xué)或者做工程的人都用結(jié)果說話,你看我這個(gè)算法比之前的好了10%,那它一定有道理對(duì)不對(duì)?然而在曹穎的面前,我必須要說服她我提的這個(gè)智能的工作原理,不是一個(gè)更好的選項(xiàng),而是唯一的選項(xiàng),是非此不可的。”
首先,馬毅和課題組學(xué)生在研究智能基本原則中發(fā)現(xiàn)的最合理數(shù)據(jù)表達(dá)方式,跟曹穎過去在靈長(zhǎng)類動(dòng)物大腦里看到的一些現(xiàn)象非常相似,比如人腦和猴腦也是在用子空間的形式對(duì)學(xué)到的東西進(jìn)行表達(dá)。
曹穎在論文中提供了從神經(jīng)科學(xué)角度的一些觀察和意見。具體來說,大腦用于建構(gòu)世界的模型,在解剖學(xué)上也是高度結(jié)構(gòu)化的,而且根本不會(huì)使用反向傳播,因?yàn)樾枰纳窠?jīng)元對(duì)稱突出太多,反饋機(jī)制過于復(fù)雜——換言之,現(xiàn)在很多人認(rèn)為用深度神經(jīng)網(wǎng)絡(luò)就能模仿大腦工作的實(shí)現(xiàn)方式,完全有可能從根本上就是錯(cuò)的。
“我喜歡像這樣‘非此不可’的思想體系和重要研究,”曹穎在她的推特賬號(hào)上寫道。
曹穎 圖片來源:西蒙斯基金會(huì)
在論文中,馬毅引用了物理學(xué)家費(fèi)曼等人的名言。有趣的是,對(duì)于自己一生的成就,費(fèi)曼曾表示因?yàn)榘l(fā)展出重整化方法而獲得的名譽(yù),本應(yīng)屬于另一位在當(dāng)時(shí)岌岌無名的同行斯提克爾堡。而觀點(diǎn)不是當(dāng)今深度學(xué)習(xí)主流的馬毅,和斯提克爾堡的經(jīng)歷頗有幾分相似。
雖然在社交網(wǎng)絡(luò)上偶爾“出言不遜”,現(xiàn)實(shí)中馬毅還是平和地看到自己的遭遇,“倒未必說我發(fā)的文章大家一定要相信,科學(xué)界都是會(huì)有質(zhì)疑的,這是很自然的現(xiàn)象,包括我自己也對(duì)別人做的東西有質(zhì)疑的態(tài)度?!?/span>
他在智能基本原則問題上發(fā)表一篇又一篇論文,在網(wǎng)上做出一些“過激"的表述,其實(shí)更多是希望大家能夠看到一個(gè)糟糕的現(xiàn)狀:
太多深度學(xué)習(xí)學(xué)者過于依賴反向傳播、梯度下降等通用方法, 認(rèn)為在局部找到最優(yōu)解的思路就能夠解決所有問題,甚至把深度學(xué)習(xí)當(dāng)成研究對(duì)象(而不是實(shí)現(xiàn)研究目標(biāo)的工具),這是一種“盲人摸象”、“一葉障目”的行為。
“大家現(xiàn)在都在說深度學(xué)習(xí)可以解決世界上的所有問題。甚至有人說什么 attention/reward is all you need。這就是只見樹木不見森林的一個(gè)典型表現(xiàn)。而我們所做的是把所有的模塊都整合起來,讓大家看到智能不是單個(gè)的模塊,而是一個(gè)整體的系統(tǒng),它包括控制、對(duì)策(博弈)、優(yōu)化,加上深度網(wǎng)絡(luò),四個(gè)放在一起形成一個(gè)閉環(huán)系統(tǒng),每一塊都是必要的。”
在華人科學(xué)家群體當(dāng)中,包括菲爾茲獎(jiǎng)得主丘成桐教授在內(nèi)的一些專家都認(rèn)可或欣賞馬毅的觀點(diǎn),支持和邀請(qǐng)他在這方面做更深的研究。在國(guó)際上,他的觀點(diǎn)得到了深度學(xué)習(xí)奠基人物 Yann LeCun 等人的關(guān)注,他的學(xué)生和實(shí)習(xí)生也收到了 LeCun 組(NYU/Meta)的邀請(qǐng)。
“這是很好的事情。我們這里資源有限已經(jīng)快做到頭了,他們有更多的資源,我們的研究可以在他們那得到繼續(xù)研究驗(yàn)證,”馬毅表示。
| 關(guān)鍵性的基石原則,背后的研究新勢(shì)力
另一在這篇論文中扮演了關(guān)鍵角色的,就是文章的第三作者 "Heung-Yeung Shum"——他不是別人,正是前微軟全球執(zhí)行副總裁沈向洋博士。
這不是沈向洋和馬毅在學(xué)術(shù)課題上的首次交集。
馬毅2006年來微軟亞洲研究院 (MSRA) 訪問研究,2009年正式加入擔(dān)任首席研究員和經(jīng)理,也接手了由沈向洋創(chuàng)辦的視覺計(jì)算組 (VCG)。他在任期間的一些下屬同事,如何愷明、孫劍等,后來成為了國(guó)際上知名的計(jì)算機(jī)視覺專家。
馬毅與在 MSRA 訪問期間輔導(dǎo)的學(xué)生合影 圖片來源:馬毅
沈、馬在 MSRA 不只是師徒和上下級(jí)關(guān)系,更是研究伙伴。二人在大學(xué)本科主修的都是控制和自動(dòng)化,這讓他們?cè)谘芯克悸飞铣幸u了相似的傳統(tǒng)。在 MSRA 訪問期間,馬毅提出的從壓縮的觀點(diǎn)來看高維數(shù)據(jù)分類聚類工作的思路,得到了沈向洋的贊同,二人也合作進(jìn)行了相關(guān)的研究。
“我們發(fā)現(xiàn)閉環(huán)系統(tǒng) work 得很好,當(dāng)時(shí)我們倆一下子就意識(shí)到這個(gè)事情(的重要性)了,因?yàn)槲覀兌际菍W(xué)控制的,這個(gè)事情在我們看來就很有道理?!?/span>
沈向洋是 MSRA 創(chuàng)始成員之一,在他的領(lǐng)導(dǎo)和影響下,MSRA 成為了當(dāng)代科技公司學(xué)術(shù)研究部門當(dāng)中,成績(jī)最優(yōu)秀、和母公司的產(chǎn)研結(jié)合最有機(jī)融洽、對(duì)社會(huì)和對(duì)產(chǎn)業(yè)帶來的積極影響最大的一家。很多科技公司都曾效仿 AT&T 和施樂,打造屬于自己的“貝爾實(shí)驗(yàn)室”或“PARC 研究中心”,但沒有一家像微軟-MSRA 這樣成功。
2019年,沈向洋從微軟“退休”,將更多精力放在科研創(chuàng)新和產(chǎn)研結(jié)合上,并于2020年11月正式創(chuàng)立了粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院,即 IDEA 研究院。
沈向洋在2021年IDEA 大會(huì) 圖片來源:IDEA
馬毅直言表示,國(guó)外大公司的研發(fā)機(jī)構(gòu)勢(shì)力整體比較強(qiáng),國(guó)內(nèi)公司最近幾年也在模仿。但是一段時(shí)間后發(fā)現(xiàn),很多國(guó)內(nèi)公司想要研究部門的“光環(huán)”,卻不愿意付出代價(jià),或者沒有持久的信心。
“一些國(guó)內(nèi)公司,招了一個(gè)優(yōu)秀的研究員進(jìn)來,過兩年再問起來,發(fā)現(xiàn)這個(gè)人已經(jīng)被調(diào)去做開發(fā)了。結(jié)果他開發(fā)也不是最好的開發(fā),學(xué)術(shù)的知識(shí)也不是最領(lǐng)先的了,整個(gè)人廢掉了……”
“像何愷明、孫劍這樣的人才,都曾經(jīng)在我們的組里,研究院培養(yǎng)了他們十年,給他們擋子彈,讓他們可以專心搞科研。當(dāng)時(shí)我們隔壁的中國(guó)公司,跳槽工資就漲一倍,他們卻不愿意離開,可想而知為什么。”
這也是為什么馬毅非常欣賞沈向洋發(fā)起的 IDEA 這樣一家機(jī)構(gòu),為那些聰明、有抱負(fù)的人提供一個(gè)不急功近利環(huán)境,可以做真正有意義和前瞻性的研究工作,同時(shí)在組織層面,仍能保留敏銳的行業(yè)觸角和實(shí)現(xiàn)能力。他用深度學(xué)習(xí)做蛋白質(zhì)折疊舉例,這個(gè)領(lǐng)域知識(shí)對(duì)于一個(gè)計(jì)算機(jī)學(xué)者和工程師來說可能需要好幾年才能搞清楚,甚至做了幾年下來可能沒有一個(gè)可以發(fā)表的結(jié)果。
所以,做類似的前瞻研究必須要能夠忍得住寂寞,能夠承受風(fēng)險(xiǎn),“誰能做這個(gè)事情?至少我在中國(guó)還沒有看到。但是 Harry(沈向洋)有這方面的經(jīng)歷,他知道這里面的重要性,知道沒有人去推動(dòng),這些事情永遠(yuǎn)不可能去發(fā)生,”馬毅告訴硅星人。
過去十年間,深度學(xué)習(xí)方面的研究已然成為顯學(xué)。太多人忙著做數(shù)據(jù)集、加碼算力、調(diào)參、發(fā)論文、追求 SOTA (state-of-the-art 最佳成績(jī)),反而真正關(guān)注基石性理論研究的人,少之又少(至少在馬毅看來一些所謂的“基石模型”并不是真正基石性的研究,因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)應(yīng)該是實(shí)現(xiàn)目標(biāo)的工具,而不應(yīng)該成為被研究的對(duì)象。)
在應(yīng)用研究的潮流面前,理論研究者注定形單影只。在這場(chǎng)探究智能的基本原則,挑戰(zhàn)深度學(xué)習(xí)主流的戰(zhàn)爭(zhēng)中扮演大衛(wèi),既驚險(xiǎn)刺激,感受良多,卻也十分殘酷。
馬毅最近表示,雖然在加入U(xiǎn)C伯克利之后已經(jīng)完成當(dāng)初給自己設(shè)立的目標(biāo),這五年在腦力付出上也是極為痛苦的五年?!耙苍S到明年我也想休息一下,仔細(xì)想想接下來該做些什么。”
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。