谷歌與DeepMind:史上最強AI拉鋸戰(zhàn)
DeepMind控制權之爭
本文引用地址:http://butianyuan.cn/article/201903/398607.htmHassabis一直說,DeepMind將使世界變得更好。但AGI存在不確定性。如果它真的出現(xiàn),我們不知道它是善是惡,也不知道它是否會服從于人類控制。即便它聽從人類控制,那這個人類舵手又會是誰呢?
從一開始,Hassabis就試圖保護DeepMind的獨立性。他一直堅持讓DeepMind留在倫敦。Hassabis不愿交出自己一手帶大的公司。因此DeepMind制定了一項協(xié)議,阻止谷歌單方面控制該公司的知識產(chǎn)權。據(jù)知情人士透露,在收購前一年,雙方簽署了《道德與安全審查協(xié)議》。該協(xié)議將DeepMind的核心AGI技術的控制權交給了一個名為Ethics Board的委員會。Ethics Board為DeepMind提供了堅實的法律支持,以保持對其最有價值、也可能是最危險的技術的控制。小組成員的名字尚未公布,但據(jù)消息人士透露,DeepMind的三位創(chuàng)始人都是Ethics Board成員。
此外DeepMind在市場公關方面表現(xiàn)極好。AlphaGo就是典型的例子。自谷歌被收購以來,DeepMind多次創(chuàng)造了舉世矚目的奇跡。比如,一個軟件可以在眼睛掃描中發(fā)現(xiàn)黃斑病變。另一個程序使用與AlphaGo類似的架構從無到有地學會了下棋,僅僅花費九個小時。2018年12月,一個名為AlphaFold的程序被證明可以從復合物列表中預測蛋白質的三維結構,其準確率高于同行競爭對手,這有助于治療帕金森病和阿爾茨海默癥等疾病。
谷歌數(shù)據(jù)中心預計包含250萬臺服務器,DeepMind開發(fā)了一套算法,以優(yōu)化谷歌數(shù)據(jù)中心冷卻方案,DeepMind深以為傲,因為谷歌因此降低了40%的能源成本。谷歌母公司Alphabet為這類服務付給DeepMind豐厚的報酬。2017年,DeepMind向Alphabet收取了5400萬英鎊。但與DeepMind的日常管理費用相比,這一數(shù)字顯得微不足道。那一年僅在DeepMind員工身上就花了2億英鎊??傮w而言,公司在2017年支出2.82億英鎊。
谷歌收購DeepMind五年后,控制權之爭不可避免。考慮到Hassabis對事業(yè)的執(zhí)著,他不太可能離開公司。他對金錢感興趣只是因為錢能幫助他完成事業(yè)追求。到目前為止,谷歌對DeepMind的干預還不大。但最近發(fā)生的一件事卻引發(fā)了對公司未來獨立性的擔憂。
2016年2月,DeepMind成立了新醫(yī)療保健部門DeepMind Health,由公司聯(lián)合創(chuàng)始人之一的Mustafa Suleyman領導。公司希望創(chuàng)建Streams項目,當病人的健康狀況惡化時,可以向醫(yī)生發(fā)出警告。DeepMind將獲得基于績效的費用。由于這項工作需要獲得有關病人的敏感信息,Suleyman建立了一個獨立的審查小組(IRP)。
2018年11月8日,谷歌宣布成立自己的醫(yī)療保健部門Google Health。五天后,公司宣布將把DeepMind Health并入母公司相關部門。Suleyman曾在2016年寫道:“在任何階段,患者數(shù)據(jù)都不會與谷歌賬戶、產(chǎn)品或服務相關聯(lián)?!钡某兄Z似乎已經(jīng)落空。不過DeepMind還是說:“在這個階段,我們的合同都沒有轉到谷歌,只有得到合作伙伴的同意,才會轉去谷歌?!焙喜⒓づ薉eepMind Health的員工。據(jù)消息人士說,一旦合并完成,就會有更多員工計劃離職。據(jù)多名知情人士透露,有員工于2017年12月辭職,原因是擔心合并后該獨立審查小組更多的是為了裝門面,而不會對病人隱私數(shù)據(jù)使用情況進行真正的監(jiān)督。
這一事件表明,DeepMind的非核心業(yè)務容易受到谷歌的左右。DeepMind在一份聲明中對此次合并給出了正面評價。但是我們不禁要問,谷歌是否會將同樣的邏輯應用于DeepMind在AGI方面的工作。
強化學習
總體上來說DeepMind進步明顯。它的軟件可以模擬甚至超越人類學習執(zhí)行任務。比如打磚塊游戲。沒有人類指導,DeepMind的程序不僅學會了玩這個游戲,而且還學會了如何把球打進磚塊后面的空間,利用球回彈來打更多的磚塊。Hassabis說,這證明了強化學習的力量和DeepMind計算程序的非凡能力。
這個游戲演示令人印象深刻,但有個問題。如果虛擬球拍移動得更高一些,程序就會失敗。AI項目所掌握的技能非常有限,即使對環(huán)境的微小變化也無法做出反應,除非接受數(shù)千輪強化學習?,F(xiàn)實世界的變化太多了。對于智能診斷來說,沒有兩個身體器官是完全相同的。對于智能機械,沒有兩個引擎可以用相同的方式調整。因此,將虛擬空間中完善的程序投放到現(xiàn)實世界困難重重。
另外一個問題是,虛擬環(huán)境中的成功取決于獎勵機制:一個允許軟件衡量其進程的信號。程序了解到物體從墻上回彈會加分。AlphaGo很多編程工作都是在構建與復雜游戲兼容的獎勵函數(shù)。不幸的是,現(xiàn)實世界并不提供這種簡單的獎勵。政治因素使問題更加復雜化。要協(xié)調氣候健康的獎勵信號(單位體積二氧化碳粒子數(shù))與石油公司的獎勵信號(股價),牽涉到許多動機矛盾的各方。獎勵信號往往非常微弱。而人腦在執(zhí)行任務的過程中不會去想有沒有獎勵的問題。
DeepMind通過大量計算機電力找到了解決方法。公司最近專注于策略電腦游戲星際爭霸II,游戲早期所做的決定對后來會產(chǎn)生影響,這更接近于現(xiàn)實世界任務所特有的那種復雜而延遲的反饋。今年1月,DeepMind軟件擊敗了一些頂級人類玩家,給人留下了深刻印象。它的程序也已經(jīng)開始學習經(jīng)由人類反饋的獎勵功能。不過,把人類指令置于計算循環(huán)中,比起純粹的計算機處理,其計算規(guī)模和速度都會受到影響。
公司研究人員匿名表示,他們也對DeepMind能否通過這些方法達到AGI表示懷疑,專注于在模擬環(huán)境中實現(xiàn)高性能,這使得獎勵信號問題很難解決。然而,這種方法又是DeepMind的核心。
Hassabis的人生一直在和游戲打交道。就像公司的軟件一樣,Hassabis只能從以往的經(jīng)驗中學習。在發(fā)明了一些有用的醫(yī)療技術,并超越了世界上最偉大的棋類游戲玩家之后,對AGI的追求最終還是可能會失敗。公司取得的成績斐然,卻不是Hassabis最終想要的。他仍然可以開創(chuàng)AGI的時代,就在谷歌的眼皮底下,但卻超出了它的控制范圍。如果這樣做,Hassabis將贏得最艱難的比賽。
評論