谷歌與DeepMind：史上最強AI拉鋸戰(zhàn)

作者：時間：2019-03-19 來源：獵云網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　DeepMind控制權(quán)之爭

本文引用地址：http://www.butianyuan.cn/article/201903/398607.htm

　　Hassabis一直說，DeepMind將使世界變得更好。但AGI存在不確定性。如果它真的出現(xiàn)，我們不知道它是善是惡，也不知道它是否會服從于人類控制。即便它聽從人類控制，那這個人類舵手又會是誰呢?

　　從一開始，Hassabis就試圖保護(hù)DeepMind的獨立性。他一直堅持讓DeepMind留在倫敦。Hassabis不愿交出自己一手帶大的公司。因此DeepMind制定了一項協(xié)議，阻止谷歌單方面控制該公司的知識產(chǎn)權(quán)。據(jù)知情人士透露，在收購前一年，雙方簽署了《道德與安全審查協(xié)議》。該協(xié)議將DeepMind的核心AGI技術(shù)的控制權(quán)交給了一個名為Ethics Board的委員會。Ethics Board為DeepMind提供了堅實的法律支持，以保持對其最有價值、也可能是最危險的技術(shù)的控制。小組成員的名字尚未公布，但據(jù)消息人士透露，DeepMind的三位創(chuàng)始人都是Ethics Board成員。

　　此外DeepMind在市場公關(guān)方面表現(xiàn)極好。AlphaGo就是典型的例子。自谷歌被收購以來，DeepMind多次創(chuàng)造了舉世矚目的奇跡。比如，一個軟件可以在眼睛掃描中發(fā)現(xiàn)黃斑病變。另一個程序使用與AlphaGo類似的架構(gòu)從無到有地學(xué)會了下棋，僅僅花費九個小時。2018年12月，一個名為AlphaFold的程序被證明可以從復(fù)合物列表中預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)，其準(zhǔn)確率高于同行競爭對手，這有助于治療帕金森病和阿爾茨海默癥等疾病。

　　谷歌數(shù)據(jù)中心預(yù)計包含250萬臺服務(wù)器，DeepMind開發(fā)了一套算法，以優(yōu)化谷歌數(shù)據(jù)中心冷卻方案，DeepMind深以為傲，因為谷歌因此降低了40%的能源成本。谷歌母公司Alphabet為這類服務(wù)付給DeepMind豐厚的報酬。2017年，DeepMind向Alphabet收取了5400萬英鎊。但與DeepMind的日常管理費用相比，這一數(shù)字顯得微不足道。那一年僅在DeepMind員工身上就花了2億英鎊。總體而言，公司在2017年支出2.82億英鎊。

　　谷歌收購DeepMind五年后，控制權(quán)之爭不可避免?？紤]到Hassabis對事業(yè)的執(zhí)著，他不太可能離開公司。他對金錢感興趣只是因為錢能幫助他完成事業(yè)追求。到目前為止，谷歌對DeepMind的干預(yù)還不大。但最近發(fā)生的一件事卻引發(fā)了對公司未來獨立性的擔(dān)憂。

　　2016年2月，DeepMind成立了新醫(yī)療保健部門DeepMind Health，由公司聯(lián)合創(chuàng)始人之一的Mustafa Suleyman領(lǐng)導(dǎo)。公司希望創(chuàng)建Streams項目，當(dāng)病人的健康狀況惡化時，可以向醫(yī)生發(fā)出警告。DeepMind將獲得基于績效的費用。由于這項工作需要獲得有關(guān)病人的敏感信息，Suleyman建立了一個獨立的審查小組(IRP)。

　　2018年11月8日，谷歌宣布成立自己的醫(yī)療保健部門Google Health。五天后，公司宣布將把DeepMind Health并入母公司相關(guān)部門。Suleyman曾在2016年寫道：“在任何階段，患者數(shù)據(jù)都不會與谷歌賬戶、產(chǎn)品或服務(wù)相關(guān)聯(lián)?！钡某兄Z似乎已經(jīng)落空。不過DeepMind還是說：“在這個階段，我們的合同都沒有轉(zhuǎn)到谷歌，只有得到合作伙伴的同意，才會轉(zhuǎn)去谷歌。”合并激怒了DeepMind Health的員工。據(jù)消息人士說，一旦合并完成，就會有更多員工計劃離職。據(jù)多名知情人士透露，有員工于2017年12月辭職，原因是擔(dān)心合并后該獨立審查小組更多的是為了裝門面，而不會對病人隱私數(shù)據(jù)使用情況進(jìn)行真正的監(jiān)督。

　　這一事件表明，DeepMind的非核心業(yè)務(wù)容易受到谷歌的左右。DeepMind在一份聲明中對此次合并給出了正面評價。但是我們不禁要問，谷歌是否會將同樣的邏輯應(yīng)用于DeepMind在AGI方面的工作。

　　強化學(xué)習(xí)

　　總體上來說DeepMind進(jìn)步明顯。它的軟件可以模擬甚至超越人類學(xué)習(xí)執(zhí)行任務(wù)。比如打磚塊游戲。沒有人類指導(dǎo)，DeepMind的程序不僅學(xué)會了玩這個游戲，而且還學(xué)會了如何把球打進(jìn)磚塊后面的空間，利用球回彈來打更多的磚塊。Hassabis說，這證明了強化學(xué)習(xí)的力量和DeepMind計算程序的非凡能力。

　　這個游戲演示令人印象深刻，但有個問題。如果虛擬球拍移動得更高一些，程序就會失敗。AI項目所掌握的技能非常有限，即使對環(huán)境的微小變化也無法做出反應(yīng)，除非接受數(shù)千輪強化學(xué)習(xí)?，F(xiàn)實世界的變化太多了。對于智能診斷來說，沒有兩個身體器官是完全相同的。對于智能機械，沒有兩個引擎可以用相同的方式調(diào)整。因此，將虛擬空間中完善的程序投放到現(xiàn)實世界困難重重。

　　另外一個問題是，虛擬環(huán)境中的成功取決于獎勵機制：一個允許軟件衡量其進(jìn)程的信號。程序了解到物體從墻上回彈會加分。AlphaGo很多編程工作都是在構(gòu)建與復(fù)雜游戲兼容的獎勵函數(shù)。不幸的是，現(xiàn)實世界并不提供這種簡單的獎勵。政治因素使問題更加復(fù)雜化。要協(xié)調(diào)氣候健康的獎勵信號(單位體積二氧化碳粒子數(shù))與石油公司的獎勵信號(股價)，牽涉到許多動機矛盾的各方。獎勵信號往往非常微弱。而人腦在執(zhí)行任務(wù)的過程中不會去想有沒有獎勵的問題。

　　DeepMind通過大量計算機電力找到了解決方法。公司最近專注于策略電腦游戲星際爭霸II，游戲早期所做的決定對后來會產(chǎn)生影響，這更接近于現(xiàn)實世界任務(wù)所特有的那種復(fù)雜而延遲的反饋。今年1月，DeepMind軟件擊敗了一些頂級人類玩家，給人留下了深刻印象。它的程序也已經(jīng)開始學(xué)習(xí)經(jīng)由人類反饋的獎勵功能。不過，把人類指令置于計算循環(huán)中，比起純粹的計算機處理，其計算規(guī)模和速度都會受到影響。

　　公司研究人員匿名表示，他們也對DeepMind能否通過這些方法達(dá)到AGI表示懷疑，專注于在模擬環(huán)境中實現(xiàn)高性能，這使得獎勵信號問題很難解決。然而，這種方法又是DeepMind的核心。

　　Hassabis的人生一直在和游戲打交道。就像公司的軟件一樣，Hassabis只能從以往的經(jīng)驗中學(xué)習(xí)。在發(fā)明了一些有用的醫(yī)療技術(shù)，并超越了世界上最偉大的棋類游戲玩家之后，對AGI的追求最終還是可能會失敗。公司取得的成績斐然，卻不是Hassabis最終想要的。他仍然可以開創(chuàng)AGI的時代，就在谷歌的眼皮底下，但卻超出了它的控制范圍。如果這樣做，Hassabis將贏得最艱難的比賽。

新聞中心

谷歌與DeepMind：史上最強AI拉鋸戰(zhàn)

評論

相關(guān)推薦

技術(shù)專區(qū)