Science：AI競(jìng)賽，學(xué)界正在輸給業(yè)界

發(fā)布人：大數(shù)據(jù)文摘時(shí)間：2023-03-06 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

大數(shù)據(jù)文摘轉(zhuǎn)載自學(xué)術(shù)頭條

人工智能（AI）正在向業(yè)界傾斜。相比于學(xué)界的前沿性研究，風(fēng)靡當(dāng)下的 AI 聊天機(jī)器人 ChatGPT、AI 藝術(shù)生成器 Midjourney，以及微軟發(fā)布的新一代 AI 驅(qū)動(dòng)搜索引擎 New Bing、谷歌發(fā)布 ChatGPT 競(jìng)品 Bard 和那些未來將要發(fā)布的“類 ChatGPT”等，似乎正在預(yù)示著一場(chǎng)更大、更系統(tǒng)的變革。

盡管消費(fèi)者能夠從業(yè)界的這些成果中受益，但伴隨而來的是全球決策者的擔(dān)憂——重要 AI 工具的公共科技替代品可能會(huì)越來越稀缺。

2023 年 3 月 3 日，來自麻省理工學(xué)院、弗吉尼亞理工大學(xué)的研究團(tuán)隊(duì)在權(quán)威科學(xué)期刊 Science 上發(fā)文，闡述了業(yè)界在“數(shù)據(jù)、算力與人才”方面的優(yōu)勢(shì)，并探討了業(yè)界的這些優(yōu)勢(shì)可能帶來的隱患，以及可行的對(duì)策。

學(xué)術(shù)頭條在不改變文章原意的前提下，對(duì)原文進(jìn)行了精簡(jiǎn)與編譯。

幾十年來，AI 研究在學(xué)界和業(yè)界并存，但隨著深度學(xué)習(xí)成為該領(lǐng)域的領(lǐng)先技術(shù)，平衡正在向業(yè)界傾斜。我們常?？吹綐I(yè)界 AI 的成功，如 DALL·E 2、ChatGPT、new Bing 等。

然而，這些頭條新聞?lì)A(yù)示著一場(chǎng)更大、更系統(tǒng)的變革：業(yè)界正在占據(jù) AI 研究的主導(dǎo)地位，從大型數(shù)據(jù)集、計(jì)算能力和高技能研究人員三方面支配著 AI 投入。這種支配正在轉(zhuǎn)化為一系列研究成果：業(yè)界在學(xué)術(shù)出版物、尖端模型和關(guān)鍵基準(zhǔn)方面的影響力越來越大。盡管消費(fèi)者能夠從中受益，但伴隨而來的是全球決策者的擔(dān)憂——重要 AI 工具的公共科技替代品可能會(huì)越來越稀缺。

業(yè)界的投入優(yōu)勢(shì)：數(shù)據(jù)、算力與人才

業(yè)界長(zhǎng)期以來更能夠訪問大型、具有經(jīng)濟(jì)價(jià)值的數(shù)據(jù)集，因?yàn)榇罅坑脩襞c設(shè)備交互時(shí)會(huì)自然而然地產(chǎn)生數(shù)據(jù)。例如，在 2020 年，WhatsApp 美國用戶每天發(fā)送大約 1000 億條消息。然而，業(yè)界的主導(dǎo)地位除了凸顯在數(shù)據(jù)之外，更是擴(kuò)展到了現(xiàn)代 AI 的其他關(guān)鍵投入：人才和計(jì)算能力。

在過去十年中，AI 人才的需求驟升導(dǎo)致了 AI 人才競(jìng)爭(zhēng)的加劇。然而，業(yè)界正在贏得這場(chǎng)競(jìng)賽。來自北美州的眾多大學(xué)的數(shù)據(jù)顯示，專門研究 AI 的計(jì)算機(jī)科學(xué)（CS）博士畢業(yè)生正以前所未有的數(shù)量進(jìn)入業(yè)界。2004 年，只有 21% 的 AI 博士進(jìn)入業(yè)界，但到 2020 年，這一數(shù)量占比高達(dá) 70%。

專門研究 AI 的 CS 研究人員也從大學(xué)被聘請(qǐng)到業(yè)界工作。自 2006 年以來，這一招聘人數(shù)增長(zhǎng)了 8 倍，遠(yuǎn)高于 CS 研究人員的整體增長(zhǎng)。這種擔(dān)憂并不局限于美國的大學(xué)。在英國，華威大學(xué)國王十字校區(qū)院長(zhǎng) Abhinay Muthoo 表示，“頂尖的科技公司正在汲取大學(xué)的精華”。

學(xué)界和業(yè)界的算力使用也呈現(xiàn)出越來越大的差距。在圖像分類中，業(yè)界使用的算力比學(xué)界或業(yè)界-學(xué)界合作使用的更大，并且增長(zhǎng)更快。研究運(yùn)用參數(shù)數(shù)量（所需算力的關(guān)鍵決定因素之一）來代替模型中使用的計(jì)算能力。2021 年，業(yè)界模型的平均規(guī)模是學(xué)界的 29 倍，突顯出兩組計(jì)算能力的巨大差異。

業(yè)界雇傭人才和利用更大算力的能力很可能是造成 AI 研究成果差異的原因。雖然公共和私營部門在 AI 方面的投資都在大幅增加，但業(yè)界的投資更大、增長(zhǎng)更快。2021 年，非國防的美國政府機(jī)構(gòu)在 AI 行業(yè)撥款 15 億美元。同年，歐盟委員會(huì)計(jì)劃支出 10 億歐元。

相比之下，同年全球范圍內(nèi)，業(yè)界在 AI 上的支出超過了 3400 億美元，大大超過了公共投資。例如，2019 年，谷歌母公司 Alphabet 在其子公司 DeepMind 上花費(fèi)了 15 億美元，這只是其 AI 投資的一部分。在歐洲，這一差距較小，但仍然存在；AI Watch 估計(jì)，“私營和公共部門分別占?xì)W盟 AI 投資的 67% 和 33%”。

開展 AI 研究所需資金規(guī)模的一個(gè)例子來自 OpenAI，它最初是一個(gè)非營利組織，聲稱“不受產(chǎn)生財(cái)務(wù)回報(bào)的約束”，旨在“造福整個(gè)人類”。四年后，OpenAI 將其定位改為“有上限的營利組織”，并宣布這一改變將使他們“迅速增加對(duì)算力和人才方面的投資”。

業(yè)界在 AI 研究中日益占據(jù)主導(dǎo)地位

如今，業(yè)界對(duì) AI 輸入的主導(dǎo)地位表現(xiàn)在 AI 成果的日益突出，尤其是在研究發(fā)布、創(chuàng)建最大模型和超越關(guān)鍵基準(zhǔn)方面。在主要 AI 會(huì)議上，由一位或多位業(yè)界聯(lián)合作者撰寫的研究論文從 2000 年的 22% 增長(zhǎng)到 2020 年的 38%；業(yè)界在最大的 AI 模型中所占份額已從 2010 年的 11% 上升到 2021 年的 96%。

在 AI 基準(zhǔn)方面，縱觀圖像識(shí)別、語義分析、語言建模、語義分割、對(duì)象檢測(cè)和機(jī)器翻譯 6 個(gè)方面，以及涵蓋機(jī)器人和常識(shí)推理等領(lǐng)域的另外 14 項(xiàng)基準(zhǔn)，在 2017 年之前，業(yè)界單獨(dú)或與大學(xué)合作，有 62% 的時(shí)間處于領(lǐng)先地位。自 2020 年以來，這一比例已上升到 91%。

因此，通過在領(lǐng)先的研究機(jī)構(gòu)發(fā)表文章、建立最先進(jìn)的 AI 模型以及超越關(guān)鍵基準(zhǔn)三個(gè)方面衡量，分析表明，業(yè)界在 AI 產(chǎn)出方面的地位越來越突出。

業(yè)界的壓倒性優(yōu)勢(shì)帶來隱患

業(yè)界對(duì) AI 的投資不斷增加，可能通過技術(shù)的商業(yè)化為社會(huì)帶來巨大利益。公司可以創(chuàng)造更好的產(chǎn)品，使消費(fèi)者受益——機(jī)器翻譯有利于國際貿(mào)易，并能簡(jiǎn)化流程降低成本。業(yè)界對(duì) AI 的投資還產(chǎn)生了對(duì)整個(gè)社區(qū)有價(jià)值的工具。例如，學(xué)界廣泛使用的 PyTorch 和 TensorFlow，促進(jìn)深度學(xué)習(xí)模型高效訓(xùn)練的硬件如 TPU，以及可公開訪問的預(yù)訓(xùn)練模型——Meta 的 OPT 模型。

與此同時(shí)，AI 在業(yè)界中的集中也令人擔(dān)憂，業(yè)界的商業(yè)動(dòng)機(jī)促使他們關(guān)注以盈利為導(dǎo)向的話題。如果所有的前沿模型都來自業(yè)界，就會(huì)出現(xiàn)不存在具有公共意識(shí)的替代品的情況。換句話來說，“優(yōu)先部門的 AI 研究人員傾向于專注于數(shù)據(jù)要求高和計(jì)算密集的深度學(xué)習(xí)方法”是以“涉及其他 AI 方法的研究、考慮 AI 的社會(huì)和倫理影響的研究以及在健康等領(lǐng)域的應(yīng)用”為代價(jià)的。

AI 的發(fā)展軌跡如何？誰來控制它？AI 會(huì)替代人類嗎并引發(fā)不平等嗎？一些研究人員擔(dān)心，“我們可能正走向社會(huì)次優(yōu)軌跡，它更側(cè)重于替代人類勞動(dòng)，而不是增強(qiáng)人類能力。”一些人展開想象：業(yè)界和學(xué)界可能會(huì)形成與其他學(xué)科類似的分工：基礎(chǔ)研究主要由大學(xué)完成，而應(yīng)用研究和開發(fā)則主要由業(yè)界完成。

然而，在 AI 領(lǐng)域，產(chǎn)學(xué)的明確分工并不存在。業(yè)界所使用的應(yīng)用模型往往是那些突破基礎(chǔ)研究邊界的模型。例如，transformer 是由谷歌大腦研究人員于 2017 年開發(fā)的一種深度學(xué)習(xí)架構(gòu)，使得基礎(chǔ)研究向前邁出重要一步，并且?guī)缀趿⒓磻?yīng)用于業(yè)界使用。盡管這意味著學(xué)術(shù)工作可以直接惠及業(yè)界，但是應(yīng)用工作的業(yè)界主導(dǎo)權(quán)也賦予了它決定基礎(chǔ)研究方向的權(quán)力。

鑒于 AI 工具可以在整個(gè)社會(huì)中得到廣泛的應(yīng)用，這種情況將使少數(shù)技術(shù)公司在社會(huì)發(fā)展方向擁有巨大的權(quán)力。對(duì)于世界上許多人來說，這種擔(dān)憂進(jìn)一步加劇，因?yàn)檫@些組織對(duì)他們來說是“外國公司”。例如，生命未來研究所認(rèn)為，“歐洲公司沒有開發(fā)通用 AI 系統(tǒng)，而且由于他們與美國和中國公司相比在競(jìng)爭(zhēng)上處于相對(duì)劣勢(shì)，不太可能很快開始開發(fā)”。

學(xué)界重塑 AI 前沿的可行之路

通過對(duì)業(yè)界 AI 的審查或外部監(jiān)督，監(jiān)管可能是解決方案。例如，2018 年，學(xué)者 Joy Buolamwini 和 Timnit Gebru 記錄了商業(yè)人臉識(shí)別系統(tǒng)中的性別和種族偏見。然而，如果學(xué)界不能接觸到業(yè)界的 AI 系統(tǒng)，或者沒有資源來開發(fā)競(jìng)爭(zhēng)模型，他們解釋業(yè)界模型或提供公共利益的替代方案的能力將受到限制。

這既是因?yàn)閷W(xué)界無法建立尖端性能所需的大型模型，也是因?yàn)?AI 系統(tǒng)的一些有用的能力似乎是“涌現(xiàn)”的——系統(tǒng)只有在特別大的時(shí)候才能獲得這些能力。模型的一些負(fù)面特征似乎也隨著規(guī)模的增加而擴(kuò)大。例如，AI 生成的語言中的毒性以及刻板印象。在任何一種情況下，沒有足夠資源的學(xué)者都無法對(duì)這些重要領(lǐng)域做出有意義的貢獻(xiàn)。

在全球范圍內(nèi)，這種對(duì)學(xué)界在 AI 研究中的資源劣勢(shì)的擔(dān)憂正在被認(rèn)識(shí)到，并開始出現(xiàn)政策應(yīng)對(duì)措施。在美國，NAIRR 工作組提議創(chuàng)建公共研究云和公共數(shù)據(jù)集。在加拿大，國家高級(jí)研究計(jì)算平臺(tái)一直在為該國的學(xué)界服務(wù)，自從近十年前啟動(dòng)以來，一直被超額使用。

對(duì)許多國家來說，這類投資所需的規(guī)?？赡芰钊送贰Ｔ谶@種情況下，決策者面臨的關(guān)鍵問題將是，他們是否能夠與志同道合的合作者一起籌集足夠的資源，以達(dá)到創(chuàng)建反映自己優(yōu)先事項(xiàng)的 AI 系統(tǒng)所需的規(guī)模。

算力并不是提供補(bǔ)救措施的唯一領(lǐng)域，構(gòu)建公共數(shù)據(jù)集將非常重要。但是，這并非易事，因?yàn)楝F(xiàn)代 AI 訓(xùn)練數(shù)據(jù)集可以是數(shù)十億份文檔。特別值得關(guān)注的是，創(chuàng)建沒有直接商業(yè)利益的重要數(shù)據(jù)集，以及提供資源讓頂尖 AI 研究人員留在學(xué)界。例如，加拿大研究主席計(jì)劃（CRCP）通過提供工資和研究基金吸引加拿大頂尖人才。

對(duì)于致力于這一問題的決策者來說，目標(biāo)應(yīng)該是確保有足夠的能力來幫助審查或監(jiān)控業(yè)界模型，或生產(chǎn)出符合公眾利益的替代模型。

有了這些能力，學(xué)界可以繼續(xù)塑造現(xiàn)代 AI 研究的前沿，并為負(fù)責(zé)任的 AI 制定基準(zhǔn)。若沒有這些能力，重要的公眾興趣 AI 工作將被拋棄。

參考鏈接：https://www.science.org/doi/10.1126/science.ade2420

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

Science：AI競(jìng)賽，學(xué)界正在輸給業(yè)界

相關(guān)推薦

技術(shù)專區(qū)