Science:AI競(jìng)賽,學(xué)界正在輸給業(yè)界
大數(shù)據(jù)文摘轉(zhuǎn)載自學(xué)術(shù)頭條
人工智能(AI)正在向業(yè)界傾斜。相比于學(xué)界的前沿性研究,風(fēng)靡當(dāng)下的 AI 聊天機(jī)器人 ChatGPT、AI 藝術(shù)生成器 Midjourney,以及微軟發(fā)布的新一代 AI 驅(qū)動(dòng)搜索引擎 New Bing、谷歌發(fā)布 ChatGPT 競(jìng)品 Bard 和那些未來將要發(fā)布的“類 ChatGPT”等,似乎正在預(yù)示著一場(chǎng)更大、更系統(tǒng)的變革。
盡管消費(fèi)者能夠從業(yè)界的這些成果中受益,但伴隨而來的是全球決策者的擔(dān)憂——重要 AI 工具的公共科技替代品可能會(huì)越來越稀缺。
2023 年 3 月 3 日,來自麻省理工學(xué)院、弗吉尼亞理工大學(xué)的研究團(tuán)隊(duì)在權(quán)威科學(xué)期刊 Science 上發(fā)文,闡述了業(yè)界在“數(shù)據(jù)、算力與人才”方面的優(yōu)勢(shì),并探討了業(yè)界的這些優(yōu)勢(shì)可能帶來的隱患,以及可行的對(duì)策。
學(xué)術(shù)頭條在不改變文章原意的前提下,對(duì)原文進(jìn)行了精簡(jiǎn)與編譯。
幾十年來,AI 研究在學(xué)界和業(yè)界并存,但隨著深度學(xué)習(xí)成為該領(lǐng)域的領(lǐng)先技術(shù),平衡正在向業(yè)界傾斜。我們常??吹綐I(yè)界 AI 的成功,如 DALL·E 2、ChatGPT、new Bing 等。
然而,這些頭條新聞?lì)A(yù)示著一場(chǎng)更大、更系統(tǒng)的變革:業(yè)界正在占據(jù) AI 研究的主導(dǎo)地位,從大型數(shù)據(jù)集、計(jì)算能力和高技能研究人員三方面支配著 AI 投入。這種支配正在轉(zhuǎn)化為一系列研究成果:業(yè)界在學(xué)術(shù)出版物、尖端模型和關(guān)鍵基準(zhǔn)方面的影響力越來越大。盡管消費(fèi)者能夠從中受益,但伴隨而來的是全球決策者的擔(dān)憂——重要 AI 工具的公共科技替代品可能會(huì)越來越稀缺。
業(yè)界的投入優(yōu)勢(shì):數(shù)據(jù)、算力與人才
業(yè)界長(zhǎng)期以來更能夠訪問大型、具有經(jīng)濟(jì)價(jià)值的數(shù)據(jù)集,因?yàn)榇罅坑脩襞c設(shè)備交互時(shí)會(huì)自然而然地產(chǎn)生數(shù)據(jù)。例如,在 2020 年,WhatsApp 美國用戶每天發(fā)送大約 1000 億條消息。然而,業(yè)界的主導(dǎo)地位除了凸顯在數(shù)據(jù)之外,更是擴(kuò)展到了現(xiàn)代 AI 的其他關(guān)鍵投入:人才和計(jì)算能力。
在過去十年中,AI 人才的需求驟升導(dǎo)致了 AI 人才競(jìng)爭(zhēng)的加劇。然而,業(yè)界正在贏得這場(chǎng)競(jìng)賽。來自北美州的眾多大學(xué)的數(shù)據(jù)顯示,專門研究 AI 的計(jì)算機(jī)科學(xué)(CS)博士畢業(yè)生正以前所未有的數(shù)量進(jìn)入業(yè)界。2004 年,只有 21% 的 AI 博士進(jìn)入業(yè)界,但到 2020 年,這一數(shù)量占比高達(dá) 70%。
專門研究 AI 的 CS 研究人員也從大學(xué)被聘請(qǐng)到業(yè)界工作。自 2006 年以來,這一招聘人數(shù)增長(zhǎng)了 8 倍,遠(yuǎn)高于 CS 研究人員的整體增長(zhǎng)。這種擔(dān)憂并不局限于美國的大學(xué)。在英國,華威大學(xué)國王十字校區(qū)院長(zhǎng) Abhinay Muthoo 表示,“頂尖的科技公司正在汲取大學(xué)的精華”。
學(xué)界和業(yè)界的算力使用也呈現(xiàn)出越來越大的差距。在圖像分類中,業(yè)界使用的算力比學(xué)界或業(yè)界-學(xué)界合作使用的更大,并且增長(zhǎng)更快。研究運(yùn)用參數(shù)數(shù)量(所需算力的關(guān)鍵決定因素之一)來代替模型中使用的計(jì)算能力。2021 年,業(yè)界模型的平均規(guī)模是學(xué)界的 29 倍,突顯出兩組計(jì)算能力的巨大差異。
業(yè)界雇傭人才和利用更大算力的能力很可能是造成 AI 研究成果差異的原因。雖然公共和私營部門在 AI 方面的投資都在大幅增加,但業(yè)界的投資更大、增長(zhǎng)更快。2021 年,非國防的美國政府機(jī)構(gòu)在 AI 行業(yè)撥款 15 億美元。同年,歐盟委員會(huì)計(jì)劃支出 10 億歐元。
相比之下,同年全球范圍內(nèi),業(yè)界在 AI 上的支出超過了 3400 億美元,大大超過了公共投資。例如,2019 年,谷歌母公司 Alphabet 在其子公司 DeepMind 上花費(fèi)了 15 億美元,這只是其 AI 投資的一部分。在歐洲,這一差距較小,但仍然存在;AI Watch 估計(jì),“私營和公共部門分別占?xì)W盟 AI 投資的 67% 和 33%”。
開展 AI 研究所需資金規(guī)模的一個(gè)例子來自 OpenAI,它最初是一個(gè)非營利組織,聲稱“不受產(chǎn)生財(cái)務(wù)回報(bào)的約束”,旨在“造福整個(gè)人類”。四年后,OpenAI 將其定位改為“有上限的營利組織”,并宣布這一改變將使他們“迅速增加對(duì)算力和人才方面的投資”。
業(yè)界在 AI 研究中日益占據(jù)主導(dǎo)地位
如今,業(yè)界對(duì) AI 輸入的主導(dǎo)地位表現(xiàn)在 AI 成果的日益突出,尤其是在研究發(fā)布、創(chuàng)建最大模型和超越關(guān)鍵基準(zhǔn)方面。在主要 AI 會(huì)議上,由一位或多位業(yè)界聯(lián)合作者撰寫的研究論文從 2000 年的 22% 增長(zhǎng)到 2020 年的 38%;業(yè)界在最大的 AI 模型中所占份額已從 2010 年的 11% 上升到 2021 年的 96%。
在 AI 基準(zhǔn)方面,縱觀圖像識(shí)別、語義分析、語言建模、語義分割、對(duì)象檢測(cè)和機(jī)器翻譯 6 個(gè)方面,以及涵蓋機(jī)器人和常識(shí)推理等領(lǐng)域的另外 14 項(xiàng)基準(zhǔn),在 2017 年之前,業(yè)界單獨(dú)或與大學(xué)合作,有 62% 的時(shí)間處于領(lǐng)先地位。自 2020 年以來,這一比例已上升到 91%。
因此,通過在領(lǐng)先的研究機(jī)構(gòu)發(fā)表文章、建立最先進(jìn)的 AI 模型以及超越關(guān)鍵基準(zhǔn)三個(gè)方面衡量,分析表明,業(yè)界在 AI 產(chǎn)出方面的地位越來越突出。
業(yè)界的壓倒性優(yōu)勢(shì)帶來隱患
業(yè)界對(duì) AI 的投資不斷增加,可能通過技術(shù)的商業(yè)化為社會(huì)帶來巨大利益。公司可以創(chuàng)造更好的產(chǎn)品,使消費(fèi)者受益——機(jī)器翻譯有利于國際貿(mào)易,并能簡(jiǎn)化流程降低成本。業(yè)界對(duì) AI 的投資還產(chǎn)生了對(duì)整個(gè)社區(qū)有價(jià)值的工具。例如,學(xué)界廣泛使用的 PyTorch 和 TensorFlow,促進(jìn)深度學(xué)習(xí)模型高效訓(xùn)練的硬件如 TPU,以及可公開訪問的預(yù)訓(xùn)練模型——Meta 的 OPT 模型。
與此同時(shí),AI 在業(yè)界中的集中也令人擔(dān)憂,業(yè)界的商業(yè)動(dòng)機(jī)促使他們關(guān)注以盈利為導(dǎo)向的話題。如果所有的前沿模型都來自業(yè)界,就會(huì)出現(xiàn)不存在具有公共意識(shí)的替代品的情況。換句話來說,“優(yōu)先部門的 AI 研究人員傾向于專注于數(shù)據(jù)要求高和計(jì)算密集的深度學(xué)習(xí)方法”是以“涉及其他 AI 方法的研究、考慮 AI 的社會(huì)和倫理影響的研究以及在健康等領(lǐng)域的應(yīng)用”為代價(jià)的。
AI 的發(fā)展軌跡如何?誰來控制它?AI 會(huì)替代人類嗎并引發(fā)不平等嗎?一些研究人員擔(dān)心,“我們可能正走向社會(huì)次優(yōu)軌跡,它更側(cè)重于替代人類勞動(dòng),而不是增強(qiáng)人類能力。”一些人展開想象:業(yè)界和學(xué)界可能會(huì)形成與其他學(xué)科類似的分工:基礎(chǔ)研究主要由大學(xué)完成,而應(yīng)用研究和開發(fā)則主要由業(yè)界完成。
然而,在 AI 領(lǐng)域,產(chǎn)學(xué)的明確分工并不存在。業(yè)界所使用的應(yīng)用模型往往是那些突破基礎(chǔ)研究邊界的模型。例如,transformer 是由谷歌大腦研究人員于 2017 年開發(fā)的一種深度學(xué)習(xí)架構(gòu),使得基礎(chǔ)研究向前邁出重要一步,并且?guī)缀趿⒓磻?yīng)用于業(yè)界使用。盡管這意味著學(xué)術(shù)工作可以直接惠及業(yè)界,但是應(yīng)用工作的業(yè)界主導(dǎo)權(quán)也賦予了它決定基礎(chǔ)研究方向的權(quán)力。
鑒于 AI 工具可以在整個(gè)社會(huì)中得到廣泛的應(yīng)用,這種情況將使少數(shù)技術(shù)公司在社會(huì)發(fā)展方向擁有巨大的權(quán)力。對(duì)于世界上許多人來說,這種擔(dān)憂進(jìn)一步加劇,因?yàn)檫@些組織對(duì)他們來說是“外國公司”。例如,生命未來研究所認(rèn)為,“歐洲公司沒有開發(fā)通用 AI 系統(tǒng),而且由于他們與美國和中國公司相比在競(jìng)爭(zhēng)上處于相對(duì)劣勢(shì),不太可能很快開始開發(fā)”。
學(xué)界重塑 AI 前沿的可行之路
通過對(duì)業(yè)界 AI 的審查或外部監(jiān)督,監(jiān)管可能是解決方案。例如,2018 年,學(xué)者 Joy Buolamwini 和 Timnit Gebru 記錄了商業(yè)人臉識(shí)別系統(tǒng)中的性別和種族偏見。然而,如果學(xué)界不能接觸到業(yè)界的 AI 系統(tǒng),或者沒有資源來開發(fā)競(jìng)爭(zhēng)模型,他們解釋業(yè)界模型或提供公共利益的替代方案的能力將受到限制。
這既是因?yàn)閷W(xué)界無法建立尖端性能所需的大型模型,也是因?yàn)?AI 系統(tǒng)的一些有用的能力似乎是“涌現(xiàn)”的——系統(tǒng)只有在特別大的時(shí)候才能獲得這些能力。模型的一些負(fù)面特征似乎也隨著規(guī)模的增加而擴(kuò)大。例如,AI 生成的語言中的毒性以及刻板印象。在任何一種情況下,沒有足夠資源的學(xué)者都無法對(duì)這些重要領(lǐng)域做出有意義的貢獻(xiàn)。
在全球范圍內(nèi),這種對(duì)學(xué)界在 AI 研究中的資源劣勢(shì)的擔(dān)憂正在被認(rèn)識(shí)到,并開始出現(xiàn)政策應(yīng)對(duì)措施。在美國,NAIRR 工作組提議創(chuàng)建公共研究云和公共數(shù)據(jù)集。在加拿大,國家高級(jí)研究計(jì)算平臺(tái)一直在為該國的學(xué)界服務(wù),自從近十年前啟動(dòng)以來,一直被超額使用。
對(duì)許多國家來說,這類投資所需的規(guī)??赡芰钊送贰T谶@種情況下,決策者面臨的關(guān)鍵問題將是,他們是否能夠與志同道合的合作者一起籌集足夠的資源,以達(dá)到創(chuàng)建反映自己優(yōu)先事項(xiàng)的 AI 系統(tǒng)所需的規(guī)模。
算力并不是提供補(bǔ)救措施的唯一領(lǐng)域,構(gòu)建公共數(shù)據(jù)集將非常重要。但是,這并非易事,因?yàn)楝F(xiàn)代 AI 訓(xùn)練數(shù)據(jù)集可以是數(shù)十億份文檔。特別值得關(guān)注的是,創(chuàng)建沒有直接商業(yè)利益的重要數(shù)據(jù)集,以及提供資源讓頂尖 AI 研究人員留在學(xué)界。例如,加拿大研究主席計(jì)劃(CRCP)通過提供工資和研究基金吸引加拿大頂尖人才。
對(duì)于致力于這一問題的決策者來說,目標(biāo)應(yīng)該是確保有足夠的能力來幫助審查或監(jiān)控業(yè)界模型,或生產(chǎn)出符合公眾利益的替代模型。
有了這些能力,學(xué)界可以繼續(xù)塑造現(xiàn)代 AI 研究的前沿,并為負(fù)責(zé)任的 AI 制定基準(zhǔn)。若沒有這些能力,重要的公眾興趣 AI 工作將被拋棄。
參考鏈接:https://www.science.org/doi/10.1126/science.ade2420
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。