擁有100萬(wàn)億參數(shù)的GPT-4,有何值得期待?
大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自數(shù)據(jù)實(shí)戰(zhàn)派
作者:Alberto Romero
譯者:青蘋(píng)果
為了應(yīng)對(duì)實(shí)現(xiàn)通用人工智能(AGI, Artificial General Intelligence)的挑戰(zhàn),OpenAI 應(yīng)運(yùn)而生。通俗來(lái)說(shuō),這就是一種能夠完成人類所能完成的任何事情的 AI。
毫無(wú)疑問(wèn),這樣的技術(shù)必將改變我們所認(rèn)知的世界。它就如一把雙刃劍,如果使用得當(dāng),可使所有人受益;倘若落入壞人之手,也會(huì)變成最具毀滅性的武器。這就是 OpenAI 接手這項(xiàng)任務(wù)的原因,以確保每個(gè)人都能平等受益:“我們的目標(biāo)是以最有可能造福全人類的方式推進(jìn)數(shù)字智能。”
然而,這個(gè)問(wèn)題的嚴(yán)重性使得它可以說(shuō)是人類涉足的最大的科學(xué)事業(yè)。盡管計(jì)算機(jī)科學(xué)(CS, Computer Science)和 AI 有了長(zhǎng)足的進(jìn)步,但沒(méi)有人知道如何解決這個(gè)問(wèn)題,以及它何時(shí)會(huì)成為現(xiàn)實(shí)。
有些人認(rèn)為,深度學(xué)習(xí)不足以實(shí)現(xiàn) AGI。伯克利大學(xué)的計(jì)算機(jī)科學(xué)教授、AI 先驅(qū) Stuart Russell 認(rèn)為:
“專注于原始計(jì)算能力完全沒(méi)有切中要點(diǎn)……我們不知道如何讓機(jī)器實(shí)現(xiàn)真正的智能——即使它有宇宙那么大?!?/p>
相比之下,OpenAI 相信,以大型數(shù)據(jù)集為基礎(chǔ)并在大型計(jì)算機(jī)上訓(xùn)練的大型神經(jīng)網(wǎng)絡(luò)是實(shí)現(xiàn) AGI 的最佳途徑。OpenAI 的首席技術(shù)官格雷格·布羅克曼(Greg Brockman)在接受《金融時(shí)報(bào)》采訪時(shí)表示:“我們認(rèn)為,誰(shuí)擁有最大型的計(jì)算機(jī),誰(shuí)就將獲得最大的收益?!?/p>
顯然,他們也是這樣做的:開(kāi)始訓(xùn)練越來(lái)越大的模型,以喚醒深度學(xué)習(xí)中隱藏的力量。朝此方向邁出的第一個(gè)非微妙步驟是 GPT 和 GPT-2 的發(fā)布。這些大型語(yǔ)言模型將為后續(xù)的 “新秀”模型-GPT-3 奠定基礎(chǔ)。一個(gè)擁有 1750 億參數(shù),比 GPT-2 大 100 倍的語(yǔ)言模型。
可見(jiàn) GPT-3 是當(dāng)時(shí)最大的神經(jīng)網(wǎng)絡(luò),并且就目前來(lái)說(shuō),仍是最大的密集神經(jīng)網(wǎng)絡(luò)。它的語(yǔ)言專長(zhǎng)以及數(shù)不勝數(shù)的能力令多少人為之驚嘆。盡管一些專家仍持懷疑態(tài)度,但大型語(yǔ)言模型已經(jīng)讓人感到新奇。
對(duì)于 OpenAI 研究人員來(lái)說(shuō),這是一個(gè)巨大的飛躍并且增強(qiáng)了他們的信念感,也進(jìn)一步讓我們相信 AGI 是深度學(xué)習(xí)的一個(gè)值得關(guān)注的問(wèn)題。
三位一體——算法、數(shù)據(jù)和計(jì)算
OpenAI 相信擴(kuò)展假說(shuō)( the scaling hypothesis)。
給定一個(gè)可擴(kuò)展的算法,即本例中的 Transformer——GPT 系列背后的基本架構(gòu)——可能有一條通向 AGI 的直接路徑,該路徑可以基于該算法訓(xùn)練越來(lái)越大的模型。
但大型模型只是 AGI 難題的一部分。訓(xùn)練它們需要大量的數(shù)據(jù)集和大量的計(jì)算能力。
當(dāng)機(jī)器學(xué)習(xí)社區(qū)開(kāi)始揭示無(wú)監(jiān)督學(xué)習(xí)的潛力時(shí),數(shù)據(jù)不再是瓶頸。這與生成語(yǔ)言模型和小樣本任務(wù)(few-shot task)遷移一起解決了 OpenAI 的“大數(shù)據(jù)集”問(wèn)題。
他們只需要使用大量的計(jì)算資源來(lái)訓(xùn)練和部署他們的模型即可很好地運(yùn)行。這也就是他們?cè)?2019 年與微軟合作的原因。他們授權(quán)了這家大型科技公司,這樣他們就可以在商業(yè)上使用 OpenAI 的一些模型,以換取對(duì)其云計(jì)算基礎(chǔ)設(shè)施和所需的強(qiáng)大 GPUs 的訪問(wèn)權(quán)。
但是 GPUs 并非是專為訓(xùn)練神經(jīng)網(wǎng)絡(luò)而構(gòu)建的。游戲行業(yè)開(kāi)發(fā)這些芯片用于圖形處理,而 AI 行業(yè)只是利用了它對(duì)并行計(jì)算的適用性。OpenAI 想要最好的模型和最好的數(shù)據(jù)集,他們也想要最佳的計(jì)算機(jī)芯片。然而,GPUs 還不夠。
許多公司也意識(shí)到了這一點(diǎn),并開(kāi)始在不損失效率和能力的情況下,構(gòu)建訓(xùn)練神經(jīng)網(wǎng)絡(luò)的內(nèi)部專用芯片。然而,像 OpenAI 這樣的純軟件公司很難將硬件設(shè)計(jì)和制造進(jìn)行集成。這恰好解釋了他們?yōu)槭裁床扇×肆硪粭l路線:使用第三方 AI 專用芯片。
這時(shí)到 CerebrasSystems 登場(chǎng)了。這家致力于研發(fā)用于深度學(xué)習(xí)的芯片產(chǎn)品的公司早在 2019 年便制造了有史以來(lái)最大的用于訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)的芯片?,F(xiàn)在他們“重出江湖”,OpenAI 將很好地與其進(jìn)行合作,開(kāi)展新的研究。
WSE-2 芯片和 GPT-4 模型
兩周前,Wired 雜志發(fā)表了一篇文章,披露了兩條重要消息。
首先,Cerebras 再次制造了市場(chǎng)上最大的芯片- WSE-2(Wafer Scale Engine Two)。它大約 22 厘米,有 2.6 萬(wàn)億晶體管。相比之下,特斯拉(Tesla)全新的訓(xùn)練芯片也僅有 1.25 萬(wàn)億晶體管。
Cerebras 找到了一種有效壓縮計(jì)算能力的方法,因此 WSE-2 有 85 萬(wàn)個(gè)核心(計(jì)算單元),而典型的 GPUs 只有幾百個(gè)。他們還用一種新穎的冷卻系統(tǒng)解決了散熱問(wèn)題,并創(chuàng)設(shè)了一種高效的 I/O 數(shù)據(jù)流。
像 WSE-2 這樣的超專業(yè)、超昂貴、超強(qiáng)大的芯片用途并不多。訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)就是其中之一。所以 Cerebras 和 OpenAI 進(jìn)行了對(duì)話。
第二條消息是,Cerebras 首席執(zhí)行官安德魯·費(fèi)爾德曼(Andrew Feldman)對(duì) Wired 雜志表示:“從與 OpenAI 的對(duì)話來(lái)看,GPT-4 將會(huì)有大約 100 萬(wàn)億個(gè)參數(shù)?!劣诎l(fā)布,可能還需要幾年來(lái)準(zhǔn)備?!?/p>
從 GPT-3 開(kāi)始,人們就對(duì) OpenAI 及其后續(xù)版本充滿了期待?,F(xiàn)在我們知道它會(huì)在幾年內(nèi)問(wèn)世,而且規(guī)模會(huì)非常大。它的尺寸將超過(guò) GPT-3 的 500 倍。是的,你沒(méi)看錯(cuò):500 倍!
GPT-4 將比去年震驚世界的語(yǔ)言模型大 500 倍。
GPT-4 可以帶給我們什么期待?
100 萬(wàn)億的參數(shù)究竟有多大呢?
為了理解這個(gè)數(shù)字概念,我們用人腦與其展開(kāi)比較。一般情況下,大腦約有 800-1000 億個(gè)神經(jīng)元(GPT-3 的數(shù)量級(jí))和大約 100 萬(wàn)億個(gè)突觸。
GPT-4 將擁有與大腦的突觸一樣多的參數(shù)。
這種神經(jīng)網(wǎng)絡(luò)的龐大規(guī)??赡軒?lái)我們只能想象的 GPT-3 的質(zhì)的飛躍。我們甚至可能無(wú)法用當(dāng)前的提示方法測(cè)試系統(tǒng)的全部潛力。
然而,將人工神經(jīng)網(wǎng)絡(luò)與大腦進(jìn)行比較是一件棘手的事情。這種比較看似公平,但那只是因?yàn)槲覀兗僭O(shè)至少在一定程度上,人工神經(jīng)元是松散地基于生物神經(jīng)元的。最近發(fā)表在 Neuron 雜志上的一項(xiàng)研究表明并非如此。他們發(fā)現(xiàn),至少需要一個(gè) 5 層神經(jīng)網(wǎng)絡(luò)來(lái)模擬單個(gè)生物神經(jīng)元的行為。換句話說(shuō),每個(gè)生物神經(jīng)元大約需要 1000 個(gè)人工神經(jīng)元才可以模擬。
由此看來(lái),比較結(jié)果是,我們的大腦更勝一籌。即使 GPT-4 不如我們的大腦強(qiáng)大,它也肯定會(huì)帶來(lái)一些驚喜。與 GPT-3 不同,它可能不僅僅是一個(gè)語(yǔ)言模型。OpenAI 首席科學(xué)家 Ilya Sutskever 在 2020 年 12 月撰寫(xiě)多模態(tài)的相關(guān)文章時(shí)暗示了這一點(diǎn):
“到 2021 年,語(yǔ)言模型將開(kāi)始認(rèn)識(shí)視覺(jué)世界。當(dāng)然,文字本身即可表達(dá)關(guān)于這個(gè)世界的大量信息,但畢竟是不完整的,因?yàn)槲覀円采钤谝曈X(jué)世界之中?!?/p>
我們已經(jīng)在 DALL·E 中看到了一些,它是 GPT-3 的一個(gè)較小版本(120 億參數(shù)),專門(mén)針對(duì)文本-圖像對(duì)進(jìn)行訓(xùn)練。OpenAI 當(dāng)時(shí)表示,“通過(guò)語(yǔ)言描述視覺(jué)概念現(xiàn)在已經(jīng)觸手可及?!?/p>
OpenAI 一直在不停地開(kāi)發(fā) GPT-3 的隱藏能力。DALL·E 是 GPT-3 的一個(gè)特例,很像 Codex。但它們并不是絕對(duì)的改進(jìn),更像是一種特殊情況。而 GPT-4 具備更多的功能。舉例來(lái)說(shuō),將 DALL·E(文本圖像)和 Codex(編碼)等專業(yè)系統(tǒng)的深度與 GPT-3(通用語(yǔ)言)等通用系統(tǒng)的寬度相結(jié)合。
那么其他類人特征呢,比如推理或常識(shí)?在這方面,Sam Altman 表示他們也不確定,但仍然保持“樂(lè)觀”心態(tài)。
總之,目前看來(lái),問(wèn)題很多但答案卻很少。沒(méi)有人知道 AGI 能否成為可能,也沒(méi)有人知道如何構(gòu)建,亦沒(méi)有人知道更大的神經(jīng)網(wǎng)絡(luò)是否會(huì)越來(lái)越向其靠近。但不可否認(rèn)的一點(diǎn)是:GPT-4 值得我們關(guān)注,必定不負(fù)期待。
原文:
GPT-4 Will Have 100 Trillion Parameters — 500x the Size of GPT-3.
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。