ChatGPT的戰(zhàn)爭(zhēng)不會(huì)濃縮于一個(gè)晚上

發(fā)布人：大數(shù)據(jù)文摘時(shí)間：2023-03-06 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自品玩

作者：玄寧

進(jìn)入2023年，ChatGPT著實(shí)讓人類感受了一把被AI支配的恐懼。

它超強(qiáng)的上下文理解，泛化，學(xué)習(xí)和推理能力，以逼近人類互動(dòng)體驗(yàn)的方式呈現(xiàn)出來(lái)，讓所有人耳目一新。哪怕它和它的同類競(jìng)品紛紛暴露出諸多的問(wèn)題，依然難阻人們每天驚呼一次“奇點(diǎn)”來(lái)臨，日日擔(dān)心自己的工作被取代，紛紛轉(zhuǎn)述比爾蓋茨，納德拉和黃仁勛們對(duì)ChatGPT的贊賞。各路人馬也紛紛行動(dòng)起來(lái)，最新的是馬斯克，在批評(píng)了自己參與創(chuàng)辦但早已沒(méi)有股份的OpenAI旗下ChatGPT的安全問(wèn)題后，隨即傳出他自己正在計(jì)劃組隊(duì)開(kāi)發(fā)ChatGPT的替代品。

一切都飛快的發(fā)展著，這個(gè)沉寂了一段時(shí)間的行業(yè)終于又被焦慮和聒噪籠罩，這給人一種錯(cuò)覺(jué)：

仿佛這場(chǎng)關(guān)于ChatGPT的競(jìng)爭(zhēng)就要在一夜之間決出勝負(fù)。

圖源：Unsplash

而在這些焦躁里，那些本該更清晰指向這場(chǎng)競(jìng)爭(zhēng)真正本質(zhì)的特征——ChatGPT的千億參數(shù)，每一次調(diào)用的可觀費(fèi)用，OpenAI坐的多年冷板凳等等——也被用于了制造短期恐慌。這些或主動(dòng)或無(wú)意的討論事實(shí)上都在糾結(jié)于ChatGPT里“chat”的部分——對(duì)商業(yè)模式，對(duì)可能改變的人類對(duì)互聯(lián)網(wǎng)的使用習(xí)慣以及對(duì)錯(cuò)失新投資或是投機(jī)機(jī)會(huì)的恐慌。

這些焦慮對(duì)想把水?dāng)嚋喍刖值娜艘约吧縿?dòng)人工智能威脅論的人們來(lái)說(shuō)是喜聞樂(lè)見(jiàn)的，但對(duì)于真正理性看待這場(chǎng)技術(shù)競(jìng)爭(zhēng)是無(wú)益的。

某種意義上，與其說(shuō)ChatGPT證明了某一條AI研究路線的成功，倒不如說(shuō)它更大的意義是證明了AI這些年不斷收斂但依然存在多種選擇的各類路線里，最終真的是會(huì)走出一條路的：也就是，它第一次證明了這場(chǎng)技術(shù)革命真的會(huì)到來(lái)。

而當(dāng)我們真的把它當(dāng)作一場(chǎng)技術(shù)革命來(lái)看時(shí)，就會(huì)明白這是一場(chǎng)將持續(xù)很久的復(fù)雜系統(tǒng)的比拼，也才有可能尋找到真正具備競(jìng)爭(zhēng)能力的中國(guó)參與者，會(huì)明白這場(chǎng)新的技術(shù)浪潮的競(jìng)爭(zhēng)不會(huì)“濃縮于一個(gè)晚上”。

讓Chat的歸Chat，GPT的歸GPT

“ChatGPT是AI的iPhone時(shí)刻。”英偉達(dá)創(chuàng)始人及CEO黃仁勛在近期的一次演講里形容?！癷Phone時(shí)刻”的說(shuō)法隨之變得十分流行，它代表了今天對(duì)ChatGPT的熱鬧討論里非常流行的思考方式——人們與AI終于找到了最佳交互界面，從此一切新技術(shù)都可以用來(lái)替代舊應(yīng)用。而這也成了很多中國(guó)的焦慮者參與ChatGPT“創(chuàng)業(yè)潮”的通行證。

但這種“iPhone時(shí)刻”的說(shuō)法，有道理，但無(wú)益處。

與黃仁勛類似，微軟創(chuàng)始人比爾蓋茨和微軟現(xiàn)在的CEO納德拉也對(duì)ChatGPT做了與黃仁勛“互文”般的表達(dá)：比爾蓋茨把它的意義比作互聯(lián)網(wǎng)的誕生，納德拉說(shuō)它堪比工業(yè)革命。但對(duì)這幾家公司在最近這波浪潮里的角色稍加分析，就會(huì)明白，通過(guò)投資OpenAI而占盡ChatGPT紅利的微軟，和因?yàn)镃hatGPT而再次進(jìn)入新的“收稅”模式的英偉達(dá)，如此表達(dá)的另一層含義，是希望這場(chǎng)技術(shù)革命最終建立在它們自己的商業(yè)帝國(guó)之上。

至少現(xiàn)在來(lái)看，iPhone時(shí)刻還只是他們的，并不是我們的。

因此跟著這樣的思路去討論是偷懶的且無(wú)益的，尤其是作為ChatGPT沒(méi)有率先誕生在中國(guó)這個(gè)事已成事實(shí)的今天，它只會(huì)讓人們繼續(xù)關(guān)注被他人定義的“Chat”的部分，著急的去跟著iPhone做應(yīng)用，最終給iPhone添磚加瓦；它也會(huì)讓人們陷入窘迫而難以靜下來(lái)，無(wú)暇真正了解我們自己“GPT”部分的進(jìn)展。

在大模型上，一些從業(yè)者早已對(duì)“iPhone”時(shí)刻足夠警惕，對(duì)建立在它人底座上的模式創(chuàng)新已有充足反思和警惕，并已付諸了行動(dòng)。

OpenAI在2020年發(fā)布了1750億參數(shù)的GPT3，根據(jù)公開(kāi)資料，那之后中國(guó)公司和機(jī)構(gòu)發(fā)布的超過(guò)千億參數(shù)規(guī)模的大模型包括百度發(fā)布的Ernie（文心），華為發(fā)布的盤古大模型，和阿里巴巴發(fā)布的M6大模型等。

2021年，百度基于其已有的ERNIE模型框架，發(fā)布了百億參數(shù)的對(duì)話大模型PLATO-XL，到了最新發(fā)布的ERNIE 3.0 Zeus，模型已有千億級(jí)參數(shù)。

結(jié)合自身的PaddlePaddle訓(xùn)練框架，讓Ernie從一開(kāi)始的對(duì)中文語(yǔ)境的優(yōu)化到現(xiàn)在得到全球研究者越來(lái)越多的關(guān)注。2021年4月，華為對(duì)外公布了盤古大模型。根據(jù)公開(kāi)資料，其在預(yù)訓(xùn)練階段學(xué)習(xí)了 40TB 的中文文本數(shù)據(jù)，并也已達(dá)到千億級(jí)參數(shù)規(guī)模。

而2021年4月，阿里巴巴達(dá)摩院發(fā)布的270億參數(shù)語(yǔ)言大模型PLUG，被稱為中文版“GPT-3”。同年阿里巴巴還發(fā)布了國(guó)內(nèi)首個(gè)千億參數(shù)多模態(tài)大模型M6。

圖源：達(dá)摩院官網(wǎng)

阿里巴巴的這兩個(gè)大模型都在過(guò)去幾年繼續(xù)進(jìn)化， 2021年10月，PLUG模型實(shí)現(xiàn)2萬(wàn)億參數(shù) ，2022年11月，它所屬的阿里通義-AliceMind，在中文語(yǔ)言理解領(lǐng)域權(quán)威榜單CLUE中首次超越人類成績(jī)。而M6在不斷提高著訓(xùn)練效率，2021年10月，達(dá)摩院使用512卡GPU即訓(xùn)練出全球首個(gè)10萬(wàn)億參數(shù)大模型M6，同等參數(shù)規(guī)模能耗為此前業(yè)界標(biāo)桿的1%。并且，M6還在進(jìn)一步做多模態(tài)的打通。達(dá)摩院的諸多模型集成在2022年發(fā)布的“通義”大模型系列中。

這些大模型的進(jìn)步也引來(lái)了包括OpenAI在內(nèi)的同行的關(guān)注，OpenAI的前政策主管Jack Clark曾公開(kāi)點(diǎn)評(píng)M6模型，稱它“規(guī)模和設(shè)計(jì)都非常驚人。

這看起來(lái)像是眾多中國(guó)的AI研究組織逐漸發(fā)展壯大的一種表現(xiàn)。”

可以看出，中國(guó)的參與者并不少，參與的也并不晚，成果也并非乏善可陳，否認(rèn)這一點(diǎn)是虛無(wú)的。而且，但凡親自訓(xùn)練過(guò)大模型的研究者都不難得出結(jié)論：最好的方式就是在已有建制的基礎(chǔ)上去繼續(xù)加速。

因?yàn)榻裉熘T多對(duì)AI模型的研究已經(jīng)發(fā)現(xiàn)，大模型許多能力上的驚人突破，并非一個(gè)線性的過(guò)程，而是會(huì)在模型尺寸達(dá)到一個(gè)量級(jí)時(shí)發(fā)生突然的“進(jìn)化”，也就是“突現(xiàn)”。不管你喜不喜歡，但事實(shí)就是，雖然AI看起來(lái)高大上，但它的突破需要的，的確是一次不期而至的“大力出奇跡”。

但如果留意最近一段時(shí)間的討論，會(huì)發(fā)現(xiàn)一些此前曾表示開(kāi)發(fā)出大模型的機(jī)構(gòu)和領(lǐng)頭者或明星科學(xué)家，卻選擇跳離這些機(jī)構(gòu)，避而不談曾經(jīng)高調(diào)宣揚(yáng)的自己已有的進(jìn)展，放棄更接近突現(xiàn)的節(jié)點(diǎn)而去從零開(kāi)始，背后原因可能不言自明。

一些人抓住“一生一遇”機(jī)會(huì)的方式，是追隨別人的iPhone時(shí)刻而去，試圖重新來(lái)過(guò)，過(guò)度興奮于“chat”高度擬人的實(shí)現(xiàn)效果帶來(lái)的資本與商業(yè)想象力。但那些真正在產(chǎn)業(yè)里摸爬的中國(guó)科技公司，那些真正花很多年的心血打造自己的大模型的中國(guó)人工智能科學(xué)家們心里清楚：真正的屬于自己的iPhone時(shí)刻，不在眾聲喧嘩之側(cè)，不在“chat”本身，而是在“GPT”上，也就是自己曾經(jīng)多年的辛苦建模、訓(xùn)練和調(diào)參的基礎(chǔ)之上。

只有讓Chat的歸Chat，才能讓GPT的歸GPT，自己的GPT，比什么都重要。

論系統(tǒng)戰(zhàn)，論持久戰(zhàn)

當(dāng)我們從這種“歷史在一夜之間改變”的興奮脫離出來(lái)，會(huì)明白大模型的競(jìng)爭(zhēng)是一場(chǎng)全面戰(zhàn)爭(zhēng)，它像所有歷史上波瀾壯闊的技術(shù)變革一樣，也將是曠日持久的。

這種全面戰(zhàn)爭(zhēng)首先體現(xiàn)在它不只是某一個(gè)模型的問(wèn)題，而是一個(gè)系統(tǒng)的問(wèn)題。

在人們津津樂(lè)道的微軟借助OpenAI逆襲谷歌的故事里，有些被忽略的是微軟提供給OpenAI的云計(jì)算能力對(duì)ChatGPT的重要性。

根據(jù)公開(kāi)資料，微軟為OpenAI的GPT3訓(xùn)練，提供了一個(gè)有一萬(wàn)塊 GPU的分布式集群，并且這些昂貴的計(jì)算資源和計(jì)算能力也專門為OpenAI做了優(yōu)化。

微軟的云計(jì)算Azure，為OpenAI建立和部署了多個(gè)大規(guī)模的高性能計(jì)算（HPC）系統(tǒng)，根據(jù)一些研究數(shù)據(jù)，微軟Azure“與其他云服務(wù)對(duì)手相比，為每個(gè)GPU提供了近2倍的計(jì)算吞吐量，并且由于其網(wǎng)絡(luò)和系統(tǒng)軟件的優(yōu)化，可以近乎線性地?cái)U(kuò)展到數(shù)千個(gè)GPU。在模型推理方面，微軟Azure更具成本效益，每美元的推理能獲得2倍的性能?！?/span>

這說(shuō)明類似ChatGPT的大模型是AI+云計(jì)算的全方位競(jìng)爭(zhēng)，需要超大規(guī)模智算平臺(tái)對(duì)芯片、系統(tǒng)、網(wǎng)絡(luò)、存儲(chǔ)到數(shù)據(jù)進(jìn)行全盤系統(tǒng)優(yōu)化。

這些作為基礎(chǔ)設(shè)施的計(jì)算平臺(tái)提供的不只是高效率的支持，往后更多的甚至是定制化的支持——一丁點(diǎn)的算力浪費(fèi)，都會(huì)是這場(chǎng)競(jìng)爭(zhēng)里致命的成本。

這種復(fù)雜的系統(tǒng)是以云計(jì)算為代表的新技術(shù)發(fā)展到極高復(fù)雜度階段的結(jié)果，而中國(guó)科技公司在這個(gè)技術(shù)周期里生長(zhǎng)出來(lái)的技術(shù)自覺(jué)和為此付出的長(zhǎng)期努力，讓它們也擁有了自己的復(fù)雜系統(tǒng)，從而也有了參與這場(chǎng)ChatGPT競(jìng)爭(zhēng)的“入場(chǎng)券”。

其中能力最為完備的當(dāng)屬阿里巴巴，因?yàn)樵?、?shù)據(jù)、系統(tǒng)和芯片。

阿里云的飛天智算平臺(tái)在去IOE的過(guò)程中誕生，逐漸成長(zhǎng)為一個(gè)超大規(guī)模的高性能計(jì)算集群，并且已是國(guó)內(nèi)唯一能實(shí)現(xiàn)萬(wàn)卡規(guī)模的AI集群。它在一個(gè)超大規(guī)模高性能網(wǎng)絡(luò)中，構(gòu)建了一個(gè)可以持續(xù)進(jìn)化的智能算力系統(tǒng)，與此同時(shí)，阿里云自研的高性能集合通信庫(kù)ACCL和自研的網(wǎng)絡(luò)交換機(jī)也建立了無(wú)擁塞、高性能的集群通訊能力。

據(jù)公開(kāi)資料，飛天智算平臺(tái)的千卡并行效率達(dá)90%。針對(duì)數(shù)據(jù)密集型場(chǎng)景的大規(guī)模集群，還進(jìn)行了數(shù)據(jù)IO優(yōu)化，通過(guò)自研KSpeed和RDMA高速網(wǎng)絡(luò)架構(gòu)，最高可將存儲(chǔ)IO性能提升10倍，將時(shí)延顯著降低了90%。此外飛天智算平臺(tái)的機(jī)器學(xué)習(xí)平臺(tái)PAI，專門針對(duì)AI大模型推理和訓(xùn)練場(chǎng)景進(jìn)行針對(duì)性優(yōu)化，可將計(jì)算資源利用率提高3倍以上，AI訓(xùn)練效率提升11倍，推理效率提升6倍。阿里的M6模型，在訓(xùn)練階段使用的正是阿里云機(jī)器學(xué)習(xí)PAI平臺(tái)自研的分布式訓(xùn)練框架EPL(Easy Parallel Library)。

這場(chǎng)全面戰(zhàn)爭(zhēng)還體現(xiàn)在，它并不是一場(chǎng)比拼誰(shuí)更接近標(biāo)準(zhǔn)答案的戰(zhàn)爭(zhēng)。

圖源：Unsplash

大模型本身也是一個(gè)精妙的系統(tǒng)，它不會(huì)只有一個(gè)答案，甚至無(wú)法只有一個(gè)答案。一個(gè)例證就是，ChatGPT的真正復(fù)現(xiàn)到今天依舊無(wú)人實(shí)現(xiàn)。一方面，是技術(shù)本身越來(lái)越閉源，另一方面，真正實(shí)現(xiàn)性能突破的許多關(guān)鍵環(huán)節(jié)，有時(shí)真的是一種藝術(shù)性的存在，或者更直白的說(shuō)，是碰運(yùn)氣的過(guò)程，因此沒(méi)有答案可抄。

比如，根據(jù)GPT3的論文，這個(gè)模型的大小和數(shù)據(jù)量，是根據(jù)OpenAI自己的擴(kuò)展規(guī)律決定，因此對(duì)于另外一個(gè)模型，哪怕是同樣的算力條件，模型和數(shù)據(jù)的配比也可以有不同的思路，GPT3最終的配方是1750億參數(shù)和2500億token的數(shù)據(jù)，而另一個(gè)知名的類似模型，DeepMind 旗下的Chinchilla，則是1100億參數(shù)和5000億token，但后者在一些性能上也與GPT3不相上下。也就是，任何一種“配方”都很難直接使用，它很大程度取決于基礎(chǔ)模型的特點(diǎn)，很多時(shí)候在那些模型的論文里簡(jiǎn)單的一句結(jié)論，背后就是巨大的試錯(cuò)成本。

這是挑戰(zhàn)，但也是機(jī)遇所在：能最極致的做好“軟硬件結(jié)合”的模型和平臺(tái)，就有機(jī)會(huì)用最適合自己的配方更進(jìn)一步。

最典型的當(dāng)屬英偉達(dá)。當(dāng)幾乎所有的模型訓(xùn)練都需要在它的硬件上完成，最能發(fā)揮硬件性能的軟件框架自然也最可能由英偉達(dá)制造。英偉達(dá)發(fā)布的NeMo Megatron 就曾宣稱僅用 11 天就完成了 GPT-3 的訓(xùn)練，還和微軟合作，在 6 周內(nèi)完成了 Megatron 的一個(gè)5300 億參數(shù)模型的訓(xùn)練。

同樣的，阿里云的計(jì)算硬件，軟件平臺(tái)和大模型的全方位系統(tǒng)優(yōu)化，也帶來(lái)效率的提升。通義-M6已經(jīng)實(shí)現(xiàn)使用512 位GPU在10天內(nèi)訓(xùn)練出具有可用水平的10萬(wàn)億模型的能力，相比GPT-3，同等參數(shù)規(guī)模能耗僅為其1%，此外達(dá)摩院研發(fā)的超大模型落地關(guān)鍵技術(shù)S4框架（Sound、Sparse、Scarce、Scale）也提供了“濃縮”能力，讓百億參數(shù)大模型在高壓縮率下仍能高精度完成多個(gè)任務(wù)，使“通義”系列模型已在服務(wù)的200多個(gè)場(chǎng)景中實(shí)現(xiàn)了2%-10%的應(yīng)用效果提升。

也就是說(shuō)，這場(chǎng)全面競(jìng)爭(zhēng)里最需要的是一個(gè)自己的方案，一個(gè)能自主掌控更多環(huán)節(jié)從而實(shí)現(xiàn)全局調(diào)優(yōu)的自己的方案。這樣的能力更重要的意義在于，它們將不只是用于跟隨——面對(duì)一場(chǎng)全面的技術(shù)浪潮，人們往往習(xí)慣在短期過(guò)于興奮與高估，激動(dòng)的把開(kāi)局理解為終結(jié)，但事實(shí)上技術(shù)浪潮會(huì)是長(zhǎng)期的。這也是每一場(chǎng)全面戰(zhàn)爭(zhēng)里都會(huì)發(fā)生的事情。而擁有自己的復(fù)雜系統(tǒng)掌控能力和基于此的技術(shù)理解能力，會(huì)在長(zhǎng)期的競(jìng)爭(zhēng)里提供一定的技術(shù)定力。

對(duì)于當(dāng)前的ChatGPT來(lái)說(shuō)，它其實(shí)有著鮮明的開(kāi)局感：它基本上還是一個(gè)語(yǔ)言模型，而AI研究者這些年已經(jīng)開(kāi)始奮力追逐多模態(tài)模型——過(guò)往人工智能模型有些八仙過(guò)海的意味，架構(gòu)眾多，但2017年之后，Transformer的出現(xiàn)改變了這種趨勢(shì)，這之后算法架構(gòu)從包括ChatGPT的NLP到視覺(jué)都迅速統(tǒng)一到以Transformer為底層架構(gòu)的路線，于是不同模態(tài)的模型更有了統(tǒng)一的可能。因此，某種意義上，ChatGPT可能只是未來(lái)真正“恐怖”的多模態(tài)大模型的第一個(gè)明確了的組成部分。

這樣的一場(chǎng)全面戰(zhàn)爭(zhēng)剛剛開(kāi)始。曾經(jīng)因?yàn)橄嘈潘钥匆?jiàn)而衍生出來(lái)的技術(shù)路線，讓一些中國(guó)互聯(lián)網(wǎng)公司在技術(shù)浪潮來(lái)臨前握住了那最初的浪花，而今天ChatGPT預(yù)示了大浪終將到來(lái)，對(duì)于那些用了多年建立起來(lái)自己的技術(shù)完備能力的中國(guó)互聯(lián)網(wǎng)巨頭來(lái)說(shuō)，終于到了因?yàn)榭匆?jiàn)所以相信的時(shí)刻。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

ChatGPT的戰(zhàn)爭(zhēng)不會(huì)濃縮于一個(gè)晚上

相關(guān)推薦

技術(shù)專區(qū)