兩月市值飆漲萬億,ChatGPT背后最大贏家竟是它
編輯 | 漠影
當(dāng)一群嗜血的互聯(lián)****資客、互聯(lián)網(wǎng)大鱷開始爭搶類ChatGPT應(yīng)用的入場(chǎng)券時(shí),芯片玩家已悄然穩(wěn)坐ChatGPT的牌桌。AI訓(xùn)練芯片“一哥”英偉達(dá)被視作云計(jì)算資本支出重心轉(zhuǎn)向人工智能(AI)的最大受益者,韓國政府也在ChatGPT熱潮中加大AI芯片扶持力度。今年1月3日至今,英偉達(dá)股價(jià)已上漲49%,市值從3522億美元增至5261億美元(折合增長了約1.19萬億人民幣);據(jù)彭博億萬富翁指數(shù),英偉達(dá)CEO黃仁勛的財(cái)富同期增長了60億美元。如此“躺賺”,難怪黃仁勛談到ChatGPT時(shí)滿面笑容,直夸其意義堪比“iPhone時(shí)刻”。
智東西
,贊5782
01.訓(xùn)練ChatGPT聊聊天算力需求有多大?
▲GPT-3、Gopher、MT-NLG、PaLM等大型語言模型的預(yù)估訓(xùn)練成本(來源:國盛證券)
據(jù)大算力AI芯片-存算一體專家陳巍測(cè)算,標(biāo)準(zhǔn)大小的ChatGPT-175B大概需要625臺(tái)8卡DGX A100服務(wù)器進(jìn)行訓(xùn)練,如果愿意等它跑1個(gè)月,200臺(tái)8卡也夠用。針對(duì)ChatGPT-175B的服務(wù)器成本(主要考慮GPU和CPU)約為3~5億元。相對(duì)來說模型迭代成本沒那么高。越往后迭代,大模型的訓(xùn)練成本可能會(huì)顯著下降。自2020年5月GPT-3發(fā)布以來,與GPT-3性能相當(dāng)?shù)哪P?,?xùn)練和推理成本已經(jīng)降低了超過80%。▲2020年對(duì)于具有對(duì)等性能的模型,與GPT-3相比,推理和訓(xùn)練成本降低的概覽(圖源:Sunyan)
而ChatGPT上線后的日常運(yùn)營,又是一筆昂貴的算力開銷。OpenAI CEO阿爾特曼曾在推特上回復(fù)馬斯克的留言,說ChatGPT平均一次聊天成本是幾美分。摩根士丹利分析稱ChatGPT的一次回復(fù)可能會(huì)花掉OpenAI 2美分,大約是谷歌搜索查詢平均成本的7倍。尤其考慮到ChatGPT面向全球大眾用戶,用的人越多,帶寬消耗越大,服務(wù)器成本會(huì)更高。每天至少要燒掉10萬美元。今年1月,ChatGPT累計(jì)用戶數(shù)沖破1億大關(guān),訪問量達(dá)6.72億次。根據(jù)Similarweb數(shù)據(jù),1月27日到2月3日,ChatGPT每日訪客數(shù)達(dá)2500萬。國盛證券估算,假設(shè)以這樣的穩(wěn)定狀態(tài),且忽略集群配置的請(qǐng)求量冗余和服務(wù)質(zhì)量冗余,那么,ChatGPT需要至少30382片英偉達(dá)A100 GPU芯片同時(shí)計(jì)算,才能支撐當(dāng)前ChatGPT的訪問量;對(duì)應(yīng)初始投入成本約為7.59億美元(折合約52億人民幣);每日電費(fèi)約為4.7萬美元。另據(jù)招商通信測(cè)算,ChatGPT在模型上線運(yùn)營階段,每億活躍用戶將帶來13.5EFLOPS的算力需求,需要6.9萬臺(tái)DGX A100 80G服務(wù)器支撐。按每個(gè)用戶每天收到1500字回答計(jì)算,以2021年全球超算算力的總規(guī)模14EFLOPS,僅能支撐ChatGPT最多擁有1億日均上線人數(shù)。微軟、谷歌、百度等搜索巨頭都計(jì)劃將ChatGPT同類技術(shù)整合到它們的搜索引擎中。據(jù)SemiAnalysis估算,將這類技術(shù)集成到谷歌的每個(gè)搜索查詢中,需要超過51萬臺(tái)A100 HGX服務(wù)器和總共超過410萬個(gè)A100 GPU,服務(wù)器和網(wǎng)絡(luò)總成本的資本支出將達(dá)到1000億美元。這些支出的相當(dāng)一部分,將流入英偉達(dá)的口袋。▲中信證券認(rèn)為短期內(nèi)單個(gè)大模型可帶來超過2萬個(gè)A100的銷售增量,對(duì)應(yīng)市場(chǎng)規(guī)模超過2.13億美元(圖源:中信證券)
02.英偉達(dá)****不賠大算力AI芯片被帶飛
▲近年大模型的參數(shù)規(guī)模增長趨勢(shì)(圖源:Xavier Amatriain)
提高峰值吞吐量方面,英偉達(dá)一馬當(dāng)先。2018年,英偉達(dá)CEO黃仁勛曾提出“黃氏定律”,稱GPU的增速是五年前的25倍。自2016年首次在V100 GPU中用上張量核心至今,英偉達(dá)通過各種創(chuàng)新設(shè)計(jì)不斷抬高單芯片算力的天花板。作為全球AI計(jì)算頭部企業(yè),英偉達(dá)坐擁高度粘性的開發(fā)者生態(tài),同時(shí)始終保持著敏銳的前瞻性布局,例如在H100 GPU使用Transformer引擎來顯著提升大模型訓(xùn)練的速度,通過在GPU、CPU、DPU、AI、互連、網(wǎng)絡(luò)等多方面的投資布局持續(xù)拉大在數(shù)據(jù)中心的競(jìng)爭優(yōu)勢(shì)。據(jù)浙商證券分析,采購一片英偉達(dá)頂級(jí)GPU成本為8萬元,支撐ChatGPT的算力基礎(chǔ)設(shè)施至少需上萬顆英偉達(dá)A100,高端芯片需求的快速增加會(huì)進(jìn)一步拉高芯片均價(jià)。 同時(shí),數(shù)據(jù)中心日益需要更加高性價(jià)比、高能效的AI芯片。據(jù)Sunyan估算,今天,用于訓(xùn)練大模型的數(shù)據(jù)中心GPU,代際每美元吞吐量提高了50%,代際每瓦特吞吐量提高了80%。▲英偉達(dá)數(shù)據(jù)中心GPU FP16/FP32吞吐量/美元(圖源:Sunyan)
▲英偉達(dá)數(shù)據(jù)中心GPU FP16/FP32吞吐量/瓦特(圖源:Sunyan)
持續(xù)的芯片設(shè)計(jì)創(chuàng)新正推動(dòng)了硬件成本和能效進(jìn)一步優(yōu)化。從基于訓(xùn)練GPT-3的V100到即將上市的H100的改進(jìn),預(yù)計(jì)可將內(nèi)部訓(xùn)練成本從74.4萬美元降至31.2萬美元,降幅達(dá)到58%。▲今天使用英偉達(dá)H100 GPU訓(xùn)練GPT-3的成本(圖源:Sunyan)
再來看看ChatGPT對(duì)于是否會(huì)使用來自英偉達(dá)以外供應(yīng)商的AI芯片的回復(fù):我們也問了ChatGPT關(guān)于其推理用到了哪些計(jì)算基礎(chǔ)設(shè)施,這是ChatGPT給出的回答:到目前為止,AI推理市場(chǎng)還是以CPU為主。但生成式AI模型的計(jì)算量對(duì)于CPU來說可能太大,需要GPU等加速計(jì)算芯片加以分擔(dān)。總體來看,模型訓(xùn)練和終端用戶流量飆增正拉動(dòng)大算力需求,GPU、ASIC、DSA、FPGA、光子計(jì)算芯片、神經(jīng)擬態(tài)芯片等各類加速計(jì)算芯片與通用芯片CPU的組合迎來更大的市場(chǎng)。不止是海外芯片巨頭,國內(nèi)AI芯片企業(yè)也感受到了ChatGPT帶來的春意。燧原科技創(chuàng)始人兼COO張亞林認(rèn)為,生成式AI大模型的出現(xiàn),讓國內(nèi)的算力基礎(chǔ)設(shè)施提供商能夠更有針對(duì)性地提供與AI大模型強(qiáng)關(guān)聯(lián)的基礎(chǔ)設(shè)施,這對(duì)于國內(nèi)創(chuàng)業(yè)公司在有限資源下聚焦、持續(xù)產(chǎn)品優(yōu)化迭代提供了幫助。他告訴芯東西,燧原科技最近接到了很多客戶和投資人的垂詢,正全力推動(dòng)產(chǎn)品的加速落地,去年其千卡規(guī)模液冷集群已經(jīng)落地并服務(wù)戰(zhàn)略客戶群,能夠全面支撐國內(nèi)外生成式AI大模型。在他看來,相較于英偉達(dá)等國際大廠,國內(nèi)AI芯片企業(yè)的優(yōu)勢(shì)可能體現(xiàn)在成本、特定市場(chǎng)及場(chǎng)景深度優(yōu)化、本土化服務(wù)和支持等方面。通過與全棧大模型團(tuán)隊(duì)緊密合作,國內(nèi)AI芯片團(tuán)隊(duì)能讓客戶問題的解決和產(chǎn)品迭代的飛輪更加快速。考慮到全功能GPU能更好地兼顧靈活度和應(yīng)用開發(fā),李豐認(rèn)為將來的生態(tài),會(huì)很長一段時(shí)間以GPU為主,輔以其他類型芯片的生態(tài)。03.ChatGPT爆火后這些芯片技術(shù)迎來大風(fēng)口
標(biāo)準(zhǔn)文件鏈接:
https://www.ccita.net/wp-content/uploads/2023/02/TCESA-1248-2023-小芯片接口總線技術(shù)要求.pdf3、片上互連與片間互連單芯片撐不動(dòng)后,大模型需要借助大規(guī)模分布式計(jì)算,將計(jì)算和存儲(chǔ)任務(wù)拆分到更多的芯片中,因此芯片與芯片之間、系統(tǒng)與系統(tǒng)之間的數(shù)據(jù)傳輸效率愈發(fā)成為掣肘硬件利用率的瓶頸。無論是英偉達(dá)、英特爾、AMD等芯片大廠,還是Cerebras、Graphcore、SambaNova等海外AI芯片獨(dú)角獸,都采用并支持分布式計(jì)算模型,并借助更快的內(nèi)部互連技術(shù)將算力擴(kuò)大。當(dāng)傳統(tǒng)基于銅互連的數(shù)據(jù)傳輸顯得捉襟見肘,引入光網(wǎng)絡(luò)的思路,可能有助于大幅提升芯片內(nèi)、芯片間的數(shù)據(jù)傳輸效率。國內(nèi)曦智科技正在做相關(guān)探索工作。(具體可參見《掀起數(shù)據(jù)中心算力新風(fēng)口!大規(guī)模光電集成有多硬核?》)曦智科技創(chuàng)始人兼CEO沈亦晨告訴芯東西,高能效、低延遲的互連技術(shù)已經(jīng)是潛在的技術(shù)壁壘。對(duì)此曦智科技提出使用片上光網(wǎng)絡(luò)(oNOC)代替模塊或板卡間的電互連,提高實(shí)現(xiàn)更高帶寬、更低延遲,從而輔助Chiplet系統(tǒng)提高單芯片的算力和算效,為面向未來AI加速器的多形態(tài)計(jì)算架構(gòu)提供關(guān)鍵的片上互連基礎(chǔ)設(shè)施。4、共封裝光學(xué)(CPO)由于ChatGPT需要大流量的云服務(wù)器支持,能顯著提高通信效率、降低功耗成本的CPO(共封裝光學(xué))概念走紅,相關(guān)概念股近期震蕩走高。▲同花順CPO概念股2月15日漲跌幅情況
CPO通過將硅光模塊和CMOS芯片用高級(jí)封裝的形式耦合在背板PCB上,縮短了交換芯片和光引擎間的距離,為暴漲的算力需求提供了一種小尺寸、高能效、低成本的高速互連解決方案。芯東西曾在《光互連最火概念!中國原生CPO標(biāo)準(zhǔn)草案來了,決勝數(shù)據(jù)中心未來》一文中梳理CPO技術(shù)發(fā)展的關(guān)鍵階段和國內(nèi)進(jìn)展。中國計(jì)算機(jī)互連技術(shù)聯(lián)盟(CCITA)秘書長郝沁汾告訴芯東西,CPO本質(zhì)上是光模塊結(jié)構(gòu)發(fā)生了變化,給國內(nèi)企業(yè)帶來了重構(gòu)光模塊生態(tài)鏈和供應(yīng)鏈的一個(gè)機(jī)會(huì)。當(dāng)前《微電子芯片光互連接口技術(shù)》標(biāo)準(zhǔn)正在過工信部的技術(shù)審定會(huì),這是國內(nèi)唯一原生的CPO標(biāo)準(zhǔn),也是世界三大CPO之一,后續(xù)中國計(jì)算機(jī)互連技術(shù)聯(lián)盟將聯(lián)合相關(guān)企業(yè)圍繞該標(biāo)準(zhǔn)推進(jìn)聯(lián)合開發(fā)及技術(shù)驗(yàn)證。04.結(jié)語
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。