Cerebras推出全球最強AI超算：5400萬個AI內(nèi)核，算力達4exaFLOPS

發(fā)布人：芯智訊時間：2023-07-23 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

7月21日消息，人工智能（AI）芯片初創(chuàng)公司Cerebras Systems于當(dāng)?shù)貢r間7月20日宣布，其將攜手總部位于阿聯(lián)酋的技術(shù)控股集團G42打造一個由9臺互聯(lián)的超級計算機組成的網(wǎng)絡(luò)，為AI計算提供一種新的方案，有望大幅減少AI大模型訓(xùn)練時間。目前，該網(wǎng)絡(luò)上的第一臺AI超級計算機——“Condor Galaxy 1（CG-1）”開始部署，AI算力高達4 exaFLOPS（每秒4百億億次），這也是目前性能最強的AI超級計算機。

從全球最大的AI芯片，到全球最強AI超級計算機

提起Cerebras公司，相信有很多業(yè)內(nèi)人士都聽過。這是一家成立于2016年的美國AI芯片初創(chuàng)公司。早在2019年，Cerebras就推出了“全球最大”的AI芯片Wafer Scale Engine（以下簡稱“WSE”），引起了業(yè)界的極大關(guān)注。

WSE一個基于一整張12英寸晶圓制造的AI芯片，基于臺積電16nm工藝制造，核心面積超過46225mm2，集成了高達1.2萬億個晶體管，40萬個AI核心、18GB SRAM緩存、9PB/s內(nèi)存帶寬、100Pb/s互連帶寬，功耗也高達15千瓦。Cerebras稱，其AI內(nèi)核是被稱為稀疏線性代數(shù)核(Sparse Linear Algebra Cores, SLAC)，具有靈活性、可編程性，并針對支持所有神經(jīng)網(wǎng)絡(luò)計算的稀疏線性代數(shù)進行了優(yōu)化。SLAC的可編程性保證了內(nèi)核能夠在不斷變化的機器學(xué)習(xí)領(lǐng)域運行所有的神經(jīng)網(wǎng)絡(luò)算法。

隨后在2021年4月，Cerebras 推出了第二代的AI芯片WSE-2。根據(jù)官方公布的數(shù)據(jù)，WSE-2與第一代一樣，依然是基于一整張12吋晶圓制造，面積依然是462.25平方厘米，但是制程工藝由臺積電16nm工藝提升到了7nm工藝，這也使得WSE-2的晶體管數(shù)量提高到了2.6萬億個，同時他的AI內(nèi)核數(shù)量也達到了85萬個，片上內(nèi)存也由原來的18GB提升到了40GB，內(nèi)存帶寬由9PB/s提高到了20PB/s，結(jié)構(gòu)帶寬高達220PB/s。各項指標(biāo)均打破首代WSE 處理器創(chuàng)造的世界紀錄。

而為了推動WSE-2的商用，Cerebras還宣布推出了CS-2 AI超級計算機，其基于單個WSE-2芯片打造，不僅比任何其他AI超算系統(tǒng)使用空間更少、功耗更低、但運算性能更高。甚至可以支持192臺CS-2 AI計算機近乎線性的擴展，從而打造出包含高達1.63億個AI核心的計算集群，可支持超過120萬億參數(shù)的大模型的訓(xùn)練。

要知道目前常見的基于CPU或GPU的AI計算集群，主要是通過片外互聯(lián)的模式將大量的CPU或GPU集群進行互聯(lián)，從而提升AI算力，這需要大量的機架和線纜，并且花費數(shù)月的時間進行安裝和準(zhǔn)備，能耗也將達到數(shù)百千瓦以上。但是，WSE-2在單個芯片上就已經(jīng)集成了更多的AI核心、擁有大的片上內(nèi)存和更低延遲的高帶寬結(jié)構(gòu)，這也使得其在AI加速任務(wù)的處理上更具優(yōu)勢，功耗也更低，在安裝上也更方便和節(jié)省時間，并且CS-2的能耗僅需要15kW。

△CS-2 AI超級計算機

此次，Cerebras攜手G42打造的算力高達4 exaFLOPS的最強AI超級計算機CG-1，正是由64臺CS-2 AI計算機組合而成。

5400萬個AI內(nèi)核，AI算力超4 exaFLOPS

據(jù)介紹，CG-1與任何已知的GPU集群不同，其由64臺CS-2 AI計算機組成，每臺CS-2 AI計算機則是由一個WSE-2芯片所驅(qū)動，這也使得整個CG-1系統(tǒng)當(dāng)中的AI內(nèi)核數(shù)量達到了5400萬個，總的AI算力（FP16）達到了驚人的4 exaFLOPS（400萬萬億FLOPS），總體的片上內(nèi)存容量達到了82TB，各個CS-2系統(tǒng)間的帶寬速率高達388Tbps。同時，CG-1還配備了高達72704個AMD EPYC CPU內(nèi)核。

CG-1針對大型語言模型和生成人工智能進行了優(yōu)化，標(biāo)準(zhǔn)支持多達6000億個參數(shù)模型。CG-1使用簡單的數(shù)據(jù)并行性，就可實現(xiàn)從1到64個CS-2系統(tǒng)的近乎線性的性能擴展。擴展后的配置可支持多達100萬億個參數(shù)模型。要知道今年以來非?；鸨腁I大模型GPT-4為1.8萬億個參數(shù)。

CG-1還為長序列長度的訓(xùn)練提供了原生支持，開箱即用的令牌多達50000個，無需任何特殊的軟件庫。CG-1的編程完全沒有復(fù)雜的分布式編程語言，這意味著即使是最大的模型也可以輕松運行，而無需花費數(shù)周或數(shù)月的時間在數(shù)千個GPU上分配工作。

據(jù)介紹，Cerebras和G42將會把CG-1作為云服務(wù)提供，讓客戶無需在物理系統(tǒng)上管理或分發(fā)模型即可享受AI超級計算機的性能。CG-1旨在使G42及其云客戶能夠快速輕松地訓(xùn)練大型突破性模型，從而加速創(chuàng)新。Cerebras-G42戰(zhàn)略合作伙伴關(guān)系已經(jīng)在阿拉伯語雙語聊天、醫(yī)療保健和氣候研究方面推進了最先進的人工智能模型。

“CG-1在FP16上可以提供4 exaFLOP的人工智能計算，可大大縮短人工智能訓(xùn)練時間，同時消除了分布式計算的痛苦?！?Cerebras Systems首席執(zhí)行官Andrew Feldman表示：“許多云服務(wù)公司已經(jīng)宣布了耗資數(shù)十億美元構(gòu)建的大規(guī)模GPU集群，但這些集群極難使用。將一個模型分布在數(shù)千個微小的GPU上需要數(shù)十名具有罕見專業(yè)知識的人花費數(shù)月時間。CG-1消除了這一挑戰(zhàn)，單個系統(tǒng)耗資1億多美元，只需要幾分鐘就能建立生成人工智能模型，而不是幾個月，而且可以由一個人完成?！?/p>

Andrew Feldman進一步解釋稱，訓(xùn)練AI大型模型需要大量的計算、龐大的數(shù)據(jù)集和專門的人工智能專業(yè)知識。G42和Cerebras之間的合作提供了這三個要素。憑借Condor Galaxy超級計算網(wǎng)絡(luò)，兩家公司正在使人工智能民主化，使人們能夠簡單方便地訪問行業(yè)領(lǐng)先的人工智能計算。G42與醫(yī)療保健、能源和氣候研究領(lǐng)域的不同數(shù)據(jù)集的合作將使系統(tǒng)用戶能夠訓(xùn)練新的尖端基礎(chǔ)模型。這些模型和衍生的應(yīng)用程序是一股強大的向善力量。最后，Cerebras和G42匯集了一支由硬件工程師、數(shù)據(jù)工程師、人工智能科學(xué)家和行業(yè)專家組成的團隊，提供全方位的人工智能服務(wù)，以解決客戶的問題。這一組合將產(chǎn)生突破性的成果，并推動全球數(shù)百個人工智能項目。

G42的子公司G42 Cloud的首席執(zhí)行官Talal Alkaissi也表示：“與Cerebras合作，快速交付世界上最快的人工智能訓(xùn)練超級計算機，并為在世界各地互連這些超級計算機奠定基礎(chǔ)，這是非常令人興奮的。這一合作伙伴關(guān)系匯集了Cerebras非凡的計算能力，以及G42的多行業(yè)人工智能專業(yè)知識。G42和Cerebras的共同愿景是Condor Galaxy將用于應(yīng)對醫(yī)療保健、能源、氣候行動等領(lǐng)域的社會最緊迫挑戰(zhàn)?！?/p>

需要指出的是，位于美國加州圣塔克拉拉州的CG-1的上線，只是打造9臺互聯(lián)的超級計算機組成的計算網(wǎng)絡(luò)的第一部。預(yù)計在2024年上半年，位于美國德州奧斯汀、北卡州Asheville的AI超級電腦（CG-2和CG-3）將正式上線。美國以外地區(qū)的6臺AI超級電腦將于2024年下半年上線。屆時，9臺Condor Galaxy系統(tǒng)的總的AI算力將達到36 exaFLOPS。

Andrew Feldman稱，這一前所未有的超級計算網(wǎng)絡(luò)將徹底改變?nèi)蛉斯ぶ悄艿陌l(fā)展。

據(jù)了解，Cerebras目前估值為41億美元，過去數(shù)年曾獲得OpenAI CEO Sam Altman、Benchmark創(chuàng)投募得7.4億美元。目前，Cerebras、Graphcore、Groq和SambaNova等新創(chuàng)企業(yè)都希望能夠打入NVIDIA所主導(dǎo)的AI加速芯片市場。斯坦福大學(xué)AI電腦科學(xué)家Chris Manning表示，如果無法打造AI模型的研究員習(xí)慣使用與NVIDIA芯片相兼容的軟件，將使得上述新創(chuàng)企業(yè)處于劣勢。

編輯：芯智訊-浪客劍

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。