大模型亂斗，AI芯片狂歡

發(fā)布人：芯東西時間：2023-07-09 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

上海近年已有30多款A(yù)I芯片點亮。

作者 | ZeR0
編輯 | 漠影
大模型正吞噬一切，算力尤甚。芯東西7月7日上海報道，在正在舉辦的第六屆世界人工智能大會（WAIC）上，瀚博半導(dǎo)體、昆侖芯科技、天數(shù)智芯、Graphcore、燧原科技、登臨科技、愛芯元智、沐曦、海飛科、墨芯人工智能、知存科技、后摩智能、珠海芯動力、復(fù)旦微電、憶芯科技、富瀚微、西安紫光國芯等芯片企業(yè)參展。多數(shù)均為AI芯片創(chuàng)企。如今AI算力資源緊張已經(jīng)不是什么秘密，隨著相關(guān)算力基礎(chǔ)設(shè)施建設(shè)進(jìn)程提速，AI芯片創(chuàng)企的受關(guān)注度正水漲船高。這在此次展會上可見一斑，幾乎每家AI芯片展臺都人潮洶涌。從展品可以看到，大多數(shù)參展的芯片企業(yè)都在積極適應(yīng)大模型熱潮帶來的市場需求變化，不僅展出更具針對性的硬件產(chǎn)品，還展示了更加廣泛的行業(yè)應(yīng)用Demo，多數(shù)展位都有AI大模型或AIGC（AI內(nèi)容生成）應(yīng)用的演示專區(qū)。

▲瀚博半導(dǎo)體AI大模型演示展臺

當(dāng)然，這一風(fēng)向并不令人意外。連權(quán)威AI基準(zhǔn)測試MLPerf最近都新增了大語言模型和推薦算法兩項新的基準(zhǔn)測試，足見跑AI大模型的速度已被視作衡量芯片性能的重要指標(biāo)。得益于此，今年AI芯片展區(qū)明顯要比往年更加熱鬧。隨著更多國內(nèi)AI芯片成功流片與量產(chǎn)，AI芯片企業(yè)們比拼的賽點，已經(jīng)從單純的性能指標(biāo)轉(zhuǎn)向進(jìn)入真實應(yīng)用場景落地的較量。
01.拼榮譽：兩款A(yù)I芯片關(guān)聯(lián)產(chǎn)品獲得世界人工智能大會最高獎

從獲獎情況來看，燧原科技面向AIGC模型訓(xùn)練的液冷集群、Graphcore IPU產(chǎn)品C600、昆侖芯模型端到端解決方案產(chǎn)品、海飛科Compass C10通用GPU加速卡-高性價比AIGC部署、高通第二代驍龍8移動平臺的AI引擎，這5個由芯片企業(yè)參評的項目都入圍了今年世界人工智能大會2023 SAIL獎TOP30榜單。SAIL是世界人工智能大會評選的最高獎項，設(shè)置有SAIL大獎以及SAIL之星，并形成年度榜單，今年首次設(shè)置200萬元獎金池。最終大獎的結(jié)果在昨天開幕式上揭曉。高通第二代驍龍8移動平臺的AI引擎獲得2023 SAIL獎，憑借行業(yè)內(nèi)率先支持終端側(cè)生成式AI用例、協(xié)同云端一起打造適應(yīng)大模型時代的混合AI架構(gòu)等戰(zhàn)績，拿大獎實屬當(dāng)之無愧。

▲高通獲頒SAIL獎

超10億參數(shù)Stable Diffusion模型能夠在搭載第二代驍龍8移動平臺的安卓手機上運行，實現(xiàn)15秒內(nèi)20步推理。燧原科技面向AIGC模型訓(xùn)練的液冷集群云燧智算集群摘得了“SAIL之星”獎。該集群采用的燧原科技邃思芯片曾獲2022年吳文俊人工智能專項獎芯片項目一等獎。

▲燧原科技的一系列里程碑式產(chǎn)品

云燧智算集群產(chǎn)品已在國家級重點實驗室之江落地千卡規(guī)模訓(xùn)練集群，提供超過100P的先進(jìn)AI算力，能高效支撐融媒體、文本生成PPT、跨模態(tài)圖像生成等AIGC應(yīng)用以及多種AI4S科學(xué)計算應(yīng)用的開發(fā)和前沿探索。
02.拼資歷：昆侖芯十年磨一劍國內(nèi)首批通用GPU芯片走向增收

展出一系列硬件產(chǎn)品實物已經(jīng)是各家芯片展臺的標(biāo)配，多數(shù)企業(yè)都是“全家?！鄙详?，把主打產(chǎn)品全部擺出來供觀眾參觀了解。從資歷來看，昆侖芯科技雖然2021年才從百度集團(tuán)獨立出來，但若論團(tuán)隊的“年紀(jì)”，當(dāng)屬國內(nèi)AI芯片產(chǎn)業(yè)界的老大哥。自2011年起，昆侖芯團(tuán)隊便基于真實AI場景需求研究AI計算加速，2017年正式提出自研XPU架構(gòu)，并基于該架構(gòu)打造兩代云端AI芯片，相繼推出多款A(yù)I加速卡及AI加速器組產(chǎn)品。

▲昆侖芯歷代AI芯片及AI加速卡

在此次WAIC上，針對不同參數(shù)級別的昆侖芯第二代系列產(chǎn)品矩陣首次亮相，包括3款昆侖芯AI加速卡R100、RG800、R200-8F。其大模型端到端解決方案更是繼正式發(fā)布后首次參展，該方案在能源行業(yè)、文心一格、智源研究院等多個場景均有應(yīng)用落地。其中，R200-8F面向百億以下參數(shù)量級，性能可達(dá)到主流GPU 1.2倍且價格更有優(yōu)勢；R480-X8加速器組針對百億到千億參數(shù)量級，大內(nèi)存和芯片互聯(lián)的技術(shù)使其性能達(dá)到同類型GPU的1.3+倍；千億參數(shù)，可采用昆侖芯R480-X8集群，實現(xiàn)多機多卡分布式推理。天數(shù)智芯自稱是國內(nèi)首家真正量產(chǎn)的通用GPU企業(yè)，從2018年開始設(shè)計通用GPU天垓100至今，已有兩款產(chǎn)品成功進(jìn)入量產(chǎn)階段。據(jù)悉，截至2022年底，天數(shù)智芯累計訂單接近6億元，去年全年收入大約2.5億元。

▲天數(shù)智芯通用GPU產(chǎn)品展臺

另一家國內(nèi)通用GPU領(lǐng)軍企業(yè)登臨科技自認(rèn)是國內(nèi)首家完全憑借自主創(chuàng)新，實現(xiàn)規(guī)模化商業(yè)落地的通用GPU企業(yè)，通過GPU+架構(gòu)創(chuàng)新，解決了通用性和高效率的雙重難題。經(jīng)過大量客戶產(chǎn)品化驗證，針對AI計算，GPU+比現(xiàn)有主流GPU在性能及能效上有顯著提升。首款基于登臨GPU+的AI加速器Goldwasser（高凜）2021年量產(chǎn)投入市場，2022年銷售過萬片，應(yīng)用場景覆蓋互聯(lián)網(wǎng)、智慧城市、電力、能源、金融等領(lǐng)域。高凜二代產(chǎn)品在2022年流片, 在2023年實現(xiàn)量產(chǎn)。根據(jù)現(xiàn)有客戶測試結(jié)果，二代產(chǎn)品針對基于Transformer類型的模型提供3-5倍的性能提升，能夠大幅降低類ChatGPT及生成式AI應(yīng)用的硬件成本。今日上午，登臨科技還宣布了一個好消息：獲得中國互聯(lián)****資基金獨家投資。

▲登臨科技Goldwasser（高凜）六大亮點

03.拼硬件：先進(jìn)制程扎堆解鎖千億大模型部署

在WAIC展會上，我們看到很多芯片展品都用上7nm及更先進(jìn)的制程工藝。瀚博半導(dǎo)體全功能GPU芯片SG100、天數(shù)智芯通用GPU推理產(chǎn)品智愷100、昆侖芯科技的2代AI芯片、Graphcore Bow IPU處理器等均采用7nm工藝。此次沒有參展WAIC的壁仞科技首款通用GPU芯片BR100同樣采用7nm工藝。兩家GPU創(chuàng)企瀚博半導(dǎo)體、珠海芯動力均在WAIC期間發(fā)布芯片新品。其中，瀚博半導(dǎo)體發(fā)布其全功能GPU SG100芯片，并推出了6款新品，包括分別針對云游戲、云桌面、工作站提供算力支持的南禺系列GPU加速卡VG1600、VG1800、VG14，以及大型語言模型AI加速卡VA1L、AIGC大模型一體機、VA12高性能生成式AI加速卡。

▲瀚博SG100芯片簡介

VA1L具備200TOPS INT8/72TFLOPS FP16算力，并支持ChatGPT、LLaMA、Stable Diffusion等主流AIGC模型。其AIGC大模型一體機共使用8張VA1L加速卡，支持512GB顯存，進(jìn)而支持1750億參數(shù)的大模型。VA12作為250W板卡，是VA1和VA10的升級版，有512TOPS INT8/160TFLOPS FP16算力，能夠更高效地支持文生圖模型Stable Diffusion。珠海芯動力發(fā)布首款基于可重構(gòu)架構(gòu)的GPGPU芯片RPP-R8。該公司在2017年成功研發(fā)出可重構(gòu)并行處理器（RPP）架構(gòu)，能夠?qū)I推理的性能進(jìn)行深度優(yōu)化。以RPP架構(gòu)為基礎(chǔ)、面向邊緣市場設(shè)計的第一代芯片RPP-R8已經(jīng)一次性流片成功，芯動力成為GPGPU領(lǐng)域的新成員。

▲芯動力“六邊形戰(zhàn)士”處理器RPP

據(jù)悉，RPP-R8芯片是一款通用型GP-GPU芯片，每顆芯片內(nèi)含有1024個計算核，相比傳統(tǒng)GPU架構(gòu)在同樣的算力占用更小的芯片面積，實現(xiàn)了低功耗和高能效的有效平衡。RPP-R8除了具備專用芯片所沒有的通用編程性，面積效率比可達(dá)到同類產(chǎn)品的7～10倍，能效比也超過3倍，可滿足高效并行計算及AI計算應(yīng)用。

▲珠海芯動力RPP-R8芯片

其它參展芯片中，天數(shù)智芯2018年設(shè)計的天垓100加速卡目前已經(jīng)跑通清華ChatGLM、LLaMA、智源研究院Aquila等大模型。今年6月，天數(shù)智芯宣布天垓100率先完成百億級參數(shù)大模型訓(xùn)練。昆侖芯2代AI芯片是國內(nèi)首款采用GDDR6顯存的通用AI芯片，已經(jīng)在金融、工業(yè)、交通、教育等領(lǐng)域廣泛部署。昆侖芯在軟件層面提供了豐富的云原生插件，幫助用戶快速完成和大模型平臺的適配。其產(chǎn)品矩陣適配文心一言、ChatGLM、GPT、OPT等主流行業(yè)大模型，并提供豐富的軟件SDK，幫助用戶快速完成適配和實時自定義的開發(fā)。海飛科稱其第一代通用GPU芯片Compass C10是業(yè)界首個顯存高達(dá)128GB的GPU芯片，達(dá)到了算力和存儲容量的優(yōu)化平衡，實現(xiàn)單卡、多卡分布式部署千億大模型。海飛科展臺演示有在其產(chǎn)品上跑Stable Diffusion、ChatGLM OPT等模型。

▲海飛科Compass C10計算卡

沐曦展示了其AI推理GPU曦思系列、通用計算GPU曦云系列、圖形處理GPU曦彩系列芯片。其中，曦思N100是沐曦面向人工智能推理場景推出的一款高效能GPU產(chǎn)品，單卡算力達(dá)160TOPS (INT8)和80TFLOPS (FP16)，已實現(xiàn)規(guī)模量產(chǎn)，并與多家重點客戶及合作伙伴共同打造應(yīng)用解決方案和生態(tài)聯(lián)盟。

▲曦思MXN100芯片

曦云C500是沐曦面向AI訓(xùn)練及通用計算的旗艦產(chǎn)品，提供強大高精度及多精度混合算力，配備大規(guī)格高帶寬顯存，片間互聯(lián)MetaXLink無縫鏈接多GPU系統(tǒng)，能滿足大模型推理和訓(xùn)練需求。曦云MXC500芯片已于2023年6月13日完成基礎(chǔ)測試，預(yù)計將于今年年底實現(xiàn)量產(chǎn)。

▲曦云MXC500芯片

墨芯Antoum芯片是全球唯一擁有高稀疏率的AI芯片，采用12nm制程。憑借軟硬協(xié)同的稀疏計算技術(shù)，搭載Antoum芯片的墨芯AI計算卡在權(quán)威AI基準(zhǔn)測試MLPerf今年4月公布的結(jié)果中取得ResNet-50單卡、多卡的性能第一。墨芯AI計算平臺可支持BLOOM、OPT、GPT-J、LLaMA、Stable Diffusion等主流大模型。

▲墨芯AI計算平臺

英國AI芯片獨角獸Graphcore（擬未）展出了入圍SAIL獎TOP30榜單的云端高端推訓(xùn)一體加速卡C600，以及世界首款3D Wafer-on-Wafer處理器Bow IPU和基于4個Bow IPU構(gòu)建的Bow-2000。Bow-2000可提供高達(dá)1.4PFLOPS的AI計算能力，并實現(xiàn)顯著的電源效率提升。其C600 IPU處理器PCIe卡在此基礎(chǔ)上增加了用于低精度和混合精度AI的FP8，主打推理，兼做訓(xùn)練，在搜索和推薦等業(yè)務(wù)上更具優(yōu)勢。Graphcore在支持大模型方面一直很積極，目前已部署在其IPU上的包括ChatGLM-6B、GPT2-XL、GPT-J、Stable Diffusion、Dolly 2.0等。Graphcore現(xiàn)場演示了在其IPU上運行中英雙語模型ChatGLM-6B和開源文生圖模型Stable Diffusion。

▲ChatGLM-6B模型在IPU上運行秒出多行回復(fù)

算能展出了第四代邊云大算力AI芯片算豐BM1684X，以及首款基于RISC-V指令集架構(gòu)的64核服務(wù)器CPU芯片算豐SG2042。每臺基于SG2042的服務(wù)器會配置1張萬兆光纖網(wǎng)卡，并根據(jù)硬盤配置選配RAID卡，使整個系統(tǒng)的操作起來與x86系統(tǒng)一樣方便。

▲算豐RISC-V SG2042服務(wù)器簡介

聚焦于計算+感知應(yīng)用的愛芯元智，在WAIC上重點展示了第三代高算力、高能效比SoC芯片AX650N和M55、M76系列智能駕駛芯片。AX650N現(xiàn)已適配ViT/DeiT、Swin/SwinV2、DETR等Transformer模型，在DINOv2達(dá)到30幀以上的運行結(jié)果。Transformer網(wǎng)絡(luò)SwinT在AX650N平臺上實現(xiàn)了361FPS的高性能、80.45%的高精度、199FPS/W的低功耗以及原版模型且PTQ量化的極易部署能力。

▲愛芯元智邊、端側(cè)Transformer大模型展臺

04.拼落地：滿場大模型運行Demo大曬應(yīng)用案例與生態(tài)朋友圈

除了一如既往地展示芯片、加速卡、系統(tǒng)集群和軟硬件解決方案外，瀚博半導(dǎo)體、天數(shù)智芯、燧原科技、登臨科技、算能、海飛科等AI芯片創(chuàng)企均現(xiàn)場展出了用自家產(chǎn)品運行大語言模型、AI繪畫、文生PPT等AIGC交互演示。天數(shù)智芯智愷100支持各類算法模型和大語言模型，能夠支持AIGC內(nèi)容生成類大模型推理；燧原科技的云端訓(xùn)練芯片邃思2.0能廣泛支持大模型訓(xùn)練。云天勵飛展出的兩款Edge10大算力芯片均可高效支持大模型運算。

▲天數(shù)智芯大模型能力

燧原科技7月5日剛推出的新品燧原曜圖（Enflame LumiCanvas）文生圖MaaS平臺服務(wù)產(chǎn)品在展會現(xiàn)場受到很多關(guān)注。這是燧原繼3月宣布升級企業(yè)戰(zhàn)略“以全棧軟硬件和集群產(chǎn)品為數(shù)字底座，結(jié)合MaaS的業(yè)務(wù)模式，全面打造AIGC時代的基礎(chǔ)設(shè)施”后的首款新品。這也是燧原在AIGC戰(zhàn)略布局的第一步，后續(xù)燧原還將繼續(xù)推出其它MaaS服務(wù)。

▲燧原曜圖文生圖MaaS平臺服務(wù)產(chǎn)品

燧原曜圖以燧原科技邃思系列芯片為算力支撐，由首都在線提供計算服務(wù)，集成了圖像預(yù)處理、姿態(tài)建模、外部模型一鍵導(dǎo)入等能力，能夠大批量生成圖像，通過軟硬一體方案降低大規(guī)模AIGC應(yīng)用的工程難度與算力成本。這個企業(yè)級文生圖應(yīng)用支持以Excel形式批量導(dǎo)入prompt，單次最高可支持千條prompt導(dǎo)入，并針對視覺創(chuàng)作領(lǐng)域?qū)I(yè)術(shù)語海量且繁復(fù)的問題，為用戶提供prompt詞典、大師經(jīng)典作品prompt模板沉淀、逆向prompt等在內(nèi)的全面Prompt工具體系。除了燧原曜圖外，燧原還展出了有多個可交互設(shè)施的AIGC交互演示體驗區(qū)，包括ChatBCG（文生PPT）、LLaMA（聊天機器人）、由清華ChatGLM和Stable Diffusion組成的能回復(fù)文字和圖片的ChatBot（聊天機器人）等。

▲燧原AIGC交互演示展區(qū)

墨芯人工智能在WAIC期間發(fā)布了大模型算力方案的最新成果，展示1760億參數(shù)的大語言模型BLOOM在墨芯AI計算平臺的推理引擎支持下，能夠快速、流暢地回答各類問題，并完成詩歌創(chuàng)作、文案撰寫等多項語言生成任務(wù)。在1300億參數(shù)ChatGLM大模型上，8張墨芯S30計算卡吞吐達(dá)432token/s，性能超過主流GPU。天數(shù)智芯亦展出了豐富的應(yīng)用演示，包括大模型微調(diào)、大模型推理、代碼生成、AI繪畫、內(nèi)容審查、虛擬數(shù)字人、隱私計算、風(fēng)電場巡檢、智慧語義、人臉比對、智算中心、3D建模、科學(xué)計算、智能OCR、目標(biāo)檢測/缺陷檢測、智慧零售等，充分展示了其GPU產(chǎn)品的通用性。

▲天數(shù)智芯合作伙伴

登臨科技設(shè)置了大模型、創(chuàng)新應(yīng)用、AIDC、創(chuàng)新硬件四大主題展區(qū)，和合作伙伴一起展出了數(shù)十種產(chǎn)品方案，包括大模型、步態(tài)識別、數(shù)字孿生、無人機、智慧金融、智慧電力、智慧能源、智慧園區(qū)、車路協(xié)同、智慧社區(qū)、智慧交通等，并展示了其生態(tài)朋友圈。

▲登臨瀚海生態(tài)合作伙伴

燧原科技也曬出了生態(tài)合作伙伴。

▲燧原科技生態(tài)合作伙伴

雖然昆侖芯并未在展臺設(shè)置關(guān)于AIGC應(yīng)用的互動演示，但百度文心大模型早已是昆侖芯的金字招牌。值得一提的是，百度并沒有因為昆侖芯是自家孩子而排斥其他AI芯片企業(yè)。百度展臺上有一張標(biāo)注飛槳在WAIC上的硬件伙伴們展位的地圖，愛芯元智、登臨科技、沐曦、昆侖芯、海飛科、墨芯人工智能、算能、燧原科技、瀚博半導(dǎo)體、天數(shù)智芯、Graphcore均在其中。

▲百度飛槳和硬件伙伴在WAIC

05.結(jié)語：上海近年已有30多款A(yù)I芯片點亮

除了上述已宣布支持大模型加速的AI芯片創(chuàng)企外，知存科技、后摩智能、復(fù)旦微電、富瀚微、西安紫光國芯等芯片企業(yè)也參展WAIC。其中，知存科技和后摩智能是存算一體AI芯片的玩家代表。知存科技展出的WTM2101芯片于去年成功量產(chǎn)并商用，AI算力相較NPU、DSP、MCU計算平臺提高了10-200倍，功耗僅在5uA到3mA之間。后摩智能則聚焦于智能駕駛，展出了首款存算一體智駕芯片后摩鴻途H30芯片及相關(guān)產(chǎn)品。基于后摩鴻途H30已成功運行常用的經(jīng)典計算機視覺網(wǎng)絡(luò)和多種自動駕駛先進(jìn)網(wǎng)絡(luò)，包括當(dāng)前業(yè)內(nèi)最受關(guān)注的BEV網(wǎng)絡(luò)模型及廣泛應(yīng)用于高階輔助駕駛領(lǐng)域的PointPillar網(wǎng)絡(luò)模型。

▲后摩鴻途H30芯片

國內(nèi)FPGA龍頭復(fù)旦微電重點展示了基于自研FPAI（可重構(gòu)人工智能）芯片的一站式AI解決方案。憶芯科技展出了企業(yè)級SSD芯片等多種解決方案。西安紫光國芯則展出了世界領(lǐng)先的嵌入式DRAM（SeDRAM）、高帶寬高性能板卡解決方案HBX-G500等科技創(chuàng)新成果。目前，上海集聚了全國最多的智能芯片創(chuàng)新企業(yè)，近年已有30多款A(yù)I訓(xùn)練芯片、AI推理芯片、車載芯片點亮，這些積累為通用大模型發(fā)展和落地普及打下了算力基礎(chǔ)。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

大模型亂斗，AI芯片狂歡

相關(guān)推薦

技術(shù)專區(qū)