博客專欄

EEPW首頁 > 博客 > 大模型亂斗,AI芯片狂歡

大模型亂斗,AI芯片狂歡

發(fā)布人:芯東西 時間:2023-07-09 來源:工程師 發(fā)布文章
上海近年已有30多款A(yù)I芯片點亮。

作者 |  ZeR0
編輯 |  漠影
大模型正吞噬一切,算力尤甚。芯東西7月7日上海報道,在正在舉辦的第六屆世界人工智能大會(WAIC)上,瀚博半導(dǎo)體、昆侖芯科技、天數(shù)智芯、Graphcore、燧原科技、登臨科技、愛芯元智、沐曦、海飛科、墨芯人工智能、知存科技、后摩智能、珠海芯動力、復(fù)旦微電、憶芯科技、富瀚微、西安紫光國芯等芯片企業(yè)參展。多數(shù)均為AI芯片創(chuàng)企。如今AI算力資源緊張已經(jīng)不是什么秘密,隨著相關(guān)算力基礎(chǔ)設(shè)施建設(shè)進(jìn)程提速,AI芯片創(chuàng)企的受關(guān)注度正水漲船高。這在此次展會上可見一斑,幾乎每家AI芯片展臺都人潮洶涌。從展品可以看到,大多數(shù)參展的芯片企業(yè)都在積極適應(yīng)大模型熱潮帶來的市場需求變化,不僅展出更具針對性的硬件產(chǎn)品,還展示了更加廣泛的行業(yè)應(yīng)用Demo,多數(shù)展位都有AI大模型或AIGC(AI內(nèi)容生成)應(yīng)用的演示專區(qū)。

圖片

▲瀚博半導(dǎo)體AI大模型演示展臺

當(dāng)然,這一風(fēng)向并不令人意外。連權(quán)威AI基準(zhǔn)測試MLPerf最近都新增了大語言模型和推薦算法兩項新的基準(zhǔn)測試,足見跑AI大模型的速度已被視作衡量芯片性能的重要指標(biāo)。得益于此,今年AI芯片展區(qū)明顯要比往年更加熱鬧。隨著更多國內(nèi)AI芯片成功流片與量產(chǎn),AI芯片企業(yè)們比拼的賽點,已經(jīng)從單純的性能指標(biāo)轉(zhuǎn)向進(jìn)入真實應(yīng)用場景落地的較量。
01.拼榮譽:兩款A(yù)I芯片關(guān)聯(lián)產(chǎn)品獲得世界人工智能大會最高獎


從獲獎情況來看,燧原科技面向AIGC模型訓(xùn)練的液冷集群、Graphcore IPU產(chǎn)品C600、昆侖芯模型端到端解決方案產(chǎn)品、海飛科Compass C10通用GPU加速卡-高性價比AIGC部署、高通第二代驍龍8移動平臺的AI引擎,這5個由芯片企業(yè)參評的項目都入圍了今年世界人工智能大會2023 SAIL獎TOP30榜單。SAIL是世界人工智能大會評選的最高獎項,設(shè)置有SAIL大獎以及SAIL之星,并形成年度榜單,今年首次設(shè)置200萬元獎金池。最終大獎的結(jié)果在昨天開幕式上揭曉。高通第二代驍龍8移動平臺的AI引擎獲得2023 SAIL獎,憑借行業(yè)內(nèi)率先支持終端側(cè)生成式AI用例、協(xié)同云端一起打造適應(yīng)大模型時代的混合AI架構(gòu)等戰(zhàn)績,拿大獎實屬當(dāng)之無愧。


▲高通獲頒SAIL獎

超10億參數(shù)Stable Diffusion模型能夠在搭載第二代驍龍8移動平臺的安卓手機上運行,實現(xiàn)15秒內(nèi)20步推理。燧原科技面向AIGC模型訓(xùn)練的液冷集群云燧智算集群摘得了“SAIL之星”獎。該集群采用的燧原科技邃思芯片曾獲2022年吳文俊人工智能專項獎芯片項目一等獎。

圖片

▲燧原科技的一系列里程碑式產(chǎn)品

云燧智算集群產(chǎn)品已在國家級重點實驗室之江落地千卡規(guī)模訓(xùn)練集群,提供超過100P的先進(jìn)AI算力,能高效支撐融媒體、文本生成PPT、跨模態(tài)圖像生成等AIGC應(yīng)用以及多種AI4S科學(xué)計算應(yīng)用的開發(fā)和前沿探索。
02.拼資歷:昆侖芯十年磨一劍國內(nèi)首批通用GPU芯片走向增收


展出一系列硬件產(chǎn)品實物已經(jīng)是各家芯片展臺的標(biāo)配,多數(shù)企業(yè)都是“全家?!鄙详?,把主打產(chǎn)品全部擺出來供觀眾參觀了解。從資歷來看,昆侖芯科技雖然2021年才從百度集團(tuán)獨立出來,但若論團(tuán)隊的“年紀(jì)”,當(dāng)屬國內(nèi)AI芯片產(chǎn)業(yè)界的老大哥。自2011年起,昆侖芯團(tuán)隊便基于真實AI場景需求研究AI計算加速,2017年正式提出自研XPU架構(gòu),并基于該架構(gòu)打造兩代云端AI芯片,相繼推出多款A(yù)I加速卡及AI加速器組產(chǎn)品。

圖片

▲昆侖芯歷代AI芯片及AI加速卡

在此次WAIC上,針對不同參數(shù)級別的昆侖芯第二代系列產(chǎn)品矩陣首次亮相,包括3款昆侖芯AI加速卡R100、RG800、R200-8F。其大模型端到端解決方案更是繼正式發(fā)布后首次參展,該方案在能源行業(yè)、文心一格、智源研究院等多個場景均有應(yīng)用落地。其中,R200-8F面向百億以下參數(shù)量級,性能可達(dá)到主流GPU 1.2倍且價格更有優(yōu)勢;R480-X8加速器組針對百億到千億參數(shù)量級,大內(nèi)存和芯片互聯(lián)的技術(shù)使其性能達(dá)到同類型GPU的1.3+倍;千億參數(shù),可采用昆侖芯R480-X8集群,實現(xiàn)多機多卡分布式推理。天數(shù)智芯自稱是國內(nèi)首家真正量產(chǎn)的通用GPU企業(yè),從2018年開始設(shè)計通用GPU天垓100至今,已有兩款產(chǎn)品成功進(jìn)入量產(chǎn)階段。據(jù)悉,截至2022年底,天數(shù)智芯累計訂單接近6億元,去年全年收入大約2.5億元。

圖片

▲天數(shù)智芯通用GPU產(chǎn)品展臺

另一家國內(nèi)通用GPU領(lǐng)軍企業(yè)登臨科技自認(rèn)是國內(nèi)首家完全憑借自主創(chuàng)新,實現(xiàn)規(guī)模化商業(yè)落地的通用GPU企業(yè),通過GPU+架構(gòu)創(chuàng)新,解決了通用性和高效率的雙重難題。經(jīng)過大量客戶產(chǎn)品化驗證,針對AI計算,GPU+比現(xiàn)有主流GPU在性能及能效上有顯著提升。首款基于登臨GPU+的AI加速器Goldwasser(高凜)2021年量產(chǎn)投入市場,2022年銷售過萬片,應(yīng)用場景覆蓋互聯(lián)網(wǎng)、智慧城市、電力、能源、金融等領(lǐng)域。高凜二代產(chǎn)品在2022年流片, 在2023年實現(xiàn)量產(chǎn)。根據(jù)現(xiàn)有客戶測試結(jié)果,二代產(chǎn)品針對基于Transformer類型的模型提供3-5倍的性能提升,能夠大幅降低類ChatGPT及生成式AI應(yīng)用的硬件成本。今日上午,登臨科技還宣布了一個好消息:獲得中國互聯(lián)****資基金獨家投資。

圖片

▲登臨科技Goldwasser(高凜)六大亮點


03.拼硬件:先進(jìn)制程扎堆解鎖千億大模型部署


在WAIC展會上,我們看到很多芯片展品都用上7nm及更先進(jìn)的制程工藝。瀚博半導(dǎo)體全功能GPU芯片SG100、天數(shù)智芯通用GPU推理產(chǎn)品智愷100、昆侖芯科技的2代AI芯片、Graphcore Bow IPU處理器等均采用7nm工藝。此次沒有參展WAIC的壁仞科技首款通用GPU芯片BR100同樣采用7nm工藝。兩家GPU創(chuàng)企瀚博半導(dǎo)體、珠海芯動力均在WAIC期間發(fā)布芯片新品。其中,瀚博半導(dǎo)體發(fā)布其全功能GPU SG100芯片,并推出了6款新品,包括分別針對云游戲、云桌面、工作站提供算力支持的南禺系列GPU加速卡VG1600、VG1800、VG14,以及大型語言模型AI加速卡VA1L、AIGC大模型一體機、VA12高性能生成式AI加速卡


▲瀚博SG100芯片簡介

VA1L具備200TOPS INT8/72TFLOPS FP16算力,并支持ChatGPT、LLaMA、Stable Diffusion等主流AIGC模型。其AIGC大模型一體機共使用8張VA1L加速卡,支持512GB顯存,進(jìn)而支持1750億參數(shù)的大模型。VA12作為250W板卡,是VA1和VA10的升級版,有512TOPS INT8/160TFLOPS FP16算力,能夠更高效地支持文生圖模型Stable Diffusion。珠海芯動力發(fā)布首款基于可重構(gòu)架構(gòu)的GPGPU芯片RPP-R8。該公司在2017年成功研發(fā)出可重構(gòu)并行處理器(RPP)架構(gòu),能夠?qū)I推理的性能進(jìn)行深度優(yōu)化。以RPP架構(gòu)為基礎(chǔ)、面向邊緣市場設(shè)計的第一代芯片RPP-R8已經(jīng)一次性流片成功,芯動力成為GPGPU領(lǐng)域的新成員。

圖片

▲芯動力“六邊形戰(zhàn)士”處理器RPP

據(jù)悉,RPP-R8芯片是一款通用型GP-GPU芯片,每顆芯片內(nèi)含有1024個計算核,相比傳統(tǒng)GPU架構(gòu)在同樣的算力占用更小的芯片面積,實現(xiàn)了低功耗和高能效的有效平衡。RPP-R8除了具備專用芯片所沒有的通用編程性,面積效率比可達(dá)到同類產(chǎn)品的7~10倍,能效比也超過3倍,可滿足高效并行計算及AI計算應(yīng)用。


▲珠海芯動力RPP-R8芯片

其它參展芯片中,天數(shù)智芯2018年設(shè)計的天垓100加速卡目前已經(jīng)跑通清華ChatGLM、LLaMA、智源研究院Aquila等大模型。今年6月,天數(shù)智芯宣布天垓100率先完成百億級參數(shù)大模型訓(xùn)練。昆侖芯2代AI芯片是國內(nèi)首款采用GDDR6顯存的通用AI芯片,已經(jīng)在金融、工業(yè)、交通、教育等領(lǐng)域廣泛部署。昆侖芯在軟件層面提供了豐富的云原生插件,幫助用戶快速完成和大模型平臺的適配。其產(chǎn)品矩陣適配文心一言、ChatGLM、GPT、OPT等主流行業(yè)大模型,并提供豐富的軟件SDK,幫助用戶快速完成適配和實時自定義的開發(fā)。海飛科稱其第一代通用GPU芯片Compass C10是業(yè)界首個顯存高達(dá)128GB的GPU芯片,達(dá)到了算力和存儲容量的優(yōu)化平衡,實現(xiàn)單卡、多卡分布式部署千億大模型。海飛科展臺演示有在其產(chǎn)品上跑Stable Diffusion、ChatGLM OPT等模型。

圖片

▲海飛科Compass C10計算卡

沐曦展示了其AI推理GPU曦思系列、通用計算GPU曦云系列、圖形處理GPU曦彩系列芯片。其中,曦思N100是沐曦面向人工智能推理場景推出的一款高效能GPU產(chǎn)品,單卡算力達(dá)160TOPS (INT8)和80TFLOPS (FP16),已實現(xiàn)規(guī)模量產(chǎn),并與多家重點客戶及合作伙伴共同打造應(yīng)用解決方案和生態(tài)聯(lián)盟。


▲曦思MXN100芯片

曦云C500是沐曦面向AI訓(xùn)練及通用計算的旗艦產(chǎn)品,提供強大高精度及多精度混合算力,配備大規(guī)格高帶寬顯存,片間互聯(lián)MetaXLink無縫鏈接多GPU系統(tǒng),能滿足大模型推理和訓(xùn)練需求。曦云MXC500芯片已于2023年6月13日完成基礎(chǔ)測試,預(yù)計將于今年年底實現(xiàn)量產(chǎn)。

圖片

▲曦云MXC500芯片

墨芯Antoum芯片是全球唯一擁有高稀疏率的AI芯片,采用12nm制程。憑借軟硬協(xié)同的稀疏計算技術(shù),搭載Antoum芯片的墨芯AI計算卡在權(quán)威AI基準(zhǔn)測試MLPerf今年4月公布的結(jié)果中取得ResNet-50單卡、多卡的性能第一。墨芯AI計算平臺可支持BLOOM、OPT、GPT-J、LLaMA、Stable Diffusion等主流大模型。

圖片

▲墨芯AI計算平臺

英國AI芯片獨角獸Graphcore(擬未)展出了入圍SAIL獎TOP30榜單的云端高端推訓(xùn)一體加速卡C600,以及世界首款3D Wafer-on-Wafer處理器Bow IPU和基于4個Bow IPU構(gòu)建的Bow-2000。Bow-2000可提供高達(dá)1.4PFLOPS的AI計算能力,并實現(xiàn)顯著的電源效率提升。其C600 IPU處理器PCIe卡在此基礎(chǔ)上增加了用于低精度和混合精度AI的FP8,主打推理,兼做訓(xùn)練,在搜索和推薦等業(yè)務(wù)上更具優(yōu)勢。Graphcore在支持大模型方面一直很積極,目前已部署在其IPU上的包括ChatGLM-6B、GPT2-XL、GPT-J、Stable Diffusion、Dolly 2.0等。Graphcore現(xiàn)場演示了在其IPU上運行中英雙語模型ChatGLM-6B和開源文生圖模型Stable Diffusion。

圖片

▲ChatGLM-6B模型在IPU上運行秒出多行回復(fù)

算能展出了第四代邊云大算力AI芯片算豐BM1684X,以及首款基于RISC-V指令集架構(gòu)的64核服務(wù)器CPU芯片算豐SG2042。每臺基于SG2042的服務(wù)器會配置1張萬兆光纖網(wǎng)卡,并根據(jù)硬盤配置選配RAID卡,使整個系統(tǒng)的操作起來與x86系統(tǒng)一樣方便。

圖片

▲算豐RISC-V SG2042服務(wù)器簡介

聚焦于計算+感知應(yīng)用的愛芯元智,在WAIC上重點展示了第三代高算力、高能效比SoC芯片AX650N和M55、M76系列智能駕駛芯片。AX650N現(xiàn)已適配ViT/DeiT、Swin/SwinV2、DETR等Transformer模型,在DINOv2達(dá)到30幀以上的運行結(jié)果。Transformer網(wǎng)絡(luò)SwinT在AX650N平臺上實現(xiàn)了361FPS的高性能、80.45%的高精度、199FPS/W的低功耗以及原版模型且PTQ量化的極易部署能力。

圖片

▲愛芯元智邊、端側(cè)Transformer大模型展臺


04.拼落地:滿場大模型運行Demo大曬應(yīng)用案例與生態(tài)朋友圈


除了一如既往地展示芯片、加速卡、系統(tǒng)集群和軟硬件解決方案外,瀚博半導(dǎo)體、天數(shù)智芯、燧原科技、登臨科技、算能、海飛科等AI芯片創(chuàng)企均現(xiàn)場展出了用自家產(chǎn)品運行大語言模型、AI繪畫、文生PPT等AIGC交互演示。天數(shù)智芯智愷100支持各類算法模型和大語言模型,能夠支持AIGC內(nèi)容生成類大模型推理;燧原科技的云端訓(xùn)練芯片邃思2.0能廣泛支持大模型訓(xùn)練。云天勵飛展出的兩款Edge10大算力芯片均可高效支持大模型運算。

圖片

▲天數(shù)智芯大模型能力

燧原科技7月5日剛推出的新品燧原曜圖(Enflame LumiCanvas)文生圖MaaS平臺服務(wù)產(chǎn)品在展會現(xiàn)場受到很多關(guān)注。這是燧原繼3月宣布升級企業(yè)戰(zhàn)略“以全棧軟硬件和集群產(chǎn)品為數(shù)字底座,結(jié)合MaaS的業(yè)務(wù)模式,全面打造AIGC時代的基礎(chǔ)設(shè)施”后的首款新品。這也是燧原在AIGC戰(zhàn)略布局的第一步,后續(xù)燧原還將繼續(xù)推出其它MaaS服務(wù)。

圖片

▲燧原曜圖文生圖MaaS平臺服務(wù)產(chǎn)品

燧原曜圖以燧原科技邃思系列芯片為算力支撐,由首都在線提供計算服務(wù),集成了圖像預(yù)處理、姿態(tài)建模、外部模型一鍵導(dǎo)入等能力,能夠大批量生成圖像,通過軟硬一體方案降低大規(guī)模AIGC應(yīng)用的工程難度與算力成本。這個企業(yè)級文生圖應(yīng)用支持以Excel形式批量導(dǎo)入prompt,單次最高可支持千條prompt導(dǎo)入,并針對視覺創(chuàng)作領(lǐng)域?qū)I(yè)術(shù)語海量且繁復(fù)的問題,為用戶提供prompt詞典、大師經(jīng)典作品prompt模板沉淀、逆向prompt等在內(nèi)的全面Prompt工具體系。除了燧原曜圖外,燧原還展出了有多個可交互設(shè)施的AIGC交互演示體驗區(qū),包括ChatBCG(文生PPT)、LLaMA(聊天機器人)、由清華ChatGLM和Stable Diffusion組成的能回復(fù)文字和圖片的ChatBot(聊天機器人)等。

圖片

▲燧原AIGC交互演示展區(qū)

墨芯人工智能在WAIC期間發(fā)布了大模型算力方案的最新成果,展示1760億參數(shù)的大語言模型BLOOM在墨芯AI計算平臺的推理引擎支持下,能夠快速、流暢地回答各類問題,并完成詩歌創(chuàng)作、文案撰寫等多項語言生成任務(wù)。在1300億參數(shù)ChatGLM大模型上,8張墨芯S30計算卡吞吐達(dá)432token/s,性能超過主流GPU。天數(shù)智芯亦展出了豐富的應(yīng)用演示,包括大模型微調(diào)、大模型推理、代碼生成、AI繪畫、內(nèi)容審查、虛擬數(shù)字人、隱私計算、風(fēng)電場巡檢、智慧語義、人臉比對、智算中心、3D建模、科學(xué)計算、智能OCR、目標(biāo)檢測/缺陷檢測、智慧零售等,充分展示了其GPU產(chǎn)品的通用性。

圖片

▲天數(shù)智芯合作伙伴

登臨科技設(shè)置了大模型、創(chuàng)新應(yīng)用、AIDC、創(chuàng)新硬件四大主題展區(qū),和合作伙伴一起展出了數(shù)十種產(chǎn)品方案,包括大模型、步態(tài)識別、數(shù)字孿生、無人機、智慧金融、智慧電力、智慧能源、智慧園區(qū)、車路協(xié)同、智慧社區(qū)、智慧交通等,并展示了其生態(tài)朋友圈。


▲登臨瀚海生態(tài)合作伙伴

燧原科技也曬出了生態(tài)合作伙伴。

圖片

▲燧原科技生態(tài)合作伙伴

雖然昆侖芯并未在展臺設(shè)置關(guān)于AIGC應(yīng)用的互動演示,但百度文心大模型早已是昆侖芯的金字招牌。值得一提的是,百度并沒有因為昆侖芯是自家孩子而排斥其他AI芯片企業(yè)。百度展臺上有一張標(biāo)注飛槳在WAIC上的硬件伙伴們展位的地圖,愛芯元智、登臨科技、沐曦、昆侖芯、海飛科、墨芯人工智能、算能、燧原科技、瀚博半導(dǎo)體、天數(shù)智芯、Graphcore均在其中。

圖片

▲百度飛槳和硬件伙伴在WAIC


05.結(jié)語:上海近年已有30多款A(yù)I芯片點亮


除了上述已宣布支持大模型加速的AI芯片創(chuàng)企外,知存科技、后摩智能、復(fù)旦微電、富瀚微、西安紫光國芯等芯片企業(yè)也參展WAIC。其中,知存科技和后摩智能是存算一體AI芯片的玩家代表。知存科技展出的WTM2101芯片于去年成功量產(chǎn)并商用,AI算力相較NPU、DSP、MCU計算平臺提高了10-200倍,功耗僅在5uA到3mA之間。后摩智能則聚焦于智能駕駛,展出了首款存算一體智駕芯片后摩鴻途H30芯片及相關(guān)產(chǎn)品。基于后摩鴻途H30已成功運行常用的經(jīng)典計算機視覺網(wǎng)絡(luò)和多種自動駕駛先進(jìn)網(wǎng)絡(luò),包括當(dāng)前業(yè)內(nèi)最受關(guān)注的BEV網(wǎng)絡(luò)模型及廣泛應(yīng)用于高階輔助駕駛領(lǐng)域的PointPillar網(wǎng)絡(luò)模型。

圖片

▲后摩鴻途H30芯片

國內(nèi)FPGA龍頭復(fù)旦微電重點展示了基于自研FPAI(可重構(gòu)人工智能)芯片的一站式AI解決方案。憶芯科技展出了企業(yè)級SSD芯片等多種解決方案。西安紫光國芯則展出了世界領(lǐng)先的嵌入式DRAM(SeDRAM)、高帶寬高性能板卡解決方案HBX-G500等科技創(chuàng)新成果。目前,上海集聚了全國最多的智能芯片創(chuàng)新企業(yè),近年已有30多款A(yù)I訓(xùn)練芯片、AI推理芯片、車載芯片點亮,這些積累為通用大模型發(fā)展和落地普及打下了算力基礎(chǔ)。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 大模型

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉