智算中心芯片，誰在布局？

作者：時間：2024-08-12 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

「算力」相關(guān)產(chǎn)業(yè)近期持續(xù)火爆，智算中心的建設(shè)，也正在遍地開花。

本文引用地址：http://butianyuan.cn/article/202408/461905.htm

進(jìn)入 2024 年，就有武昌智算中心、中國移動智算中心（青島）、華南數(shù)谷智算中心、鄭州人工智能計算中心、博大數(shù)據(jù)深圳前海智算中心等相繼開工或投產(chǎn)使用。

據(jù)不完全統(tǒng)計，目前全國正在建設(shè)或提出建設(shè)智算中心的城市已經(jīng)超過 30 個，投資規(guī)模超百億元。

到底什么是智算中心？智算中心主要用來做什么？智算中心都有哪些特點？

何為智算中心？

根據(jù)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》定義，智算中心是指通過使用大規(guī)模異構(gòu)算力資源，包括通用算力（CPU）和智能算力（GPU、FPGA、ASIC 等），主要為人工智能應(yīng)用（如人工智能深度學(xué)習(xí)模型開發(fā)、模型訓(xùn)練和模型推理等場景）提供所需算力、數(shù)據(jù)和算法的設(shè)施。

也可以說，智算中心是以人工智能計算任務(wù)為主的數(shù)據(jù)中心。

數(shù)據(jù)中心通常包括三種類別，除了智算中心以外，另外兩種分別是以通用計算任務(wù)為主的通算中心，以及以超級計算任務(wù)為主的超算中心。

2023 年是人工智能發(fā)展的重要轉(zhuǎn)折年，AIGC 技術(shù)取得了突破性進(jìn)展，大模型訓(xùn)練、大模型應(yīng)用等新業(yè)務(wù)正在快速崛起，作為智能算力的載體，數(shù)據(jù)中心也已經(jīng)從數(shù)據(jù)機(jī)房、通算中心，發(fā)展到現(xiàn)階段的超算中心和智算中心。

智算中心與通用數(shù)據(jù)中心有何不同？

智算中心，通常與云計算緊密相關(guān)，強(qiáng)調(diào)資源控制和基礎(chǔ)設(shè)施管理的靈活性。在云環(huán)境中，數(shù)據(jù)中心提供商負(fù)責(zé)硬件和某些軟件工具的維護(hù)，而客戶則擁有數(shù)據(jù)。相比之下，傳統(tǒng)的本地數(shù)據(jù)中心需要由企業(yè)自行管理和維護(hù)所有的數(shù)據(jù)資源。

本質(zhì)的不同導(dǎo)致兩種模式在資本投入、資源部署以及安全性方面都有著極大的區(qū)別。

在資本投入上，智算中心客戶無需大量的硬件和軟件成本即可選擇適合自己的服務(wù)模式，如公有云、私有云或混合云；而傳統(tǒng)數(shù)據(jù)中心的客戶則需要投入大量資金來購買和維護(hù)自己所需的服務(wù)器、網(wǎng)絡(luò)和存儲設(shè)備。

在資源部署和安全性上，智算中心的客戶可隨時隨地通過互聯(lián)網(wǎng)遠(yuǎn)程訪問和管理自己的數(shù)據(jù)和應(yīng)用，與此同時還可以享受數(shù)據(jù)中心提供商提供的專業(yè)的安全保障，如防火墻、加密、備份和恢復(fù)等；而傳統(tǒng)數(shù)據(jù)中心的客戶受到辦公/指定地點的限制，且需自己進(jìn)行保護(hù)和管理數(shù)據(jù)。

智算中心，簡單來說就是專門服務(wù)于人工智能的數(shù)據(jù)計算中心，能夠為人工智能計算提供所需的專用算力。相比傳統(tǒng)數(shù)據(jù)中心，智算中心能滿足更具針對性的需求，以及更大的計算體量和更快的計算速度，為大模型訓(xùn)練推理、自動駕駛、AIGC 等各垂直行業(yè)場景提供 AI 算力。

AI 智算，需要什么樣的芯片？

在硬件的選擇上，智算中心與傳統(tǒng)數(shù)據(jù)中心的硬件架構(gòu)也有所不同。

AI 智算，需要什么樣的算力芯片？

傳統(tǒng)數(shù)據(jù)中心的硬件架構(gòu)比較單一，主要包含服務(wù)器、存儲設(shè)備和網(wǎng)絡(luò)設(shè)備。智算中心相比于此硬件架構(gòu)就會更加的靈活，不同的應(yīng)用場景也會選擇不同的計算節(jié)點。

智算服務(wù)器是智算中心的主要算力硬件，通常采用「CPU+GPU」、「CPU+NPU」或「CPU+TPU」的異構(gòu)計算架構(gòu)，以充分發(fā)揮不同算力芯片在性能、成本和能耗上的優(yōu)勢。

GPU、NPU、TPU 的內(nèi)核數(shù)量多，擅長并行計算。AI 算法涉及到大量的簡單矩陣運算任務(wù)，需要強(qiáng)大的并行計算能力。

而傳統(tǒng)通用服務(wù)器則是以 CPU 作為主要芯片，用于支持如云計算和邊緣計算等基礎(chǔ)通用計算。

AI 智算，需要什么樣的存儲芯片？

不止是算力芯片的不同，AI 智算對存儲芯片也有著更高的要求。

首先是用量。智算服務(wù)器的 DRAM 容量通常是普通服務(wù)器的 8 倍，NAND 容量是普通服務(wù)器的 3 倍。甚至它的 PCB 電路板層數(shù)也明顯多于傳統(tǒng)服務(wù)器。

這也意味著智算服務(wù)器需要布局更多的存儲芯片，以達(dá)到所需性能。

隨著需求的水漲船高，一系列瓶頸問題也浮出水面。

一方面，傳統(tǒng)馮諾依曼架構(gòu)要求數(shù)據(jù)必須加載到內(nèi)存中，導(dǎo)致數(shù)據(jù)處理效率低、延遲大、功耗高；另一方面，存儲器墻問題使得處理器性能的增長速度遠(yuǎn)快于內(nèi)存速度，造成大量數(shù)據(jù)需要在 SSD 和內(nèi)存間傳遞；此外，CPU 掛載的 SSD 容量和帶寬限制也成為性能瓶頸。

面對「存儲墻」、「功耗墻」等問題，傳統(tǒng)計算體系結(jié)構(gòu)中計算存儲架構(gòu)亟需升級，將存儲與計算有機(jī)融合，以其巨大的能效比提升潛力，才能匹配智算時代巨量數(shù)據(jù)存儲需求。

針對這一系列問題，存算一體芯片或許是一個不錯的答案。

除了芯片不同之外，為了充分發(fā)揮性能以及保障穩(wěn)定運行，AI 服務(wù)器在架構(gòu)、散熱、拓?fù)涞确矫嬉策M(jìn)行了強(qiáng)化設(shè)計。

這些芯片，誰在布局？

算力芯片的布局情況

在 GPU 方面，GPU 擅長大規(guī)模并行計算。華為、天數(shù)智芯、摩爾線程、中科曙光、燧原科技、英偉達(dá)、英特爾、AMD 等都推出有相關(guān)的芯片。比如，華為推出了昇騰系列 AI 芯片昇騰 910 和昇騰 310 等，這些芯片專為 AI 訓(xùn)練和推理設(shè)計，具有高性能和低功耗的特點。昇騰系列已廣泛應(yīng)用于數(shù)據(jù)中心、云服務(wù)和邊緣計算等領(lǐng)域，為智算中心提供強(qiáng)大的算力支持。

英偉達(dá)推出了多款針對 AI 訓(xùn)練和推理的 GPU 產(chǎn)品，如 A100、H100 等。英特爾也推出了多款 AI 芯片產(chǎn)品，如 Habana Labs 的 Gaudi 系列芯片，旨在與英偉達(dá)競爭。AMD 在 AI 芯片領(lǐng)域也有所布局，推出了 MI 系列 GPU 和 APU 產(chǎn)品。

在 FPGA 方面，CPU+FPGA 則結(jié)合了靈活性與高效能，適應(yīng)算法快速變化。賽靈思、英特爾是市場主要參與者，相關(guān)產(chǎn)品有：賽靈思的 VIRTEX、KINTEX、ARTIX、SPARTAN 產(chǎn)品系列以及英特爾的 Agilex 產(chǎn)品系列；國內(nèi)主要廠商包括復(fù)旦微電、紫光國微和安路科技等。

在 ASIC 方面，CPU+ASIC 提供高性能定制計算，適合特定需求。國外谷歌、英特爾、英偉達(dá)等巨頭相繼發(fā)布了 ASIC 芯片。國內(nèi)寒武紀(jì)、華為海思、地平線等廠商也都推出了深度神經(jīng)網(wǎng)絡(luò)加速的 ASIC 芯片。

在 NPU 方面，NPU 是專門為人工智能和機(jī)器學(xué)習(xí)場景而設(shè)計的處理器。與 CPU 和 GPU 不同，NPU 在硬件結(jié)構(gòu)上進(jìn)行了針對性的優(yōu)化，專注于執(zhí)行神經(jīng)網(wǎng)絡(luò)推理等 AI 相關(guān)的計算任務(wù)。CPU 的通用性和 NPU 的專用性相結(jié)合，使得整個系統(tǒng)能夠靈活應(yīng)對各種 AI 應(yīng)用場景，快速適應(yīng)算法和模型的變化。

目前市場上已有眾多量產(chǎn)的 NPU 或搭載 NPU 模塊的芯片，其中知名的包括高通 Hexagon NPU、華為的昇騰系列，值得注意的是，各大廠商在芯片計算核心的設(shè)計上都有著獨特的策略。

在 TPU 方面，TPU 是谷歌專門為加速深層神經(jīng)網(wǎng)絡(luò)運算能力而研發(fā)的一款芯片，更加專注于處理大規(guī)模的深度學(xué)習(xí)任務(wù)，具備更高的計算能力和更低的延遲。TPU 也屬于一種 ASIC 芯片。

在 DPU 方面，DPU 專門設(shè)計用于數(shù)據(jù)處理任務(wù)，具有高度優(yōu)化的硬件結(jié)構(gòu)，適用于特定領(lǐng)域的計算需求。不同于 CPU 用于通用計算，GPU 用于加速計算，DPU 是數(shù)據(jù)中心第三顆主力芯片。國際三大巨頭英偉達(dá)、博通、英特爾的 DPU 產(chǎn)品占據(jù)國內(nèi)大多數(shù)市場，賽靈思、Marvell、Pensando、Fungible、Amazon、Microsoft 等多家廠商在近 2-5 年內(nèi)也均有 DPU 或相似架構(gòu)產(chǎn)品生產(chǎn)。國內(nèi)廠商包括中科馭數(shù)、芯啟源、云豹智能、大禹智芯、阿里云等。

國產(chǎn)算力芯片走到哪一步了？

在 2024 北京移動算力網(wǎng)絡(luò)大會上，中國移動算力中心北京節(jié)點正式投入使用，標(biāo)志著我國智算中心建設(shè)進(jìn)入新階段。作為北京首個大規(guī)模訓(xùn)推一體智算中心，該項目占地約 57000 平方米，部署近 4000 張 AI 加速卡，AI 芯片國產(chǎn)化率達(dá) 33%，智能算力規(guī)模超 1000P。

北京超級云計算中心運營實體北京北龍超級云計算有限責(zé)任公司 CTO 甄亞楠近日表示，目前幫國產(chǎn)大模型「嫁接」國產(chǎn)芯片，只需 15 天左右就可以跑通。他認(rèn)為算力共享會是行業(yè)大趨勢，高端 GPU 算力資源需要各方努力。

近年來，中國人工智能算力芯片的市場格局主要由英偉達(dá)主導(dǎo)，其占據(jù)了 80% 以上的市場份額。

甄亞楠表示，「我們也非常關(guān)注國產(chǎn)芯片的發(fā)展，據(jù)了解，國內(nèi)自研的大模型，甚至一些開源的大模型都在不斷往國產(chǎn)芯片上去做移植?，F(xiàn)在從芯片使用角度來講，有些模型已經(jīng)可以跑通運行了，需要追趕的方面主要在類似 GPU 這種高性能?！?/span>

「整個的國產(chǎn)化是分層級的，芯片屬于硬件這一層，除此之外還有軟件的生態(tài)。對于國產(chǎn)的芯片來講，不管是框架還是生態(tài)，都需要有一定的培育周期。」甄亞楠呼吁，最終的應(yīng)用方要給到國產(chǎn)芯片足夠的信心。

存儲芯片的布局情況

智算中心在存儲方面需要具備高容量、高可靠性、高可用性等特點。存儲設(shè)備通常采用高性能的硬盤或固態(tài)硬盤，并配備冗余的存儲架構(gòu)，以確保數(shù)據(jù)的安全性和可訪問性。三星、美光、SK 海力士等都有相關(guān)芯片都廣泛應(yīng)用于數(shù)據(jù)中心、云計算等領(lǐng)域，為智算中心提供高性能的存儲解決方案。

國內(nèi)廠商近年來在 DRAM 與 NAND 技術(shù)追趕上也實現(xiàn)了快速發(fā)展。

除了傳統(tǒng)的存儲芯片外，智算中心還需要上文提到的新型存儲—存算一體芯片發(fā)揮更大的作用。

從存算一體發(fā)展歷程來看，自 2017 年起，英偉達(dá)、微軟、三星等大廠提出了存算一體原型，同年國內(nèi)存算一體芯片企業(yè)開始涌現(xiàn)。

大廠們對存算一體架構(gòu)的需求是實用且落地快，而作為最接近工程落地的技術(shù)，近存計算成為大廠們的首選。諸如特斯拉、三星等擁有豐富生態(tài)的大廠以及英特爾、IBM 等傳統(tǒng)芯片大廠都在布局近存計算。

國內(nèi)初創(chuàng)企業(yè)則聚焦于無需考慮先進(jìn)制程技術(shù)的存內(nèi)計算。其中，知存科技、億鑄科技、九天睿芯等初創(chuàng)公司都在押注 PIM、CIM 等「存」與「算」更親密的存算一體技術(shù)路線。億鑄科技、千芯科技等專注于大模型計算、自動駕駛等 AI 大算力場景；閃易、新憶科技、蘋芯科技、知存科技等則專注于物聯(lián)網(wǎng)、可穿戴設(shè)備、智能家居等邊緣小算力場景。

億鑄科技致力于用存算一體架構(gòu)設(shè)計 AI 大算力芯片，首次將憶阻器 ReRAM 和存算一體架構(gòu)相結(jié)合，通過全數(shù)字化的芯片設(shè)計思路，在當(dāng)前產(chǎn)業(yè)格局的基礎(chǔ)上，提供一條更具性價比、更高能效比、更大算力發(fā)展空間的 AI 大算力芯片換道發(fā)展新路徑。

千芯科技專注于面向人工智能和科學(xué)計算領(lǐng)域的大算力存算一體算力芯片與計算解決方案研發(fā)，在 2019 年率先提出可重構(gòu)存算一體技術(shù)產(chǎn)品架構(gòu)，在計算吞吐量方面相比傳統(tǒng) AI 芯片能夠提升 10-40 倍。目前千芯科技可重構(gòu)存算一體芯片（原型）已在云計算、自動駕駛感知、圖像分類、車牌識別等領(lǐng)域試用或落地；其大算力存算一體芯片產(chǎn)品原型也已在國內(nèi)率先通過互聯(lián)網(wǎng)大廠內(nèi)測。

知存科技的方案是重新設(shè)計存儲器，利用 Flash 閃存存儲單元的物理特性，對存儲陣列改造和重新設(shè)計外圍電路使其能夠容納更多的數(shù)據(jù)，同時將算子也存儲到存儲器當(dāng)中，使得每個單元都能進(jìn)行模擬運算并且能直接輸出運算結(jié)果，以達(dá)到存算一體的目的。

智算規(guī)模占比超 30%，算力建設(shè)如火如荼

7 月初，天府智算西南算力中心正式在四川成都投運。據(jù)介紹，該中心將以算力支撐成都打造千億級人工智能核心產(chǎn)業(yè)，賦能工業(yè)制造、自然科學(xué)、生物醫(yī)學(xué)、科研模擬實驗等領(lǐng)域的人工智能創(chuàng)新。

這不是個例。近一個月來，銀川綠色智算中心項目集中開工；北京移動在京建成首個大規(guī)模訓(xùn)推一體智算中心，支撐高復(fù)雜度、高計算需求的百億、千億級大模型訓(xùn)練推理；鄭州人工智能計算中心開工建設(shè)，總投資超 16 億元……以智算中心為代表的數(shù)字新基建正加快建設(shè)落地。

國家統(tǒng)計局 7 月 15 日發(fā)布的數(shù)據(jù)顯示，截至 5 月底，全國新建 5G 基站 46 萬個；規(guī)劃具有高性能計算機(jī)集群的智算中心達(dá) 10 余個，智能算力占算力總規(guī)模比重超過 30%。

據(jù)中國 IDC 圈不完全統(tǒng)計，截止 2024 年 5 月 23 日，中國大陸共有智算中心 283 座，已覆蓋中國大陸所有省、自治區(qū)和直轄市。其中有投資額統(tǒng)計的智算中心項目 140 座，總投資額達(dá)到 4364.34 億元。有規(guī)劃算力規(guī)模統(tǒng)計的智算中心項目 177 座，總算力規(guī)模達(dá)到 36.93 萬 PFlops。

這些「智算中心」標(biāo)準(zhǔn)不一、規(guī)模不同，算力規(guī)模一般在 50P、100P、500P、1000P，有的甚至達(dá)到 12000P 以上，雖然 AI 浪潮給智算中心帶來了廣闊的發(fā)展前景，但供需錯配、價格昂貴、重復(fù)建設(shè)等仍然是我國算力建設(shè)面臨的難題。

與此同時，多地也紛紛出臺專項規(guī)劃，明確未來幾年建設(shè)目標(biāo)，并在技術(shù)、應(yīng)用、資金等方面完善支持舉措。例如，江蘇發(fā)布省級算力基礎(chǔ)設(shè)施發(fā)展專項規(guī)劃，提出到 2030 年全省在用總算力超過 50EFLOPS（EFLOPS 是指每秒百億億次浮點運算次數(shù)），智能算力占比超過 45%；甘肅提出對算力網(wǎng)絡(luò)新型基礎(chǔ)設(shè)施在用地、市政配套設(shè)施建設(shè)、人才引進(jìn)、資金等方面給予政策支持。

「人工智能大模型等應(yīng)用爆發(fā)式發(fā)展帶動了智能算力需求激增?！箛倚畔⒅行男畔⒒彤a(chǎn)業(yè)發(fā)展部主任單志廣表示，智能計算發(fā)展迅速，已經(jīng)成為我國算力結(jié)構(gòu)中增速最快的類型，其中大模型是智能算力的最大需求方，需求占比近六成。預(yù)計到 2027 年，中國智能算力規(guī)模年度復(fù)合增長率達(dá) 33.9%。

新聞中心

智算中心芯片，誰在布局？

何為智算中心？

智算中心與通用數(shù)據(jù)中心有何不同？

AI 智算，需要什么樣的芯片？

這些芯片，誰在布局？

智算規(guī)模占比超 30%，算力建設(shè)如火如荼

評論

相關(guān)推薦

技術(shù)專區(qū)

新聞中心

智算中心芯片，誰在布局？

何為智算中心？

智算中心與通用數(shù)據(jù)中心有何不同？

AI 智算，需要什么樣的芯片？

這些芯片，誰在布局？

智算規(guī)模占比超 30%，算力建設(shè)如火如荼

評論

相關(guān)推薦

技術(shù)專區(qū)

智算中心芯片，誰在布局？

智算中心與通用數(shù)據(jù)中心有何不同？

AI 智算，需要什么樣的芯片？

這些芯片，誰在布局？