?GPU芯片新技術(shù)出現(xiàn)，中國(guó)廠商值得借鑒

作者：時(shí)間：2023-11-13 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

11 月 6 日，在創(chuàng)業(yè)三年，即將進(jìn)入下一個(gè)三年之際，摩爾線程創(chuàng)始人兼 CEO 張建中給公司全體員工發(fā)了一封信。信中提到了很多關(guān)于過去三年研發(fā)工作的總結(jié)，以及未來發(fā)展規(guī)劃的內(nèi)容，不過，這封信的核心內(nèi)容是：摩爾線程將進(jìn)行一次崗位優(yōu)化，也就是裁員。

本文引用地址：http://www.butianyuan.cn/article/202311/452786.htm

對(duì)于這家中國(guó)本土新崛起的 GPU 芯片設(shè)計(jì)公司來說，最近幾年的形勢(shì)，使得擺在他面前的機(jī)遇和挑戰(zhàn)都顯得很凸出。

不僅摩爾線程，壁仞科技和沐曦集成電路也是近幾年中國(guó)本土表現(xiàn)非常凸出的 GPU 芯片創(chuàng)業(yè)公司，再加上老牌的景嘉微，以及其它幾家相關(guān)企業(yè)，把中國(guó)本土 GPU 技術(shù)和芯片產(chǎn)品市場(chǎng)熱度推向了一個(gè)新高度，在主動(dòng)與被動(dòng)之間，取得了明顯多于、快于 2018 年之前的成績(jī)。

然而，在市場(chǎng)和美國(guó)政策的雙重壓力下，特別是近期美國(guó)政府將壁仞科技和摩爾線程列入了實(shí)體清單，使得它們?cè)O(shè)計(jì)出的芯片難以拿到先進(jìn)制程產(chǎn)能，再加上市場(chǎng)寒冬，以及在生態(tài)系統(tǒng)方面與英偉達(dá)的巨大差距，生存和發(fā)展愈加艱難，裁員難以避免。

GPU 及生態(tài)系統(tǒng)建設(shè)

1999 年 10 月，英偉達(dá)發(fā)布了 GeForce 256，這是一款基于臺(tái)積電 220nm 制程工藝、集成了 2300 萬個(gè)晶體管的圖形處理芯片。英偉達(dá)把 Graphics Processing Unit 的首字母「GPU「提煉出來，把 GeForce 256 冠以「世界上第一塊 GPU」稱號(hào)，巧妙地定義了 GPU 這個(gè)新品類，并占據(jù)這個(gè)詞的用戶心智直到今天。憑借先發(fā)優(yōu)勢(shì)，不僅在芯片端，英偉達(dá)在 GPU 生態(tài)系統(tǒng)建設(shè)方面也是統(tǒng)治者，直到今天，也沒有哪家廠商能夠動(dòng)搖它的根基。

GPU 原本是為圖像而生的，它把 CPU 從圖像顯示的苦力活中解放了出來，大量的流水線架構(gòu)，使得 GPU 非常適合巨量、重復(fù)性的工作，自從 GPU 大規(guī)模應(yīng)用以后，CPU 就擺脫了這些原本由它負(fù)責(zé)的頭疼工作，轉(zhuǎn)而去做更擅長(zhǎng)的指令判斷和控制類的「大腦「型工作。

在發(fā)展的很長(zhǎng)一段時(shí)間內(nèi)，由 GPU 組成的顯卡主要用于大型游戲、CAD 制圖和視頻剪輯等圖像處理工作，后來，隨著應(yīng)用和技術(shù)的發(fā)展，GPU 又滲透到自動(dòng)駕駛、醫(yī)療影像、金融模型、生物信息等多個(gè)領(lǐng)域。如今，GPU 是人工智能（AI），特別是 AI 訓(xùn)練應(yīng)用領(lǐng)域的明星，火遍全球。

發(fā)展了這么多年，GPU 芯片賽道高度壟斷，全球 90% 的市場(chǎng)被少數(shù)幾家大企業(yè)占領(lǐng)，在集顯市場(chǎng)，英特爾和 AMD 平分天下，在獨(dú)顯賽道，AMD、英偉達(dá)二八分成；在 GPGPU（主要用于 AI 等高性能計(jì)算）市場(chǎng)，英偉達(dá)的市占率高達(dá) 90% 以上。

生態(tài)系統(tǒng)方面，2006 年，英偉達(dá)推出了并行計(jì)算平臺(tái)和編程模型 CUDA，它讓 GPU 擁有了解決復(fù)雜計(jì)算問題的能力，開發(fā)者們可以通過 CUDA 平臺(tái)，更方便地調(diào)度底層的 GPU 算力。當(dāng)前，CUDA 擁有 400 多萬開發(fā)者，大部分 GPU 和 AI 芯片創(chuàng)業(yè)公司的產(chǎn)品也都通過兼容 CUDA 來進(jìn)入用戶端。

為了追趕英偉達(dá)，英特爾于 2022 年發(fā)布了全新架構(gòu)的第一款獨(dú)立顯卡，擁有超過一萬名軟件工程師的英特爾，在顯卡發(fā)布后的一年里，其顯卡驅(qū)動(dòng)更新了 21 次，平均半年更新 10 版。

為了與 CUDA 競(jìng)爭(zhēng)，AMD 于 2016 年推出了開放的 ROCm 平臺(tái)，不過，從目前的發(fā)展情況來看，ROCm 的市場(chǎng)接受度和應(yīng)用規(guī)模依然與 CUDA 有非常大的差距。

中國(guó) GPU 的發(fā)展近況

近些年，中國(guó) GPU 取得了一些突破。

2019-2020 年，中國(guó)本土出現(xiàn)了 GPU、AI 芯片創(chuàng)業(yè)熱潮，壁仞科技、摩爾線程、燧原科技、沐曦集成電路、天數(shù)智芯等一批明星企業(yè)涌現(xiàn)出來，相關(guān) GPU 芯片新品不斷。

2022 年 3 月，摩爾線程公布了首批顯卡產(chǎn)品，包括面向電腦和工作站的 MTT S60，以及面向服務(wù)器的 MTT S2000。兩張顯卡都采用了第一代 MUSA 架構(gòu)（Moore Threads Unified System Architecture，中文名為「蘇堤」）。2022 年 11 月，該公司公布了第二批產(chǎn)品，包括面向電腦和工作站的顯卡 MTT S80，以及面向服務(wù)器的 MTT S3000，這兩款產(chǎn)品采用了新一代 MUSA 架構(gòu)「春曉」，并使用了 PCIe Gen5 插槽。

壁仞科技的高光時(shí)刻，是在 2022 年 8 月發(fā)布了首款 GPGPU 芯片 BR100，并宣布該產(chǎn)品從 800 多個(gè)參選項(xiàng)目中脫穎而出，榮膺當(dāng)年世界人工智能大會(huì)最高獎(jiǎng)項(xiàng) SAIL 獎(jiǎng)。據(jù)悉，BR100 峰值算力達(dá)到國(guó)際廠商在售旗艦產(chǎn)品 3 倍以上，創(chuàng)下國(guó)內(nèi)互連帶寬紀(jì)錄，還是國(guó)內(nèi)率先采用 Chiplet 技術(shù)、率先采用 PCIe 5.0、率先支持 CXL 互連協(xié)議的 GPGPU 芯片。

今年 6 月，沐曦集成電路宣布完成 AI 訓(xùn)練 GPU MXC500 的功能測(cè)算工作，同時(shí)，MXMACA 2.0 計(jì)算平臺(tái)基礎(chǔ)測(cè)試完成。

據(jù)悉，MXC500 是沐曦對(duì)標(biāo)英偉達(dá) A100/A800 的芯片，目標(biāo)算力為 FP32 15 TFLOPS（A100 為 FP32 19.5 TFLOPS），兼容 CUDA，預(yù)計(jì)今年底規(guī)模出貨。

以上這些廠商推出的產(chǎn)品，目標(biāo)都是要奪取英偉達(dá)和 AMD 在中國(guó)本土的市場(chǎng)份額。然而，英偉達(dá)經(jīng)歷了 30 年的持續(xù)積累，才取得今天的成績(jī)，中國(guó)本土 GPU 廠商不可能在 5 年左右的時(shí)間內(nèi)研發(fā)出具有同樣水平和市場(chǎng)影響力的產(chǎn)品。不過，如果中國(guó) GPU 芯片能達(dá)到英偉達(dá) H100 芯片性能的 70%，也是很有意義的。接下來的重點(diǎn)工作就是本土 GPU 生態(tài)系統(tǒng)建設(shè)。

中國(guó) GPU 生態(tài)系統(tǒng)建設(shè)

比提升芯片性能更難的，是構(gòu)建生態(tài)系統(tǒng)。英偉達(dá)不僅強(qiáng)在芯片硬件，更強(qiáng)在其軟件生態(tài) CUDA，其 GPU+CUDA，就像英特爾和微軟構(gòu)建的 Wintel，后來者要想再創(chuàng)建一整套軟硬件系統(tǒng)的成本非常高，而且非常難，不僅僅是錢的問題。假設(shè)投入和英偉達(dá)相當(dāng)?shù)娜瞬藕唾Y源，以 3 倍的發(fā)展速度追趕，至少需要 10 年時(shí)間才能接近英偉達(dá)的水平。

以摩爾線程為例，理論上講，無論是 GPGPU，還是桌面級(jí)應(yīng)用，該公司的產(chǎn)品性能已經(jīng)達(dá)到了英偉達(dá)中端產(chǎn)品水準(zhǔn)，但實(shí)際表現(xiàn)并非如此。以 MTT S80 為例，從游戲愛好者的測(cè)試結(jié)果來看，其早期實(shí)際性能接近 GTX1050Ti，今年更新驅(qū)動(dòng)后，性能可以媲美 GTX1650，能流暢運(yùn)行英雄聯(lián)盟等網(wǎng)游，也可以跑 4K 游戲，但與 RTX3060 相比，依然有很大差距。

MTT S80 強(qiáng)勁的硬件卻難以發(fā)揮理論性能，關(guān)鍵問題就是軟件適配，摩爾線程差的就是底層技術(shù)和驅(qū)動(dòng)經(jīng)驗(yàn)的積累。據(jù)悉，MUSA 架構(gòu)源于 IMG 的 PowerVR，這也從一個(gè)側(cè)面體現(xiàn)出該公司在 GPU IP 方面缺乏核心技術(shù)。

通過購買 IP 研發(fā) GPU 是中國(guó)本土大多數(shù)廠商的選擇，包括芯動(dòng)、壁仞科技等企業(yè)都是如此。該模式能夠以最小代價(jià)設(shè)計(jì)出商用產(chǎn)品，但是，芯片生產(chǎn)出來以后，軟硬件打磨就要考驗(yàn)廠家的技術(shù)實(shí)力了，而這些軟實(shí)力是沒有地方購買的。

中國(guó)老牌 GPU 芯片企業(yè)景嘉微曾表示，做 GPU，三分靠硬件，七分靠軟件。英偉達(dá)在初期的產(chǎn)品性能也不好，還一度被 ATI 壓制，后期的成功除了全新架構(gòu)的助攻，驅(qū)動(dòng)的打磨功不可沒。

中國(guó)本土這些 GPU 芯片新星大多都想兼容英偉達(dá)的 CUDA，但是，在驅(qū)動(dòng)軟件的適配上還差強(qiáng)人意，例如，早期的 MTT S80 只支持 DX9 游戲，雖然現(xiàn)在歷經(jīng) 9 次版本驅(qū)動(dòng)更新后，能支持更高的 DX11 游戲，但是其性能表現(xiàn)遠(yuǎn)未達(dá)到硬件實(shí)際水平。

正是看到了差距，中國(guó)本土 GPU 廠商一直在生態(tài)系統(tǒng)建設(shè)方面增加投入。例如，今年，弘信電子與摩爾線程和燧原科技分別簽署了《戰(zhàn)略合作框架協(xié)議》，以打造人工智能軟硬件基礎(chǔ)設(shè)施。

目前，摩爾線程已經(jīng)將大部分資源分配給軟件，占比達(dá)到 70%，重點(diǎn)關(guān)注元宇宙和 AI。沐曦已與服務(wù)器 OEM、大數(shù)據(jù)中心、互聯(lián)網(wǎng)、運(yùn)營(yíng)商等行業(yè)客戶建立了合作關(guān)系，并與眾多知名高校和研究機(jī)構(gòu)開展產(chǎn)學(xué)研合作，快速推進(jìn)產(chǎn)業(yè)上下游生態(tài)系統(tǒng)建設(shè)。

GPU 的新動(dòng)向

全球范圍內(nèi)，在已有基礎(chǔ)上，GPU 技術(shù)及其生態(tài)依然在向前發(fā)展，目前來看，有兩點(diǎn)很值得關(guān)注：一是 GPU 與 CPU 的融合，二是 RISC-V 的融入。

GPU 比 CPU 簡(jiǎn)單得多；它可以更快地執(zhí)行簡(jiǎn)單的指令，執(zhí)行是并行進(jìn)行的，這也是 GPU 與 CPU 的最大不同之處。然而，并非所有軟件都可以輕松地并行化執(zhí)行。CUDA 生態(tài)系統(tǒng)旨在提供工具來構(gòu)建可以利用 GPU 進(jìn)行并行計(jì)算的軟件應(yīng)用程序，但是，大多數(shù)軟件應(yīng)用程序仍然需要 CPU 才能運(yùn)行。

基于 CPU 的應(yīng)用程序不僅更容易開發(fā)，而且大多已經(jīng)構(gòu)建完成。很難想象哪些公司會(huì)花費(fèi)時(shí)間和精力將已經(jīng)在 CPU 上運(yùn)行的東西移植到 GPU 上。

目前，AMD、英特爾和英偉達(dá)都在 CPU-GPU 融合技術(shù)方面下重注。

2023 上半年，AMD 首席技術(shù)官 Mark Papermaster 表示，該公司將在 2024 年推出 CPU-GPU 芯片，它將基于第 4 代 Epyc 架構(gòu)的 CPU 內(nèi)核與基于新一代 CDNA 3 架構(gòu)的 GPU 結(jié)合在一起，也就是 AMD 近些年一直在宣傳的 APU 概念。

英特爾的 CPU-GPU 芯片 Falcon Shores 具有 x86 CPU 內(nèi)核和 Xe GPU 內(nèi)核，成熟產(chǎn)品將在 2025 年量產(chǎn)。

下面看一下 RISC-V 與 GPU 的融合。

最近，Ventana Micro Systems 與 Imagination Technologies 合作推出了基于 RISC-V 的 CPU-GPU 平臺(tái)。

Ventana 計(jì)劃推出一個(gè)仿真模型，展示其基于 RISV-C 的 CPU 如何與 Imagination 開發(fā)的 GPU 協(xié)同工作。這次演示將結(jié)合 Ventana 的新 CPU 產(chǎn)品 Veyron V2。據(jù)悉，V2 將對(duì) RISC-V 指令集架構(gòu)進(jìn)行增強(qiáng)，使其能與 x86 和 Arm 同臺(tái)競(jìng)技。

目前來看，Imagination 與 Ventana 的合作項(xiàng)目距離產(chǎn)品量產(chǎn)和規(guī)?；瘧?yīng)用還有較大距離，但是，RISC-V CPU 和 GPU IP 融合的可用性，可能會(huì)帶來針對(duì)不同客戶端應(yīng)用的新一波 RISC-V 平臺(tái)開發(fā)熱潮。

從目前的市場(chǎng)和應(yīng)用需求來看，RISC-V 與 GPU 的結(jié)合是有基礎(chǔ)的。

在一些垂直市場(chǎng)，例如 5G/6G 通信、AI 推理和視頻處理等，傳統(tǒng) CPU 已經(jīng)無法滿足這些應(yīng)用的計(jì)算量需求，需要新計(jì)算方法的出現(xiàn)。對(duì)于圖像處理來說，內(nèi)存訪問瓶頸問題已經(jīng)非常凸出，需要新的解決方案，甚至是新的計(jì)算架構(gòu)，看看市場(chǎng)上最近發(fā)布的一些人工智能和 RISC-V 產(chǎn)品，會(huì)發(fā)現(xiàn)一些公司發(fā)布的處理器里面有新的 ISA，它們已經(jīng)開始將 RISC-V 和 GPU IP 融合使用了。

通過指令擴(kuò)展將 GPU 功能添加到 RISC-V 架構(gòu)中很有創(chuàng)意，然而，二者融合這條路并不好走，最大的攔路虎就是架構(gòu)融合，以及生態(tài)系統(tǒng)建設(shè)，需要的時(shí)間可能很長(zhǎng)。要將 RISC-V 指令集改編成非常適合 GPU 任務(wù)的指令集，需要大量投資來定義 ISA 擴(kuò)展，構(gòu)建高度復(fù)雜的微架構(gòu)，并對(duì)開源工具進(jìn)行重大調(diào)整。如果將 RISC-V 指令集融入 GPU 架構(gòu)，幾乎所有 RISC-V 的固有優(yōu)勢(shì)都將被定制化稀釋掉，另外，RISC-V 核心 ISA 功能會(huì)限制 GPU 在特定領(lǐng)域的可用性。

雖然，有諸多挑戰(zhàn)，但鑒于 RISC-V 迅猛的發(fā)展勢(shì)頭，以及其在高性能計(jì)算領(lǐng)域的滲透決心，與同樣在高性能計(jì)算應(yīng)用領(lǐng)域如魚得水的 GPU 融合，前景還是很值得期待的。

不僅是國(guó)際巨頭，中國(guó)本土 GPU 廠商，特別是更具前瞻性的幾家創(chuàng)業(yè)公司，在發(fā)展 GPU 方面也需要研發(fā)更具競(jìng)爭(zhēng)力的技術(shù)和產(chǎn)品，而在當(dāng)下美國(guó)政府推出各種限制政策的大環(huán)境下，中國(guó)本土 GPU 芯片技術(shù)和生態(tài)系統(tǒng)建設(shè)可以拓展更多思路，將更多先進(jìn)的技術(shù)和理念融入相關(guān)產(chǎn)品。在本土企業(yè)客戶給出更多采用和試錯(cuò)空間的情況下，中國(guó)芯片企業(yè)或許可以加快追趕國(guó)際先進(jìn) GPU 的步伐。