強(qiáng)攻 GPU，TPU 芯片一夜躥紅

作者：時(shí)間：2024-08-20 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

自 ChatGPT 爆火之后，AI 大模型的研發(fā)層出不窮，而在這場「百模大戰(zhàn)」激戰(zhàn)正酣之際，美國芯片公司英偉達(dá)卻憑借其 GPU 在大模型計(jì)算中的出色發(fā)揮賺得盆滿缽滿。

本文引用地址：http://butianyuan.cn/article/202408/462193.htm

然而，近日蘋果的一項(xiàng)舉動，給英偉達(dá)的火熱稍稍降溫。

AI 模型訓(xùn)練，蘋果選擇 TPU 而非 GPU

英偉達(dá)一直是 AI 算力基礎(chǔ)設(shè)施領(lǐng)域的領(lǐng)導(dǎo)者，在 AI 硬件市場，尤其是 AI 訓(xùn)練領(lǐng)域，其市場份額在 80% 以上，英偉達(dá) GPU 一直是亞馬遜、微軟、Meta、OpenAI 等眾多科技巨頭在 AI 和機(jī)器學(xué)習(xí)領(lǐng)域的首選算力解決方案。

因此，英偉達(dá)也持續(xù)遭遇行業(yè)內(nèi)多元挑戰(zhàn)，競爭對手中不乏自主研發(fā) GPU 的強(qiáng)者，亦有探索創(chuàng)新架構(gòu)的先驅(qū)。谷歌的 TPU 也憑借其獨(dú)特優(yōu)勢，成為英偉達(dá)不容忽視的強(qiáng)大對手。

7 月 30 日，蘋果公司發(fā)布了一篇研究論文。在論文中，蘋果介紹了給 Apple Intelligence 提供支持的兩個(gè)模型——AFM-on-device（AFM 是蘋果基礎(chǔ)模型的縮寫）和 AFM-server（一個(gè)基于服務(wù)器的大語言模型），前者是一個(gè) 30 億參數(shù)的語言模型，后者則是一個(gè)基于服務(wù)器的語言模型。

蘋果在論文中表示，為了訓(xùn)練其 AI 模型，使用了谷歌的兩種張量處理器（TPU），這些單元被組成大型芯片集群。為了構(gòu)建可在 iPhone 和其他設(shè)備上運(yùn)行的 AI 模型 AFM-on-device，蘋果使用了 2048 個(gè) TPUv5p 芯片。對于其服務(wù)器 AI 模型 AFM-server，蘋果部署了 8192 個(gè) TPUv4 處理器。

蘋果放棄英偉達(dá) GPU 轉(zhuǎn)向谷歌 TPU 的戰(zhàn)略選擇，在科技界投下了一枚震撼彈，當(dāng)日英偉達(dá)股價(jià)應(yīng)聲下跌超 7%，創(chuàng)下三個(gè)月來最大跌幅，市值蒸發(fā) 1930 億美元。

業(yè)內(nèi)人士表示，蘋果的決定表明一些大型科技公司在人工智能訓(xùn)練方面可能正在尋找英偉達(dá)圖形處理單元的替代品。

TPU VS GPU，誰更適合大模型？

在討論 TPU 與 GPU 誰更適合大模型之前，我們需要對這兩者有一個(gè)初步的了解。

TPU 與 GPU 對比

TPU 全稱 Tensor Processing Unit，是谷歌專門為加速機(jī)器學(xué)習(xí)工作負(fù)載而設(shè)計(jì)的專用芯片，它主要應(yīng)用于深度學(xué)習(xí)模型的訓(xùn)練和推理。值得注意的是，TPU 也屬于 ASIC 芯片的一類，而 ASIC 是一種為了某種特定的需求而專門定制的芯片。

GPU 大家就比較熟悉了，GPU 是最初為圖形渲染設(shè)計(jì)的處理器，后來廣泛用于并行計(jì)算和深度學(xué)習(xí)。它具有強(qiáng)大的并行處理能力，經(jīng)過優(yōu)化后的 GPU，也非常適合深度學(xué)習(xí)和科學(xué)計(jì)算等并行任務(wù)。

可以看到，這兩種不同的芯片在初始設(shè)計(jì)時(shí)便有著各自不同的目標(biāo)。

與傳統(tǒng)的 CPU 相比，GPU 的并行計(jì)算能力使其特別適合處理大規(guī)模數(shù)據(jù)集和復(fù)雜計(jì)算任務(wù)，于是在 AI 大模型爆發(fā)的近幾年，GPU 一度成為 AI 訓(xùn)練的算力硬件首選。

然而，隨著 AI 大模型的不斷發(fā)展，計(jì)算任務(wù)在指數(shù)級地日益龐大與復(fù)雜化，這對計(jì)算能力與計(jì)算資源提出了全新的要求，GPU 用于 AI 計(jì)算時(shí)的算力利用率較低、能耗較高的能效比瓶頸，以及英偉達(dá) GPU 產(chǎn)品的價(jià)格高昂和供貨緊張，讓本就是為深度學(xué)習(xí)和機(jī)器學(xué)習(xí)而生的 TPU 架構(gòu)受到更多的關(guān)注。GPU 在這一領(lǐng)域的霸主地位開始面臨挑戰(zhàn)。

據(jù)悉，谷歌早在 2013 年就開始在內(nèi)部研發(fā)專用于 AI 機(jī)器學(xué)習(xí)算法的芯片，直到 2016 年這款自研的名叫 TPU 的芯片才被正式公開。在 2016 年 3 月打敗李世石和 2017 年 5 月打敗柯杰的 AlphaGo，就是使用谷歌的 TPU 系列芯片訓(xùn)練而成。

如果說 TPU 更適合用作 AI 大模型訓(xùn)練，不具體說明它的「本領(lǐng)」恐怕難以令眾人信服。

TPU 如何適合大模型訓(xùn)練？

首先，TPU 具有多維度的計(jì)算單元提高計(jì)算效率。相較于 CPU 中的標(biāo)量計(jì)算單元和 GPU 中的矢量計(jì)算單元，TPU 使用二維乃至更高維度的計(jì)算單元完成計(jì)算任務(wù)，將卷積運(yùn)算循環(huán)展開的方式實(shí)現(xiàn)最大限度的數(shù)據(jù)復(fù)用，降低數(shù)據(jù)傳輸成本，提升加速效率。

其次，TPU 具有更省時(shí)的數(shù)據(jù)傳輸和高效率的控制單元。馮諾依曼架構(gòu)帶來的存儲墻問題在深度學(xué)習(xí)任務(wù)當(dāng)中尤為突出，而 TPU 采用更為激進(jìn)的策略設(shè)計(jì)數(shù)據(jù)傳輸，且控制單元更小，給片上存儲器和運(yùn)算單元留下了更大的空間。

最后，TPU 具有設(shè)計(jì)面向 AI 的加速，強(qiáng)化 AI/ML 計(jì)算能力。定位準(zhǔn)確，架構(gòu)簡單，單線程控制，定制指令集，TPU 架構(gòu)在深度學(xué)習(xí)運(yùn)算方面效率極高，且易于擴(kuò)展，更適合超大規(guī)模的 AI 訓(xùn)練計(jì)算。

據(jù)悉，谷歌 TPUv4 與英偉達(dá) A100 相比的功耗低 1.3-1.9 倍，在 Bert、ResNet 等多類工作模型中，效率高于 A100 1.2- 1.9 倍；同時(shí)其 TPUv5/TPU Trillium 產(chǎn)品相比 TPUv4，能夠進(jìn)一步提升 2 倍/接近 10 倍的計(jì)算性能?？梢钥吹焦雀?TPU 產(chǎn)品相比英偉達(dá)的產(chǎn)品在成本與功耗上存在更多優(yōu)勢。

在今年 5 月的 I / O 2024 開發(fā)者大會上，Alphabet 首席執(zhí)行官桑達(dá)爾·皮查伊（Sundar Pichai）宣布了第六代數(shù)據(jù)中心 AI 芯片 Tensor 處理器單元（TPU）--Trillium，稱該產(chǎn)品的速度幾乎是上一代產(chǎn)品的五倍，并表示將于今年晚些時(shí)候推出交付。

谷歌表示，第六代 Trillium 芯片的計(jì)算性能比 TPU v5e 芯片提高 4.7 倍，能效比 v5e 高出 67%。這款芯片旨在為從大模型中生成文本和其他內(nèi)容的技術(shù)提供動力。谷歌還表示，第六代 Trillium 芯片將在今年年底可供其云客戶使用。

谷歌的工程師通過增加高帶寬內(nèi)存容量和整體帶寬實(shí)現(xiàn)了額外的性能提升。人工智能模型需要大量的高級內(nèi)存，而這一直是進(jìn)一步提高性能的瓶頸。

值得注意的是，谷歌并不會以獨(dú)立產(chǎn)品的形態(tài)單獨(dú)出售自己的 TPU 芯片，而是通過谷歌云平臺（Google Cloud Platform，簡稱 GCP）向外部客戶提供基于 TPU 的算力服務(wù)。

在這一方案上也可窺見谷歌的聰明之處：直接銷售硬件涉及高昂的開銷和復(fù)雜的供應(yīng)鏈管理。而通過云服務(wù)提供 TPU，谷歌可以簡化安裝、部署和管理過程，減少不確定性和額外開銷。這樣的模式也簡化了銷售流程，無需額外建立硬件銷售團(tuán)隊(duì)。另外，谷歌正在與 OpenAI 就生成性 AI 進(jìn)行激烈的競爭，如果谷歌開始銷售 TPU，它將同時(shí)與兩個(gè)強(qiáng)大的對手競爭：英偉達(dá)和 OpenAI，這可能不是目前最明智的策略。

文章說到這里，可能會有人發(fā)問：既然 TPU 具有如此出色的性能優(yōu)勢，是否會在很快的未來取代 GPU？

現(xiàn)在談取代 GPU？或許為時(shí)尚早

這一問題也并沒有這么簡單。

只說 TPU 的優(yōu)勢，不講 GPU 的優(yōu)勢，可謂是一葉障目。接下來我們還要了解一下相比 TPU，GPU 又是如何適用于當(dāng)前的 AI 大模型訓(xùn)練。

我們看到 TPU 的優(yōu)勢在于出眾的能效比與單位成本算力指標(biāo)，然而作為一種 ASIC 芯片，其試錯(cuò)成本高的劣勢也較為明確。

此外，在生態(tài)系統(tǒng)的成熟度方面。GPU 經(jīng)過多年的發(fā)展，擁有龐大且成熟的軟件和開發(fā)工具生態(tài)。眾多的開發(fā)者和研究機(jī)構(gòu)長期基于 GPU 進(jìn)行開發(fā)和優(yōu)化，積累了豐富的庫、框架和算法。而 TPU 的生態(tài)相對較新，可用的資源和工具可能不如 GPU 豐富，這對于開發(fā)者來說可能增加了適配和優(yōu)化的難度。

在通用性方面。GPU 最初是為圖形渲染設(shè)計(jì)，但其架構(gòu)具有較高的靈活性，能夠適應(yīng)多種不同類型的計(jì)算任務(wù)，不僅僅局限于深度學(xué)習(xí)。這使得 GPU 在面對多樣化的應(yīng)用場景時(shí)具有更強(qiáng)的適應(yīng)性。相比之下，TPU 是專為機(jī)器學(xué)習(xí)工作負(fù)載定制設(shè)計(jì)的，對于其他非機(jī)器學(xué)習(xí)相關(guān)的計(jì)算任務(wù)，可能無法像 GPU 那樣有效地處理。

最后，GPU 市場競爭激烈，各廠商不斷推動技術(shù)創(chuàng)新和產(chǎn)品更新，新的架構(gòu)和性能提升較為頻繁。而 TPU 的發(fā)展主要由谷歌主導(dǎo)，其更新和演進(jìn)的節(jié)奏可能相對較慢，

整體來說，英偉達(dá)和谷歌在 AI 芯片上的策略各有側(cè)重：英偉達(dá)通過提供強(qiáng)大的算力和廣泛的開發(fā)者支持，推動 AI 模型的性能極限；而谷歌則通過高效的分布式計(jì)算架構(gòu)，提升大規(guī)模 AI 模型訓(xùn)練的效率。這兩種不同的路徑選擇，使得它們在各自的應(yīng)用領(lǐng)域中都展現(xiàn)出了獨(dú)特的優(yōu)勢。

蘋果選擇谷歌 TPU 的原因可能在于以下幾點(diǎn)：首先，TPU 在處理大規(guī)模分布式訓(xùn)練任務(wù)時(shí)表現(xiàn)出色，提供高效、低延遲的計(jì)算能力；其次，使用 Google Cloud 平臺，蘋果可以降低硬件成本，靈活調(diào)整計(jì)算資源，優(yōu)化 AI 開發(fā)的總體成本。此外，谷歌的 AI 開發(fā)生態(tài)系統(tǒng)還提供了豐富的工具和支持，使得蘋果能夠更高效地開發(fā)和部署其 AI 模型。

蘋果的實(shí)例證明了 TPU 在大模型訓(xùn)練上的能力。但相比于英偉達(dá)，TPU 目前在大模型領(lǐng)域的應(yīng)用依舊還是太少，背后更多的大模型公司，包括 OpenAI、特斯拉、字節(jié)跳動等巨頭，主力 AI 數(shù)據(jù)中心依然是普遍采用英偉達(dá) GPU。

因此，現(xiàn)在就下定義說谷歌的 TPU 可以打敗英偉達(dá)的 GPU 或許為時(shí)尚早，不過 TPU 一定是一個(gè)具有極強(qiáng)挑戰(zhàn)力的選手。

GPU 的挑戰(zhàn)者，不只 TPU

中國也有押注 TPU 芯片的企業(yè)—中昊芯英。中昊芯英創(chuàng)始人楊龔軼凡曾在谷歌作為芯片研發(fā)核心人員，深度參與了谷歌 TPU 2/3/4 的設(shè)計(jì)與研發(fā)，在他看來，TPU 是為 AI 大模型而生的優(yōu)勢架構(gòu)。

2023 年，中昊芯英「剎那」芯片正式誕生?！竸x那」芯片憑借其獨(dú)特的 1024 片芯片高速片間互聯(lián)能力，構(gòu)建了名為「泰則」的大規(guī)模智算集群，其系統(tǒng)集群性能遠(yuǎn)超傳統(tǒng) GPU 數(shù)十倍，為超千億參數(shù) AIGC 大模型的訓(xùn)練與推理提供了前所未有的算力保障。這一成就不僅彰顯了中昊芯英在 AI 算力技術(shù)領(lǐng)域的深厚積累，更為國產(chǎn)芯片在國際舞臺上贏得了寶貴的一席之地。

然而，在如今人工智能淘金熱，但英偉達(dá) H100 芯片供不應(yīng)求、價(jià)格昂貴的背景下，大大小小的企業(yè)都在尋求替代英偉達(dá)的 AI 芯片產(chǎn)品，其中包括走傳統(tǒng) GPU 路線的公司，也包括探尋新型架構(gòu)的企業(yè)。

GPU 面臨的挑戰(zhàn)者，可遠(yuǎn)不止 TPU。

在 GPU 路徑研發(fā)中，英偉達(dá)的勁敵莫過于AMD，今年一月有研究人員在 Frontier 超算集群上，利用其中 8% 左右的 GPU，訓(xùn)練出一個(gè) GPT 3.5 級別規(guī)模的大模型。而 Frontier 超算集群是完全基于 AMD 硬件的，由 37888 個(gè) MI250X GPU 和 9472 個(gè) Epyc 7A53 CPU 組成，這次研究也突破了在 AMD 硬件上突破了先進(jìn)分布式訓(xùn)練模型的難點(diǎn)，為 AMD 平臺訓(xùn)練大模型驗(yàn)證了可行性。

同時(shí)，CUDA 生態(tài)也在逐步擊破，今年 7 月英國公司 Spectral Compute 推出了可以為 AMD GPU 原生編譯 CUDA 源代碼的方案，大幅提高了 AMD GPU 對 CUDA 的兼容效率。

英特爾的 Gaudi 3 也在發(fā)布時(shí)直接對標(biāo)英偉達(dá) H100。今年 4 月，英特爾就推出用于深度學(xué)習(xí)和大型生成式 AI 模型的 Gaudi 3，英特爾稱，對比前代，Gaudi 3 可提供四倍的浮點(diǎn)格式 BF16 AI 計(jì)算能力，內(nèi)存帶寬提升 1.5 倍，服務(wù)于大規(guī)模系統(tǒng)擴(kuò)展的網(wǎng)絡(luò)帶寬提升兩倍。對比英偉達(dá)的芯片 H100，如果應(yīng)用于 7B 和 13B 參數(shù)的 Meta Llama2 模型以及 175B 參數(shù)的 OpenAI GPT-3 模型中，Gaudi 3 預(yù)計(jì)可以讓這些模型的訓(xùn)練時(shí)間平均縮短 50%。

此外，應(yīng)用于 7B 和 70B 參數(shù)的 Llama 以及 180B 參數(shù)的開源 Falcon 模型時(shí)，Gaudi 3 的推理吞吐量預(yù)計(jì)將比 H100 平均高 50%，推理功效平均高 40%。而且，在較長的輸入和輸出序列上，Gaudi 3 有更大的推理性能優(yōu)勢。

應(yīng)用于 7B 和 70B 參數(shù)的 Llama 以及 180B 參數(shù)的 Falcon 模型時(shí)，Gaudi 3 的推理速度相比英偉達(dá) H200 提高 30%。

英特爾稱，Gaudi 3 將在今年第三季度向客戶供應(yīng)，二季度向包括戴爾、HPE、聯(lián)想和 Supermicro 在內(nèi)的 OEM 廠商提供，但并未公布 Gaudi 3 的售價(jià)范圍。

去年 11 月，微軟在 Ignite 技術(shù)大會上發(fā)布了首款自家研發(fā)的 AI 芯片 Azure Maia 100，以及應(yīng)用于云端軟件服務(wù)的芯片 Azure Cobalt。兩款芯片將由臺積電代工，采用 5nm 制程技術(shù)。

據(jù)悉，英偉達(dá)的高端產(chǎn)品一顆有時(shí)可賣到 3 萬到 4 萬美元，用于 ChatGPT 的芯片被認(rèn)為大概就需要有 1 萬顆，這對 AI 公司是個(gè)龐大成本。有大量 AI 芯片需求的科技大廠極力尋求可替代的供應(yīng)來源，微軟選擇自行研發(fā)，便是希望增強(qiáng) ChatGPT 等生成式 AI 產(chǎn)品的性能，同時(shí)降低成本。

Cobalt 是基于 Arm 架構(gòu)的通用型芯片，具有 128 個(gè)核心，Maia 100 是一款專為 Azure 云服務(wù)和 AI 工作負(fù)載設(shè)計(jì)的 ASIC 芯片，用于云端訓(xùn)練和推理的，晶體管數(shù)量達(dá)到 1050 億個(gè)。這兩款芯片將導(dǎo)入微軟 Azure 數(shù)據(jù)中心，支持 OpenAI、Copilot 等服務(wù)。

負(fù)責(zé) Azure 芯片部門的副總裁 Rani Borkar 表示，微軟已開始用 Bing 和 Office AI 產(chǎn)品測試 Maia 100 芯片，微軟主要 AI 合作伙伴、ChatGPT 開發(fā)商 OpenAI，也在進(jìn)行測試中。有市場評論認(rèn)為，微軟 AI 芯片立項(xiàng)的時(shí)機(jī)很巧，正好在微軟、OpenAI 等公司培養(yǎng)的大型語言模型已經(jīng)開始騰飛之際。

不過，微軟并不認(rèn)為自己的 AI 芯片可以廣泛替代英偉達(dá)的產(chǎn)品。有分析認(rèn)為，微軟的這一努力如果成功的話，也有可能幫助它在未來與英偉達(dá)的談判中更具優(yōu)勢。

除了芯片巨頭外，也不乏來自初創(chuàng)公司的沖擊。比如 Groq 推出的 LPU、Cerebras 推出的 Wafer Scale Engine 3、Etched 推出的 Sohu 等等。

當(dāng)下，英偉達(dá)大約掌控著 80% 的人工智能數(shù)據(jù)中心芯片市場，而其余 20% 的大部分則由不同版本的谷歌 TPU 把控。未來，TPU 所占的市場份額會不會持續(xù)上揚(yáng)？會增長幾何？是否會有其他架構(gòu)的 AI 芯片將現(xiàn)有的市場格局一分為三？這些懸念預(yù)計(jì)在接下來的數(shù)年間將逐步揭曉。