AMD即將帶來更多驚喜
去年 11 月,AMD 展示了其最新的主流數(shù)據(jù)中心芯片后,Epyc 處理器設(shè)計師有望將其用在即將推出的云、人工智能和高性能計算的專用組件上。
本文引用地址:http://butianyuan.cn/article/202306/447315.htm6 月 13 日,AMD 公司 CEO Lisa Su 將向業(yè)界展示更多技術(shù)和產(chǎn)品,我們先在這里做一些「劇透」。
AMD 將向數(shù)據(jù)中心推送 APU
考慮到最近圍繞生成 AI 的所有炒作,讓我們從 AMD 的加速處理單元 (APU) Instinct MI300A 開始。
APU 一直是 AMD PC 和嵌入式電子產(chǎn)品陣容的支柱:它們具有帶內(nèi)置圖形處理器的 CPU 集群,可以處理計算和并行處理工作負載的組合。
與個人計算不同,MI300A 將有一個截然不同的關(guān)鍵點:AI/ML 和高性能計算。事實上,我們現(xiàn)在知道該芯片將成為美國勞倫斯利弗莫爾國家實驗室即將推出的 El Capitan 超級計算機的大腦。
MI300A 也不同于迄今為止從 AMD 看到的任何 APU,除了一個,早在 2017 年,英特爾和 AMD 就聯(lián)手將英特爾 CPU 芯片與 AMD Radeon GPU 和 HBM2 內(nèi)存配對。MI300A 將遵循類似的模式,但它將使用 AMD 的 Zen 系列內(nèi)核,而不是英特爾 CPU 內(nèi)核,并提供更多的 GPU 性能。
到目前為止,AMD 一直守口如瓶,但有內(nèi)部人士透露,MI300A 將配備 24 個 Zen 4 內(nèi)核、128GB HBM3 內(nèi)存,從渲染圖來看似乎是 6 個 CDNA GPU 芯片。
奇怪的是,看起來 AMD 可能沒有使用去年 Epyc 4 Genoa 系列中發(fā)現(xiàn)的 Chiplet(小芯片)架構(gòu)。MI300A 渲染圖似乎顯示了兩個核心復(fù)合芯片 (CCD)——AMD 稱之為 CPU 小芯片。從這張圖片來看,AMD 實際上可能使用兩個 16 核 CCD,就像我們期望在 Bergamo 上找到的那樣,而不是兩個 12 核 CCD。雙 16 核 CCD 的內(nèi)核太多,但 AMD 禁用其 CCD 上的內(nèi)核的情況并不少見。
如果事實確實如此,AMD 這樣做可能是為了在給定的功率預(yù)算下保持更高的核心時鐘頻率。
AMD 透露,與支持 1.1 exaFLOPS Frontier 超級計算機的 MI250X 相比,該芯片的人工智能性能將提高 8 倍,每瓦性能提高 5 倍。這種提升的很大一部分可能來自這次增加的 FP8 支持。較低的精度通常會以降低準確性為代價,在 AI 工作負載中呈現(xiàn)更高的整體性能。
考慮到單個 Epyc 4 消耗 400W 以上的功率,而 MI250X 的功率預(yù)算約為 600W,可以肯定地假設(shè) MI300A 在功率方面不會節(jié)儉。我們在 The Next Platform 的同事在這次深入研究中估計,該芯片將在 850W 的功率預(yù)算下提供大約 3 petaFLOPS 的 FP8 性能。這將使該芯片比 Nvidia 的 Grace-Hopper 超級芯片更省電,但性能有所降低。
MI300A 預(yù)計只是使用該名稱的幾個 SKU 之一,我們希望有一個只有 GPU 的配置。查看封裝渲染圖,一旦 CCD 和 I/O 芯片被剝離,看起來 AMD 確實可以在那里安裝額外的兩個 GPU 芯片。
至于插座選項,MI300A 看起來將支持至少 4 個插座配置。從我們對 El Capitan 的了解來看,似乎每個節(jié)點都將配備 4 個 APU。
從市場的角度來看,沒有其他人擁有像它這樣的芯片。英特爾的 Falcon Shores XPU 本應(yīng)具有類似的 CPU+GPU 配置,但該項目被取消以支持普通 GPU。這使得 Nvidia 的 Grace-Hopper 超級芯片成為 AMD 的主要競爭對手。
話雖如此,他們是非常不同的「野獸」,MI300A 正在塑造成為一個合適的 APU,具有直接的芯片到芯片通信和共享內(nèi)存池。Grace-Hopper 的不同之處在于它使用 Nvidia 的 NVLink-C2C 互連將 72 核 Arm 兼容 CPU 處理器與 96GB H100 GPU 粘合在一起。
AMD 將用自己的以云為中心的 CPU 挑戰(zhàn) Ampere
自 2017 年推出首款 Epyc 處理器以來,這些芯片已被云提供商穩(wěn)步采用,將核心密度置于單個核心性能之上。
多年來,我們看到 AMD 的芯片從 32 核增加到 64 核,最近又增加到 96 核。然而,從 2020 年開始,競爭對手出現(xiàn)了,承諾更高的核心數(shù)。Ampere 的 Arm 兼容 Altra 處理器提供了 80 個內(nèi)核,最終提供了 128 個內(nèi)核和 192 個內(nèi)核,目標客戶是云提供商。
算法相當(dāng)簡單,更多的 CPU 內(nèi)核意味著客戶可以輕松地將更多的 VM 和容器裝入一個盒子中。為了應(yīng)對這一新興市場領(lǐng)域,AMD 透露它正在開發(fā)自己的核心優(yōu)化芯片。在 2021 年底的加速數(shù)據(jù)中心活動中,AMD 展示了一款名為 Bergamo 的 128 核處理器,該處理器專為云原生工作負載而設(shè)計。
我們預(yù)計這款最初計劃于今年年初推出的芯片將成為 AMD 在 6 月活動中發(fā)布的重要產(chǎn)品之一。
Bergamo 將推出一種名為 Zen 4c 的 AMD Zen 4 內(nèi)核的新變體。我們還知道 Bergamo 將采用與 Epyc 4 Genoa 不同的核心配置。據(jù)我們了解,Bergamo 將采用 8 個 16 核 CCD 來實現(xiàn)其 128 核目標,而不是 12 個 8 核 CCD。
這種更密集的核心排列告訴我們,與在 Genoa 系列發(fā)現(xiàn)的 Zen 4 核心相比,Zen 4c 核心可能會被削減。如果猜測的話,AMD 可能正在縮小已經(jīng)很大的 L3 緩存——每個 CCD 在 Genoa 上有 32MB——為額外的內(nèi)核騰出空間。盡管這是一個猜測,但 AMD 可能已經(jīng)為云客戶剝離了低效用的附加功能。
我們也不太了解芯片的新 Zen 4c 內(nèi)核可以期待什么樣的性能,但我們可以做出一些有根據(jù)的猜測。如果 AMD 效仿 Ampere 的例子,我們可以期望 Bergamo 優(yōu)先考慮一致的時鐘速度而不是提升頻率。換句話說,相對較高的基本時鐘,但就升壓時鐘而言并不多。
我們還懷疑 AMD 將保持與我們在 Epyc 4 中看到的類似的芯片熱設(shè)計功率 (TDP) 目標,將其置于 360W-400W 范圍內(nèi)。由于芯片的核心數(shù)量更多,僅此一項就需要比以前的 Epyc 部件更保守的頻率縮放。
Bergamo 與 Ampere 的云原生芯片的不同之處之一是支持同步多線程。單個 Bergamo 芯片將擁有 128 個內(nèi)核和 256 個線程。除了多線程之外,值得記住的是這些 AMD 核心仍然是 x86-64。這意味著如果您的應(yīng)用程序今天在 Epyc 或 Xeon 上運行,它應(yīng)該可以毫無問題地在 Bergamo 上運行。
盡管 Arm 付出了相當(dāng)大的努力來驗證在其指令集上運行的系統(tǒng)和云實例,但 Ampere Altra 或 AWS 的 Graviton 并不總是如此。將工作負載遷移到這些芯片并不總是必然的。
盡管如此,AMD 在這方面不會有先發(fā)優(yōu)勢,過去幾年,云優(yōu)化芯片市場變得相當(dāng)火爆,Bergamo 不僅要與 Ampere 最新一代的 Arm CPU 抗衡,而且不久之后還要與英特爾的核心優(yōu)化部件抗衡。
Ampere 最近展示了其 AmpereOne 系列芯片,該系列芯片最高可達 192 個內(nèi)核,與此同時,英特爾已承諾在 2024 上半年推出名為 Sierra Forest 的 144 核至強處理器。因此,盡管 AMD 可能會在市場上擊敗英特爾,但它不會在核心方面領(lǐng)先于其長期競爭對手。
Genoa-X
Bergamo 并不是我們期望在 AMD 的 6 月活動中看到的唯一芯片,預(yù)計該公司還將推出代號為 Genoa-X 的第二代處理器。
這些芯片專為各種技術(shù)計算應(yīng)用而設(shè)計,例如計算流體動力學(xué)、數(shù)據(jù)庫和其它帶寬密集型工作負載。
隨著 Milan-X 的發(fā)布,這些芯片于 2021 年推出,采用先進的封裝技術(shù),可在芯片的 CCD 上疊加額外的 SRAM。使用這種方法,AMD 能夠在每個芯片上封裝額外的 64MB 的 L3 緩存,從而在其頂級芯片上總共包含 768MB 的 L3。
正如去年 6 月報道的那樣,Genoa-X 會將每個插槽的 L3 容量提高到 1GB 以上。這是有道理的,因為 Genoa 比 Milan 系列多了 4 個 CCD,但這也表明 AMD 這次沒有做任何特別的事情。
在 AMD 的 96 核 Genoa-X 芯片上,每個 CCD 有 96MB L3 和 12 個 CCD,因此每個插槽有 1152MB L3 緩存。
然而,正如網(wǎng)站 The Next Platform 所發(fā)現(xiàn)的那樣,與這些芯片相關(guān)的更高價格并不總是與其性能相匹配。盡管如此,AMD 之前已經(jīng)在某些工作負載中展示了顯著的性能提升,例如 Synopsys 的 VCS 測試。
更多精彩即將到來
AMD 的 6 月活動即將成為一場盛宴,值得注意的是,今年至少還有一個 CPU 發(fā)布:Siena。
雖然我們對 Siena 了解不多,但 AMD 表示該產(chǎn)品面向邊緣和電信市場,優(yōu)先考慮每瓦性能,并將配備多達 64 個內(nèi)核。
正如之前報道的那樣,英特爾對邊緣市場擁有巨大的影響力,其中絕大多數(shù)「邊緣」系統(tǒng)都運行 Xeon 處理器。然而,我們必須等到 2023 下半年才能看到 AMD 在該領(lǐng)域的競爭者到底有多引人注目。
評論