詳解英特爾144核Sierra Forest、Granite Rapids架構(gòu)和至強(qiáng)路線圖
在 Hot Chips 2023 上,英特爾首次公布了其未來(lái) 144 核至強(qiáng) Sierra Forest 和 Granite Rapids 處理器的詳細(xì)信息,前者由英特爾的新 Sierra Glen e 核組成,而后者采用了新的 Redwood Cove p 核。即將推出的下一代至強(qiáng)芯片將于明年上半年推出,采用全新的平鋪式架構(gòu),在「Intel 7」工藝上采用雙 I/O 小芯片,并在「Intel 3」工藝上蝕刻不同配置的計(jì)算核心。這種設(shè)計(jì)使英特爾能夠在保持相同底層配置的同時(shí),基于不同類型的核心制作多種產(chǎn)品。
本文引用地址:http://butianyuan.cn/article/202308/450086.htmSierra Forest 和 Granite Rapids 加入了 Birch Stream 平臺(tái),具有插座、內(nèi)存、固件和 I/O 兼容性,提供了簡(jiǎn)化的硬件驗(yàn)證過(guò)程。它們還可以與相同的軟件堆棧進(jìn)行互操作,從而允許客戶根據(jù)自己的需要使用任意一種芯片。
英特爾聲稱,下一代至強(qiáng) Sierra Forest 基于 e- core 的設(shè)計(jì)將比其第四代至強(qiáng)芯片提供高達(dá) 2.5 倍的機(jī)架密度和 2.4 倍的每瓦性能,而 P-Core 驅(qū)動(dòng)的 Granite Rapids 將在混合人工智能工作負(fù)載下提供 2 到 3 倍的性能,部分原因是內(nèi)存帶寬高達(dá) 2.8 倍。本文一起深入了解一下。
Sierra Forest 和 Granite Rapids 架構(gòu)
英特爾最初在其第四代 Xeon Sapphire Rapids 處理器上采用了基于磁片 (芯片式) 的架構(gòu),但 Sierra Forest 和 Granite Rapids 將這種方法推向了一個(gè)新的高度。
英特爾采用了 Sapphire Rapids 的四芯片設(shè)計(jì),每個(gè)芯片包含一部分相關(guān)的 I/O 功能,如內(nèi)存和 PCIe 控制器。新處理器將一些 I/O 功能完全分解為兩個(gè)獨(dú)立的 hio 芯片,這些芯片蝕刻在 Intel 7 進(jìn)程上,這為 I/O 提供了成本、功率和性能的最佳平衡,而 CPU 核心和內(nèi)存控制器則駐留在它們自己的專用計(jì)算芯片上。
兩個(gè) HSIO 芯片放置在芯片封裝的頂部和底部,中間有一到三個(gè)計(jì)算芯片,所有芯片都與基片內(nèi)融合的 EMIB(嵌入式多?;ミB橋) 互連連接在一起,并連接到橋的每一端的模對(duì)?;ミB。
計(jì)算模塊將為 Granite Rapids 使用 Redwood Cove p 核 (Performance 核),或?yàn)?Sierra Forest 使用 Sierra Glen e 核——英特爾不會(huì)在同一包中提供兩種核的模型。計(jì)算芯片配備了支持 euv 的 Intel 3 進(jìn)程,該進(jìn)程具有 Intel 4 進(jìn)程不包含的高密度庫(kù)。英特爾最初將 Granite Rapids xeon 從 2023 年推遲到 2024 年,原因是將設(shè)計(jì)從「Intel 4」改為「Intel 3」,但這些芯片仍按計(jì)劃將在 2024 年上半年推出。
Granite Rapids 是一個(gè)傳統(tǒng)的 Xeon 數(shù)據(jù)中心處理器。這些型號(hào)僅配備 P 核,可以提供英特爾最快架構(gòu)的全部性能。每個(gè) P 核均配有 2MB 的 L2 緩存和 4MB 的 L3。英特爾尚未透露 Granite Rapids 的核心數(shù)量,但透露該平臺(tái)在單個(gè)服務(wù)器中支持一到八個(gè)插槽。
與此同時(shí),Sierra Forest 的 E-core(效率核心) 陣容由只有較小效率核心的芯片組成,就像我們?cè)谟⑻貭柕?Alder 和 Raptor Lake 芯片中看到的那樣,這使它們能夠很好地與在數(shù)據(jù)中心日益流行的 Arm 處理器競(jìng)爭(zhēng)。e 核被安排在兩核或四核集群中,這些集群共享 4MB 的 L2 緩存片和 3MB 的 L3 緩存。配備 e- core 的處理器擁有多達(dá) 144 個(gè)內(nèi)核,并針對(duì)最高的功率效率、面積效率和性能密度進(jìn)行了優(yōu)化。對(duì)于高核數(shù)模型,每個(gè) e 核計(jì)算芯片擁有 48 個(gè)核。Sierra Forest 可以插入單插座和雙插座系統(tǒng),TDP 低至 200W。
無(wú)論內(nèi)核類型如何,每個(gè)計(jì)算模塊都包含內(nèi)核、L2 和 L3 緩存以及 fabric 和緩存主代理 (CHA)。它們還在芯片的兩端安裝了 DDR5-6400 內(nèi)存控制器,總共有多達(dá) 12 個(gè)通道 (1DPC 或 2DPC) 的標(biāo)準(zhǔn) DDR 內(nèi)存,或提供比標(biāo)準(zhǔn) dimm 多 30-40% 內(nèi)存帶寬的新 MCR 內(nèi)存。
正如您在上面看到的那樣,計(jì)算芯片將根據(jù)模型有不同的尺寸,單計(jì)算芯片產(chǎn)品將帶有更大的計(jì)算集群。英特爾還將改變每個(gè)計(jì)算芯片的內(nèi)存通道數(shù)量——這里我們看到一個(gè)計(jì)算芯片上有三個(gè)內(nèi)存控制器,而兩個(gè)或更多計(jì)算芯片的設(shè)計(jì)每個(gè)有兩個(gè)內(nèi)存控制器。英特爾決定將其內(nèi)存控制器緊密集成到計(jì)算芯片中,與 AMD 的 EPYC 設(shè)計(jì)相比,在某些工作負(fù)載下,英特爾的內(nèi)存性能應(yīng)該會(huì)更好。AMD 的 EPYC 設(shè)計(jì)在一個(gè)中央 I/O 芯片上使用了所有內(nèi)存控制器,從而增加了延遲。
計(jì)算模塊與所有其他內(nèi)核共享 L3 緩存,英特爾將其稱為「邏輯單片網(wǎng)格」,但它們也可以劃分為 sub-NUMA 集群,以優(yōu)化某些工作負(fù)載的延遲。網(wǎng)格將 L3 緩存片連接在一起,形成一個(gè)統(tǒng)一的共享緩存,總?cè)萘砍^(guò) 0.5 gb,幾乎是 Sapphire Rapids 的 5 倍。每個(gè)模具邊界支持超過(guò) TB/s 的帶寬之間的模具。
結(jié)合起來(lái),兩個(gè) HSIO 芯片支持多達(dá) 136 個(gè) PCIe 5.0/CXL 2.0 通道 (類型 1,2 和 3 設(shè)備),多達(dá) 6 個(gè) UPI 鏈路 (144 通道),以及類似于 Sapphire Rapids 加速引擎的壓縮,加密和數(shù)據(jù)流加速器。每個(gè) HSIO 芯片還包括管理計(jì)算芯片的電源控制電路,盡管每個(gè)計(jì)算芯片也有自己的電源控制,可以在需要時(shí)獨(dú)立運(yùn)行。英特爾現(xiàn)在已經(jīng)取消了對(duì)芯片組 (PCH) 的要求,從而允許處理器自動(dòng)啟動(dòng),就像 AMD 的 EPYC 處理器一樣。
英特爾 Sierra Glen E-Core 微架構(gòu)
Sierra Glen 微架構(gòu)針對(duì)標(biāo)量吞吐量工作負(fù)載 (如橫向擴(kuò)展、云原生和容器化環(huán)境) 的最佳效率進(jìn)行了優(yōu)化。該架構(gòu)具有兩核或四核集群,允許英特爾提供具有更高每核二級(jí)緩存容量和更高每核性能的某些型號(hào) (通過(guò)雙核模塊更高的功率傳輸)。每個(gè)核心集群駐留在相同的時(shí)鐘和電壓域中。E-core 集群共享 4MB 的 L2 緩存片和 3MB 的共享 L3 緩存。
與前幾代一樣,每個(gè) E-core 都是單線程的。英特爾還將 L1 緩存增加了一倍,達(dá)到 64KB,并采用了一個(gè) 6 寬解碼引擎 (雙 3 寬解碼引擎可以改善延遲和功耗)、5 寬分配和 8-wide retire。Sierra Glen 內(nèi)核不支持 AMX 或 AVX-512,而是依賴于 AVX10,但英特爾確實(shí)增加了對(duì) BF16, FP16, AVX-IFMA 和 AVX-DOT-PROD-INT8 的支持。
英特爾 Redwood Cove P 核微架構(gòu)
P 核的 Redwood Cove 架構(gòu)現(xiàn)在支持帶有 FP16 加速的 AMX,這是一個(gè)關(guān)鍵的補(bǔ)充,將提高 AI 推理工作負(fù)載的性能。英特爾還將 L1 指令緩存容量增加了一倍,達(dá)到 64 KB,以更好地處理代碼繁重的數(shù)據(jù)中心工作負(fù)載。Redwood Cove 還采用了軟件優(yōu)化的預(yù)取和增強(qiáng)的分支預(yù)測(cè)引擎和錯(cuò)誤恢復(fù)。英特爾還提高了浮點(diǎn)運(yùn)算的性能,從 4 周期和 5 周期的 FP 操作提高到 3 周期,從而提高了 IPC。
英特爾至強(qiáng)路線圖
對(duì)于英特爾來(lái)說(shuō),好消息是,該公司的數(shù)據(jù)中心路線圖仍在正軌上。Sierra Forest 將于 2024 年上半年上市,Granite Rapids 緊隨其后。
在這里,我們可以看到英特爾的路線圖與 AMD 的數(shù)據(jù)中心路線圖的對(duì)比。目前,AMD 去年推出的 EPYC Genoa 和英特爾今年年初推出的 Sapphire Rapids 之間的高性能之戰(zhàn)正在激烈進(jìn)行。英特爾將在今年第四季度推出 Emerald Rapids 新一代產(chǎn)品,該公司表示,這一代產(chǎn)品將配備更多內(nèi)核和更快的時(shí)鐘速率,并且已經(jīng)發(fā)布了內(nèi)置 hbm 的 Xeon Max cpu。AMD 最近發(fā)布了其 5nm EPYC Genoa 產(chǎn)品。明年,英特爾的下一代「Granite Rapids」將與 AMD 的「Turin」展開競(jìng)爭(zhēng)。
在效率方面,AMD 的 Bergamo 采用了與 Sierra Forest 非常相似的重核方法,利用了 AMD 密集的 Zen 4c 內(nèi)核。Bergamo 已經(jīng)上市,而英特爾的 Sierra Forrest 要到 2024 年上半年才會(huì)上市。AMD 的第五代 EPYC Turin 芯片將于 2024 年底前推出,但該公司尚未公布其第二代 Zen 4c 芯片。英特爾現(xiàn)在已經(jīng)將其第二代 e 核驅(qū)動(dòng)的 Clearwater Forest 列入了 2025 年的路線圖。
評(píng)論