首披露Intel 18A！英特爾數(shù)據(jù)中心CPU路線圖揭曉：144核至強(qiáng)近了

發(fā)布人：芯東西時間：2023-04-03 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

英特爾：已解決工藝技術(shù)根本問題，正實現(xiàn)所有的關(guān)鍵工程里程碑。

作者 | ZeR0
編輯 | 漠影
芯東西3月30日報道，今日，英特爾數(shù)據(jù)中心業(yè)務(wù)顯露出東山再起的氣勢，大膽更新其至強(qiáng)路線圖，并透露將更快轉(zhuǎn)向Intel 18A工藝節(jié)點。連帶著英特爾股價收漲7.6%，創(chuàng)去年11月以來其最大單日漲幅。在英特爾數(shù)據(jù)中心和人工智能事業(yè)部投資者網(wǎng)絡(luò)研討會上，英特爾稱其首款面向數(shù)據(jù)中心的高能效至強(qiáng)Sierra Forest已開始向客戶送樣，將于明年上半年交付；該芯片有144個核心，核心密度比128核AMD EPYC Bergamo芯片更高。第五代至強(qiáng)處理器Emerald Rapids有望在今年第四季度交付?？蛻粽跍y試的下一代Granite Rapids將在Sierra Forest發(fā)布后于明年交付。

▲2023-2025年英特爾至強(qiáng)路線圖

同時可以看到，英特爾至強(qiáng)路線圖增加了一個新成員——第二代高能效至強(qiáng)Clearwater Forest。該芯片預(yù)計在2025年上市，將采用Intel 18A。這個跳過Intel 20A、直接用上Intel 18A的決定，傳遞出英特爾對其未來節(jié)點順利推進(jìn)的信心。英特爾還展示了第四代英特爾至強(qiáng)可擴(kuò)展處理器與第四代AMD EPYC處理器的AI基準(zhǔn)測試表現(xiàn)對比，同為48核的兩個芯片交鋒中，至強(qiáng)展現(xiàn)出接近4倍的性能優(yōu)勢。

此前，英特爾第四代至強(qiáng)Sapphire Rapids曾面臨延期問題。另據(jù)知名市研機(jī)構(gòu)IDC計算，英特爾仍主導(dǎo)個人電腦（PC）和服務(wù)器芯片市場，市場份額超過70%，但較2017年的90%以上有所下降。而在今日，英特爾執(zhí)行副總裁Sandra Rivera宣布英特爾“路線圖正在走上正軌”，并稱Granite Rapids正在實現(xiàn)“所有的關(guān)鍵工程里程碑”。英特爾也在致力于構(gòu)建英特爾開發(fā)者云，其中包含256顆至強(qiáng)芯片和512顆AI訓(xùn)練芯片Gaudi，可供AI開發(fā)者訓(xùn)練和運(yùn)行新模型。Hugging Face和Stability AI等明星AI創(chuàng)企均在采用英特爾芯片。

01.英特爾數(shù)據(jù)中心路線圖更新：兩大路線、五個新品、挺進(jìn)Intel 18A工藝

英特爾的數(shù)據(jù)中心路線圖分為兩條線：P-Core和E-Core。P-Core性能核，專為實現(xiàn)最高的每核性能和AI工作負(fù)載性能而設(shè)計；E-Core能效核專為高能效、高核心密度和高吞吐量而設(shè)計。

外媒Tom’s Hardware對比了英特爾和AMD的數(shù)據(jù)中心路線圖，AMD去年推出的EPYC Genoa和今年年初推出的英特爾Sapphire Rapids將展開高性能之戰(zhàn)。

▲2023-2025年英特爾與AMD高性能、高能效數(shù)據(jù)中心CPU對比（圖源：Tom’s Hardware）

在Sapphire Rapids推出后幾個月，英特爾將于今年第四季度推出其配備更多內(nèi)核和更快時鐘速率的第五代至強(qiáng)Emerald Rapids，將提供比前代更多的核心，實現(xiàn)更高的性能和能效。AMD的5nm Genoa-X定于今年晚些時候發(fā)布。明年，英特爾Granite Rapids將與AMD的Turin展開較量。高能效產(chǎn)品方面，AMD的Bergamo將在今年上市，英特爾Sierra Forrest要到2024年上半年才會推出。AMD尚未透露它的第二代E-Core產(chǎn)品何時交付，而英特爾已經(jīng)在其路線圖中公布了Clearwater Forest。

英特爾的E-Core高能效路線圖從擁有144核的下一代至強(qiáng)Sierra Forest開始。這是Intel 3工藝節(jié)點的主要載體，目前進(jìn)展順利，已向客戶提供樣品。英特爾稱該芯片已通電，并在不到18小時內(nèi)啟動了操作系統(tǒng)。

Sierra Forest將在單個雙路服務(wù)器中提供256個核心。其單顆芯片的144個核心數(shù)超過了AMD EPYC Bergamo的128個核心數(shù)，但在線程數(shù)方面可能并不領(lǐng)先。

▲英特爾演示了Sierra Forest所有144個核心的運(yùn)行情況

英特爾面向消費(fèi)市場的E-Core是單線程的，但尚未透露數(shù)據(jù)中心的高能效核是否支持超線程。而AMD稱128核Bergamo是超線程的，因此每個插槽總共提供256個線程。英特爾的E-core不支持其P-Core支持的一些指令集架構(gòu)（ISA），通過省掉AVX-512和AMX來確保最大密度。AMD Bergamo Zen 4c（“c”表示專為云原生工作負(fù)載而設(shè)計）核心則具有與其標(biāo)準(zhǔn)Zen 4核心相同的功能。緊隨Sierra Forest之后，Granite Rapids將于2024年交付，已向客戶送樣。這是采用Intel 3工藝的第一個P-Core至強(qiáng)，將擁有比Emerald Rapids更多的內(nèi)核、來自DDR5-8800內(nèi)存的更高內(nèi)存帶寬及I/O創(chuàng)新。

值得注意的是，第一個搭配E-Core的系列Sierra Forest將與搭配P-Core的Granite Rapids插槽兼容，兩者甚至共享相同的BIOS和軟件。英特爾通過將這些芯片轉(zhuǎn)移到基于塊的設(shè)計來實現(xiàn)，有點像AMD EPYC處理器的設(shè)計思路，中央I/O塊處理內(nèi)存和其他連接功能，將核心和非核心功能分開。這樣就能用相同系統(tǒng)將更多將更多線程heft與E-Core打包，且TDP范圍與P-Core樣品相同。英特爾演示了雙路Granite Rapids。它可提供1.5TB/s DDR5內(nèi)存帶寬，據(jù)稱比現(xiàn)有服務(wù)器內(nèi)存提高了80%的峰值帶寬。Granite Rapids提供的吞吐量高于英偉達(dá)960GB/s Grace CPU超級芯片，也高于理論峰值920GB/s的AMD雙路Genoa。這一提升得益于英特爾研發(fā)的新型帶寬優(yōu)化內(nèi)存DDR5-8800多路復(fù)用器組合列（MCR）DRAM。

▲英特爾展示了Granite Rapids在雙路服務(wù)器中提供1.5TB/s帶寬

英特爾還首次公布了Clearwater Forest，預(yù)計在2025年發(fā)布，將是首款采用Intel 18A工藝節(jié)點的至強(qiáng)芯片。為了重奪先進(jìn)芯片制造的技術(shù)領(lǐng)導(dǎo)地位，英特爾計劃四年交付5個節(jié)點，其產(chǎn)品在2024年可選用Intel 20A和Intel 18A節(jié)點。Intel 20A和Intel 18A節(jié)點分別是英特爾的第一代、第二代“Angstrom”節(jié)點。Intel 18A工藝將比Intel 20A的每瓦性能提高10%，基本上用上了所有芯片制程工藝的前沿技術(shù)。
02.下一代AI訓(xùn)練芯片“taped in”更新GPU路線圖

除了至強(qiáng)外，英特爾也公布了其面向數(shù)據(jù)中心和AI領(lǐng)域的其他產(chǎn)品更新。英特爾計劃在今年推出15款新FPGA，這將創(chuàng)下其FPGA部分的記錄。其AI訓(xùn)練芯片Habana Gaudi2正在出貨，Gaudi3已經(jīng)“taped in”。

英特爾還透露其Artic Sound和Ponte Vecchio GPU正在出貨。英特爾最近更新了其GPU路線圖，取消了即將推出的Rialto Bridge系列數(shù)據(jù)中心Max GPU，并將數(shù)據(jù)中心GPU版本的發(fā)布周期改為兩年。其下一款數(shù)據(jù)中心GPU產(chǎn)品將以基于Chiplet的混合芯片Falcon Shores的形式出現(xiàn)，預(yù)計到2025年才會交付。英特爾還降低了對Falcon Shores的期望，稱它們將只支持GPU架構(gòu)，不包括最初計劃的CPU核心選項。英特爾也分析了AI加速器的機(jī)會，預(yù)測通用計算將占大約60%的工作負(fù)載，涉及中小型AI模型，主要在CPU上運(yùn)行。包括大模型（超過1000億個參數(shù)）在內(nèi)的加速計算將占大約40%的工作負(fù)載，在GPU和其他定制加速器上運(yùn)行。

英特爾致力于為AI構(gòu)建一個統(tǒng)一的軟件生態(tài)系統(tǒng)，包括采用端到端的方法，在軟件棧的每個點都包含芯片、軟件、安全性、機(jī)密性和信任機(jī)制。

BLOOMZ模型是一款基于Transformer的多語言大型語言模型，最大1760億個參數(shù)的BLOOMZ模型性能優(yōu)于類似大小的GPT-3模型。頂級機(jī)器學(xué)習(xí)開源庫Hugging Face發(fā)布的結(jié)果顯示，在跑有70億個參數(shù)的BLOOMZ模型時，第一代Gaudi性價比優(yōu)勢明顯；Gaudi2對1760億個參數(shù)的BLOOMZ模型進(jìn)行推理，速度比英偉達(dá)A100快20%。

▲Gaudi2、A100-80GB、第一代Gaudi跑BLOOMZ模型表現(xiàn)對比（圖源：Hugging Face）

此外，Hugging Face亦介紹了Stability AI的AI文生圖模型Stable Diffusion。在不更改任何代碼的情況下，Stable Diffusion在內(nèi)置英特爾高級矩陣擴(kuò)展（英特爾AMX）的第四代英特爾至強(qiáng)可擴(kuò)展處理器上平均運(yùn)行速度提高了3.8倍。Stability AI創(chuàng)始人兼首席執(zhí)行官Emad Mostaque說，Stable Diffusion模型已能高效運(yùn)行在英特爾的異構(gòu)產(chǎn)品上，從第四代Sapphire Rapids CPU到像Gaudi這樣的加速器，是實現(xiàn)AI民主化的一個絕佳合作伙伴，期待在下一代語言、視頻和代碼模型等方面與英特爾合作。OpenVINO進(jìn)一步加速了Stable Diffusion推理。結(jié)合使用第四代至強(qiáng)CPU，速度幾乎比第三代英特爾至強(qiáng)可擴(kuò)展CPU提高了2.7倍。Optimum Intel是OpenVINO支持的一個用于加速英特爾架構(gòu)上的端到端管道的工具，它將平均延遲再降低為之前的1/3.5，總共降低到原來的近1/10。

03.結(jié)語：進(jìn)入AI新時代能效成推動生產(chǎn)力的關(guān)鍵

英特爾幾年前就開始轉(zhuǎn)向“以數(shù)據(jù)為中心”的戰(zhàn)略。如今隨著ChatGPT爆火，以大型語言模型（LLM）為代表的先進(jìn)AI技術(shù)進(jìn)入公眾視野，這類模型所需的數(shù)據(jù)量和計算量，亦使性能、成本和能效成為眾多企業(yè)關(guān)注的焦點，其中能效尤其是推動生產(chǎn)力的關(guān)鍵因素。這證明了英特爾賭注的前瞻性。AI算法迭代如此之快，CPU憑借極強(qiáng)的通用性至今仍是運(yùn)行AI推理工作負(fù)載的主力。英特爾正通過至強(qiáng)P-Core和E-Core雙路并行的策略，為前景可觀的AI市場做好準(zhǔn)備。但挑戰(zhàn)也是前所未有的，英特爾面臨著愈發(fā)強(qiáng)勁的競爭對手。憑借高能效橫掃移動芯片市場的Arm架構(gòu)，如今正在數(shù)據(jù)中心快速擴(kuò)張其生態(tài)系統(tǒng)，并成為越來越多云計算巨頭和芯片初創(chuàng)公司的“座上賓”。應(yīng)對接踵而至的壓力，英特爾和AMD都更加注重優(yōu)化芯片的能效和核心密度。這一背景下，將采用Intel 18A工藝的Clearwater Forest相當(dāng)令人期待，可能在2025年展開新一輪有趣的競爭。英特爾顯然不愿將其在數(shù)據(jù)中心的領(lǐng)先優(yōu)勢拱手讓人，正試圖通過奪回技術(shù)領(lǐng)先地位來扭轉(zhuǎn)近年來服務(wù)器市場份額的損失。如今，它聲稱已經(jīng)解決了其工藝節(jié)點技術(shù)中的根本問題，并改進(jìn)了其芯片設(shè)計方法，以防止其下一代產(chǎn)品的延遲。結(jié)合近兩次路線圖來看，英特爾正按照計劃穩(wěn)步推進(jìn)其至強(qiáng)系列的研發(fā)與交付，并加速Intel 18A工藝節(jié)點進(jìn)入產(chǎn)品，為英特爾贏得更大優(yōu)勢。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

首披露Intel 18A！英特爾數(shù)據(jù)中心CPU路線圖揭曉：144核至強(qiáng)近了

相關(guān)推薦

技術(shù)專區(qū)