英特爾的Emerald Rapids Xeon SP處理器在性能上略有提升,成本略微降低
隨著每一代Intel Xeon SP服務(wù)器處理器的推出,我們不禁想到同樣的事情:如果這款芯片一年前或兩年前就發(fā)布了,對于Intel和客戶來說都會更好,而且肯定是計(jì)劃中的。
今天發(fā)布的新型“Emerald Rapids”處理器是Xeon SP系列的第五代,確實(shí)是Intel迄今為止推出的最優(yōu)秀的服務(wù)器CPU,但它將面臨來自AMD的Epyc系列以及一些由超大規(guī)模計(jì)算和云服務(wù)提供商制造的本土Arm服務(wù)器CPU的激烈競爭。更不用說Arm服務(wù)器CPU新秀Ampere Computing。
過去幾年一直如此,Intel將在Emerald Rapids芯片上贏得供應(yīng)份額,但這將發(fā)生在一個(gè)除了在人工智能系統(tǒng)上的熱衷支出之外,服務(wù)器市場已經(jīng)衰退了兩三個(gè)季度的市場中,這是個(gè)不好的時(shí)機(jī)。但這不僅僅對Intel來說是不好的時(shí)機(jī),正如《可汗的憤怒》中的斯波克先生所說的那樣,這也是“給鵝的調(diào)味品”,因?yàn)闄C(jī)會是平等的。AMD同樣遭受著服務(wù)器CPU衰退的打擊,所有下游服務(wù)器制造商也都在經(jīng)歷這一點(diǎn),再次提醒一下,除了人工智能服務(wù)器上的大型GPU引擎,其他地方似乎沒有給它們帶來太多利潤。但如果你仔細(xì)看,這使得Nvidia成為地球上商業(yè)史上最富有的公司之一。
不同之處在于,AMD在上周推出的“Antares” MI300系列中擁有可信的GPU加速器故事,而Intel對其“Ponte Vecchio” Max Series GPU并未透露太多信息,而是依靠其當(dāng)前的Gaudi2和未來的Gaudi3人工智能加速器,這些加速器不是通用計(jì)算引擎,無法與Nvidia GPU和AMD GPU進(jìn)行同等對抗。沒有傳統(tǒng)的高性能計(jì)算故事,沒有VDI故事(人們似乎并不太關(guān)心),沒有可視化故事,也沒有數(shù)據(jù)庫或分析加速故事,與Gaudi設(shè)備相關(guān)的故事。
因此,Intel等待在一個(gè)稱為Intel 7的10納米工藝的超精細(xì)變種上,對“Raptor Cove”核心和Emerald Rapids在今年1月發(fā)布的第四代Xeon SP“Sapphire Rapids”共享的“Eagle Stream”服務(wù)器平臺進(jìn)行了一些非常出色的工程設(shè)計(jì)。最終,隨著Intel的晶圓廠縮小與臺灣積體電路制造公司的工藝和封裝差距,將會有更多的調(diào)味品為這只鵝提供。最終——因?yàn)樵诎雽?dǎo)體業(yè)務(wù)中總會有一個(gè)最終——Intel在核心、工藝和封裝方面將與AMD和Nvidia在CPU和GPU領(lǐng)域達(dá)到平衡,我們將再次看到計(jì)算成本急劇下降。
我們期待著為您而做的這一切。
與此同時(shí),不再拖延,讓我們談?wù)凟merald Rapids系列,并在進(jìn)行時(shí)牢記這個(gè)想法。當(dāng)公司延長他們在領(lǐng)域中保留服務(wù)器的時(shí)間時(shí),幾乎必然要求他們購買盡可能高性能的機(jī)器,以便在向其機(jī)群添加一些新設(shè)備時(shí),能夠淘汰最多數(shù)量的老系統(tǒng)足跡。這樣,高端CPU能夠提供的核心、緩存和I/O,以及中端部分無法提供的東西,將使新設(shè)備在領(lǐng)域中的壽命更長。在過去的日子里,購買中端零件是一種常見的策略,但在這種情況下,這并不一定是一個(gè)好的做法。
對于Sapphire Rapids,Intel為其高端Extreme Core Count(XCC)變種組成了一個(gè)四芯片組成的插座,該變種為HPC客戶提供了HBM內(nèi)存選項(xiàng)。這四個(gè)芯片組中,每個(gè)芯片組有16個(gè)核心,總共有64個(gè)核心,僅有60個(gè)核心用于良品率。還有一個(gè)Medium Core Count(MCC)的單片芯片變種,最多可擴(kuò)展到32個(gè)核心,用于構(gòu)建Sapphire Rapids SKU堆棧的52芯片中的下半部分。
通過超精細(xì)的10納米工藝,Intel可以制造更大的芯片組,對于相同尺寸的芯片組獲得更高的產(chǎn)量,并且對于更小的芯片組獲得更好的產(chǎn)量,因此它選擇使用三種不同的芯片封裝創(chuàng)建Emerald Rapids,正如您在上文中所見。
在最高端,有兩個(gè)芯片組,每個(gè)芯片組似乎有34或35個(gè)核心,排列成7×5個(gè)核心的網(wǎng)格(一個(gè)可能被彈出以騰出內(nèi)存控制器空間),總共有60或70個(gè)核心,其中最多64個(gè)核心用于良品率。這是XCC變種,而這一次,對于HPC用戶,沒有HBM選項(xiàng)。抱歉。
Emerald Rapids的MCC芯片組對外暴露了最多32個(gè)核心,并且設(shè)計(jì)中可能有36個(gè)核心,同樣是為了提高產(chǎn)量。還有一種能效低的Low Core Count(EE LCC)變種,最多向插座引腳暴露20個(gè)核心,并且設(shè)計(jì)中可能實(shí)際有24個(gè)核心。
我們已經(jīng)提出了但目前還不知道這三種變種的晶體管數(shù)。
Eagle Stream平臺的LGA-4677服務(wù)器插座在Sapphire Rapids一代中未被大量使用,但是通過頂級零件,Emerald Rapids填充得相當(dāng)好:
核心數(shù)量有了適度的增加,從Sapphire Rapids芯片的最高配置的60個(gè)核心到Emerald Rapids的最高配置的64個(gè)核心,但是與Sapphire Rapids的XCC變種相比,Emerald Rapids的XCC變種芯片上的L3緩存最多可達(dá)320 MB,而Sapphire Rapids的XCC變種芯片的L3緩存最大只有112.5 MB。
Emerald Rapids插座上的UltraPath Interconnect(UPI)NUMA鏈接的速度提高到20 GT/秒,比Sapphire Rapids芯片上的UPI鏈接的16 GT/秒速度提高了25%。與Cascade Lake一樣,Emerald Rapids僅設(shè)計(jì)用于具有一個(gè)或兩個(gè)插槽的機(jī)器。因此,如果您需要一個(gè)四插槽或八插槽的服務(wù)器,您必須使用Sapphire Rapids,直到明年推出我們在九月份詳細(xì)介紹的第六代“Granite Rapids” Xeon SP。如果您可以等待Granite Rapids用于大型NUMA服務(wù)器,那將是更好的選擇。
Emerald Rapids芯片還支持CXL 1.1一致性內(nèi)存協(xié)議,允許芯片上的PCI-Express端口支持Type 3 CXL內(nèi)存,作為內(nèi)置DDR5主內(nèi)存的擴(kuò)展。
至于Raptor Cove核心中每個(gè)核心的指令改進(jìn),Intel表示,從Sapphire Rapids到Emerald Rapids在High Performance Linpack、STREAM Triad、SPECrate2017_fp_base和SPECrate2017_int_base上的平均性能提升是1.21倍。這不是精確的每個(gè)核心時(shí)鐘標(biāo)準(zhǔn)化的度量。進(jìn)行1.21倍性能躍升測試的是一對64核Emerald Rapids Xeon SP-8592+芯片,可能以全部核心Turbo速度的2.9 GHz運(yùn)行,以及一對56核的Sapphire Rapids Xeon SP-8480+芯片。如果將這兩個(gè)處理器復(fù)雜的核心和時(shí)鐘相乘,僅這兩個(gè)因素就給您提供了10%的提升,也許更快的UPI 2.0鏈接也有些幫助。但假設(shè)它們沒有。那么,實(shí)際的IPC增益,在時(shí)鐘和核心數(shù)量相同的情況下標(biāo)準(zhǔn)化,可能更接近11%。這顯然只是一個(gè)猜測。
因此,不再拖延,以下是32款新的Emerald Rapids Xeon SP處理器:
在SKU堆棧的多樣性方面,Emerald Rapids系列有32個(gè)官方變種,比Sapphire Rapids系列的52個(gè)變種要窄且深得多。第一代的“Skylake” Xeon SP有51個(gè)變種,第二代的“Cascade Lake” Xeon SP有45個(gè)變種,再加上18個(gè)“Cascade Lake R”深度變種和為四插槽和八插槽服務(wù)器調(diào)整的“Cooper Lake”,這在某種程度上為Cascade Lake的63個(gè)正常變種增加了另外11個(gè)變種,總共達(dá)到74個(gè)變種。即使是命途多舛且長時(shí)間推遲的第三代“Ice Lake” Xeon SP也有38個(gè)變種。
總體而言,Emerald Rapids芯片在各種數(shù)據(jù)中心工作負(fù)載上提供了從1.13X到1.69X的性能提升,并提供了每瓦特平均1.34X更好的性能。在空閑功耗方面,熱特性尤為出色,空閑時(shí)的功耗約為100瓦特。(我們想說的是:服務(wù)器芯片為什么會空閑?給它找點(diǎn)事做吧。)
其中一些性能提升不僅僅來自核心,還來自更高的內(nèi)存帶寬,因?yàn)镋merald Rapids CPU支持5.6 GHz的DDR5內(nèi)存,而Sapphire Rapids使用的是4.8 GHz的DDR5內(nèi)存,帶來了16.7%的內(nèi)存帶寬增加。兩款芯片均有八個(gè)內(nèi)存通道,因此通過向計(jì)算復(fù)雜添加更多內(nèi)存通道并沒有增加帶寬,但是它們支持CXL內(nèi)存擴(kuò)展,通常稱為Type 3 CXL內(nèi)存,提供了另外四個(gè)通道的CXL內(nèi)存和額外的帶寬。您可以以兩種方式使用CXL內(nèi)存:
目前尚不清楚Intel在測試Emerald Rapids系統(tǒng)時(shí)是否以及如何使用CXL內(nèi)存來提升基準(zhǔn)性能。我們將盡力澄清這一點(diǎn)。我們還將進(jìn)行我們通常的體系結(jié)構(gòu)深度剖析、與先前的Xeon和Xeon SP代系列的性價(jià)比比較以及與AMD Epyc和Arm服務(wù)器CPU的競爭分析。
評論