AWS Graviton4 助力加速全 Arm 架構(gòu)的基礎(chǔ)設(shè)施時(shí)代
作者: Arm 工程部設(shè)計(jì)服務(wù)總監(jiān) Tim Thornton
本文引用地址:http://butianyuan.cn/article/202409/462645.htm自 2019 年基于 Arm Neoverse N1 核心的 AWS Graviton2 推出以來(lái),Arm 攜手合作伙伴持續(xù)提升基于 Arm 架構(gòu)的設(shè)計(jì)性能。如今,AWS Graviton 處理器已發(fā)展到了第四代,在 AWS Graviton4 全面上市之際,我們也一起來(lái)回顧一下過(guò)去幾年所取得的進(jìn)展。
在 Arm,芯片設(shè)計(jì)流程的一個(gè)關(guān)鍵階段是 RTL 仿真。在此過(guò)程中,驗(yàn)證工程師采用以 Verilog 表達(dá)的設(shè)計(jì),并使用如西門子的 Questa 高級(jí)仿真器或 Cadence 的 Xcelium 等 RTL 仿真器來(lái)展示設(shè)計(jì)的功能。通過(guò)定義特定輸入時(shí)的預(yù)期輸出,可以使用 RTL 仿真器來(lái)驗(yàn)證設(shè)計(jì)是否達(dá)到預(yù)期性能。這對(duì)于確保高質(zhì)量的產(chǎn)品至關(guān)重要,但這一過(guò)程對(duì)算力資源的消耗極高。自 Graviton2 問世以來(lái)的數(shù)年中,我們逐步將仿真任務(wù)遷移到基于 Arm 架構(gòu)的計(jì)算平臺(tái)上,目前我們有超過(guò)半數(shù)的 RTL 仿真工作是在基于 AWS Graviton 的 Amazon EC2 實(shí)例上執(zhí)行的。
Graviton2 能夠提供優(yōu)于 x86 架構(gòu)的性能。該平臺(tái)發(fā)布時(shí),基于 Intel Xeon 的 M5 實(shí)例是當(dāng)時(shí) EC2 現(xiàn)有實(shí)例中最新式的類型。與 M5 相比,基于 Graviton2 的 M6g 實(shí)例性能提高了 20%,每個(gè)虛擬 CPU (vCPU) 的小時(shí)成本降低了 20%,相當(dāng)于能以六成的成本達(dá)到相同的仿真結(jié)果。
在 Arm,我們的回歸仿真通常在夜間運(yùn)行,并包含大量的獨(dú)立測(cè)試。對(duì)于這些測(cè)試來(lái)說(shuō),原始性能并非關(guān)鍵,它們更注重吞吐量,因此要啟用 SMT 運(yùn)行。我們的工程師也會(huì)在白天進(jìn)行一些仿真,在這種情況下,則需要更快的周轉(zhuǎn)時(shí)間。
接下來(lái)的 AWS Graviton3 采用了 Neoverse V1 核心,取決于具體的工作負(fù)載,其性能比 Graviton2 提高了 20% 至 30%。這使得 Graviton3 vCPU(一個(gè) Neoverse V1 核心)的性能達(dá)到了與傳統(tǒng)基于 x86 架構(gòu)核心相當(dāng)?shù)乃健R虼?,我們考慮將 Graviton 用于對(duì)性能敏感的仿真工作中,這些工作在過(guò)往是需要使用禁用 SMT 的非 Graviton 實(shí)例。
現(xiàn)在,AWS Graviton4 已全面上線,將性能提升到了全新水平。Graviton4 采用了 Neoverse V2 核心,在我們的 EDA 工作負(fù)載上,性能比上一代產(chǎn)品提高了 20%。圖 1 展示了我們將各代 Graviton 產(chǎn)品用于主要 RTL 仿真器所達(dá)到的性能水平。就單個(gè) vCPU 而言,Graviton4 是經(jīng)內(nèi)存優(yōu)化的 Amazon EC2 實(shí)例(R 實(shí)例系列)中速度最快的處理器,并具有很高的性價(jià)比。Arm 也因此在部分性能敏感型工作負(fù)載中開始使用 Graviton4。
圖 1:使用西門子 Questa 高級(jí)仿真器時(shí),
各代 AWS Graviton 所達(dá)到的 RTL 仿真性能
Graviton4 的推出使得一系列新的 EDA 應(yīng)用能夠在 Arm 平臺(tái)上運(yùn)行,不僅為這些應(yīng)用提供了基礎(chǔ)支持,更成為各類 EDA 工作負(fù)載的理想平臺(tái)。
每一代 Graviton 相較于上一代產(chǎn)品,性能和性價(jià)比都有顯著提升。就每個(gè) vCPU 而言,Graviton4 的速度幾乎是 Graviton2 的兩倍;與基于 Graviton 的前幾代實(shí)例相比,Graviton4 可支持擁有多達(dá)三倍 vCPU 的實(shí)例,從而大幅提高了每個(gè)實(shí)例的最大容量。盡管性能有了顯著提升,但與 Graviton3 相比,每小時(shí)費(fèi)用僅增加了不到 10%。按吞吐量衡量,Graviton4 是極具性價(jià)比的 AWS 實(shí)例類型。
圖 2:使用西門子 Questa 高級(jí)仿真器時(shí),
各代 AWS Graviton 的 RTL 仿真成本
AWS Graviton4 現(xiàn)已正式推出,驅(qū)動(dòng)著 Amazon EC2 R8g 實(shí)例,并兼容前幾代基于 Graviton 的實(shí)例版本。Arm 也將持續(xù)擴(kuò)展基于 Graviton 實(shí)例的應(yīng)用范圍,以推動(dòng)基于 Arm 架構(gòu)的新一代處理器設(shè)計(jì),并一如既往地實(shí)現(xiàn)出色的性能提升。
評(píng)論