AMD的反擊：Zen 4c

作者：semianalysis 時(shí)間：2023-06-07 來(lái)源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

Bergamo 是 AMD 即將推出的 128 核服務(wù)器部件，它在 x86 CPU 性能方面樹(shù)立了新的高度。

本文引用地址：http://www.butianyuan.cn/article/202306/447449.htm

Bergamo 的架構(gòu)是云原生的，因?yàn)槟柖芍饾u變得緩慢，它代表了數(shù)據(jù)中心 CPU 設(shè)計(jì)中的一個(gè)重要轉(zhuǎn)折點(diǎn)。Bergamo 的核心是 Zen 4c，這是其成功的 5nm Zen 4 微架構(gòu)的全新 CPU 核心變體，可推動(dòng)每個(gè)插槽擁有更多核心。

雖然到目前為止 Zen 4c 的官方細(xì)節(jié)相當(dāng)少，但 AMD 的首席技術(shù)官在他們的 Ryzen 7000 主題演講中這樣說(shuō):「我們的 Zen 4c，它是我們的緊湊密度的補(bǔ)充，它是我們核心路線(xiàn)圖的新賽道，它在大約一半的核心區(qū)域提供與 Zen 4 相同的功能?！?/span>

在本文的深入探討中，我們將分享對(duì) Zen 4c 架構(gòu)、市場(chǎng)影響、平均售價(jià)、銷(xiāo)量、超大規(guī)模廠(chǎng)商訂單轉(zhuǎn)換的分析，以及 AMD 如何能夠在保持相同核心功能和性能的同時(shí)將核心面積減半。

我們將研究為什么 AMD 在 CPU 設(shè)計(jì)中追求這條新道路，以應(yīng)對(duì)市場(chǎng)需求以及來(lái)自亞馬遜、谷歌、微軟、阿里巴巴、Ampere Computing 以及英特爾 x86 Atom E 內(nèi)核的基于 ARM 芯片的競(jìng)爭(zhēng)。

最后，我們看看 Bergamo 降低的生產(chǎn)成本和預(yù)期的銷(xiāo)量，以及 AMD 未來(lái)在客戶(hù)端嵌入式和數(shù)據(jù)中心產(chǎn)品線(xiàn)中采用密集核心變體的情況。在深入了解這些市場(chǎng)和架構(gòu)細(xì)節(jié)之前，讓我們首先談?wù)劚尘啊?/span>

摩爾定律終結(jié)的云 CPU 時(shí)代

Zen 4c 和 Bergamo 的設(shè)計(jì)背后的基本原理是提供盡可能多的計(jì)算資源，同時(shí)隨著摩爾定律放緩而與硅的物理限制作斗爭(zhēng)。盡管要求繼續(xù)增加核心數(shù)量，但這種放緩是一種全行業(yè)的現(xiàn)象，給設(shè)計(jì)師帶來(lái)了挑戰(zhàn)。

隨著 AMD 將他們的 128 核 Bergamo 推向市場(chǎng)，其競(jìng)爭(zhēng)對(duì)手英特爾正在準(zhǔn)備他們的 144 核「Sierra Forest」部分。兩者都在響應(yīng)數(shù)據(jù)中心 ARM CPU 內(nèi)核的興起，從亞馬遜、谷歌、微軟和阿里巴巴的超大規(guī)模內(nèi)部努力到商業(yè)硅 192 核 AmpereOne 云原生 CPU。

隨著 Generative AI 的興起，GPU、加速器和 ASIC 風(fēng)靡一時(shí)，資本支出份額不斷增加，但不起眼的通用 CPU 仍然是全球大多數(shù)數(shù)據(jù)中心部署的基礎(chǔ)骨干。在云計(jì)算范例中，最大化計(jì)算資源同時(shí)最小化總體擁有成本 (TCO) 是游戲的名稱(chēng)。

增加內(nèi)核數(shù)量是節(jié)省功耗和成本的主要方法之一。插槽整合，即一個(gè)新的 CPU 取代四個(gè)或更多的舊 CPU，風(fēng)靡一時(shí)。14nm 上有大量 22 到 28 核英特爾 CPU，耗電量大，需要更換。自 2010 年代中期以來(lái)，我們就沒(méi)有基礎(chǔ)架構(gòu)更換周期，并且云已將服務(wù)器的生命周期從 3 年延長(zhǎng)到 6 年。隨著新云原生 CPU 的性能/TCO 改進(jìn)刺激開(kāi)發(fā)，這種情況很快就會(huì)改變。

通過(guò)整合，不再需要緩慢且耗電的插座間和網(wǎng)絡(luò)通信，并且需要更少的物理資源 (風(fēng)扇、電源、電路板等)。即使在同一代中，兩臺(tái) 32 核服務(wù)器從根本上講也比一臺(tái)提供相同性能水平的 64 核服務(wù)器消耗更多的功率。在云中，使用更少、更大的計(jì)算節(jié)點(diǎn)在計(jì)算網(wǎng)絡(luò)中啟動(dòng)、關(guān)閉和遷移客戶(hù)端會(huì)更簡(jiǎn)單。

然而，更多的核心意味著更多的功耗。CPU 插座的熱設(shè)計(jì)功率 (TDP) 在過(guò)去 7 年里飆升，從 140W 到 400W。2024 平臺(tái)將破解 500W。

盡管如此，熱密度增加對(duì)功率和冷卻的限制意味著 TDP 不會(huì)隨著內(nèi)核數(shù)量的增加而相應(yīng)增長(zhǎng)，從而導(dǎo)致每個(gè)內(nèi)核的功率預(yù)算下降。以高時(shí)鐘速度和功率運(yùn)行可最大限度地提高每個(gè)內(nèi)核的性能和每平方毫米硅的性能，這是成本的基本單位。

目前的趨勢(shì)是任何給定工作負(fù)載中，每瓦性能是最重要的因素，因此可以要求顯著的價(jià)格溢價(jià)?？纯?AMD 米蘭到熱那亞的過(guò)渡，僅僅由于部署密度和每瓦性能的提高，AMD 就能夠要求 80% 的價(jià)格上漲。

因此，CPU 架構(gòu)師必須小心平衡其核心設(shè)計(jì)以?xún)?yōu)化每瓦性能。與此同時(shí)，隨著摩爾定律的放緩，每個(gè)晶體管的成本與新的工藝節(jié)點(diǎn)持平，因此這項(xiàng)任務(wù)變得更加困難，因?yàn)樾枰刂凭w管預(yù)算和核心尺寸。

工程師在性能、功耗、面積等方面的信息不完善的情況下做出多變量權(quán)衡的基本設(shè)計(jì)決策。在性能、功率、面積 (PPA) 曲線(xiàn)的一端是 IBM 的 Telum，它專(zhuān)注于為遺留大型機(jī)式應(yīng)用程序?qū)崿F(xiàn)每個(gè)內(nèi)核的最大性能。為了為其銀行、航空公司和政府客戶(hù)改進(jìn)產(chǎn)品,IBM 必須設(shè)計(jì)巨大的內(nèi)核、5GHz 以上的時(shí)鐘速度和最終的可靠性，這對(duì)于較新的容器化分布式工作負(fù)載來(lái)說(shuō)成本太高。

另一方面是微控制器中的 CPU 和低功耗移動(dòng)芯片，它們優(yōu)先考慮能效和最小面積 (成本)。英特爾在智能手機(jī)革命中的失敗意味著他們?nèi)狈?ARM 在能效優(yōu)化方面擁有的十年設(shè)計(jì)經(jīng)驗(yàn)。

當(dāng) Apple 使用 M1 Mac 擴(kuò)展其架構(gòu)并擊敗英特爾時(shí)，不同的設(shè)計(jì)點(diǎn)就體現(xiàn)出來(lái)了。多年來(lái)，英特爾的高性能 P 核變得越來(lái)越臃腫，因?yàn)樗麄兝^續(xù)以犧牲功率和面積為代價(jià)來(lái)追求每核性能和 6GHz 時(shí)鐘速度。在服務(wù)器芯片中以 3GHz 的頻率運(yùn)行相同的核心并不是區(qū)城效率的最佳選擇。

明年英特爾的 Sierra Forest 將通過(guò)將他們的 E-core 設(shè)計(jì)引入數(shù)據(jù)中心來(lái)解決這個(gè)問(wèn)題。從他們的 Atom 低功耗內(nèi)核系列衍生而來(lái)，英特爾可以為給定的芯片尺寸封裝 3-4 倍的內(nèi)核。然而，E-cores 的警告是它們減少了指令集架構(gòu) (ISA) 功能級(jí)別和較低的每時(shí)鐘指令 (IPC)，從而導(dǎo)致更差的每核性能和效率。后者被許多工作負(fù)載中純粹的核心數(shù)量增加所彌補(bǔ)。

英特爾開(kāi)始在其客戶(hù)端產(chǎn)品線(xiàn)中將 E 核與 P 核結(jié)合起來(lái)，以提高每平方毫米的多線(xiàn)程性能，ISA 不匹配會(huì)導(dǎo)致一些問(wèn)題，例如在 P 核上禁用 AVX-512 并需要硬件線(xiàn)程調(diào)度程序來(lái)管理工作負(fù)載分配到具有截然不同特性的核心。至于全 E 核 Sierra Forest，其重點(diǎn)是提供接近 P 核 Granite Rapids 的插槽性能，同時(shí)使用更少的硅。它的繼任者 Clearwater Forest 將在性能和每個(gè)插槽的核心數(shù)上全力以赴。

回到 AMD，它既沒(méi)有智能手機(jī)經(jīng)驗(yàn)，也沒(méi)有獨(dú)立的低功耗核心血統(tǒng)設(shè)計(jì)團(tuán)隊(duì)。他們的 Zen 核心還必須從 5.7GHz 臺(tái)式機(jī)擴(kuò)展到高效筆記本電腦和服務(wù)器。作為對(duì) ARM 和 Atom 的回應(yīng)，他們創(chuàng)建了 Zen 4c。

Zen 4c 是 AMD 設(shè)計(jì)團(tuán)隊(duì)的共同努力，旨在推出個(gè)位于性能、功耗、面積 (PPA) 曲線(xiàn)不同點(diǎn)的內(nèi)核，以更好地適應(yīng)數(shù)據(jù)中心 CPU 工作負(fù)載的最新趨勢(shì)。AMD 采取了相當(dāng)機(jī)智的舉措，采用了相同的 Zen 4 架構(gòu)，并在物理設(shè)計(jì)中采用了多種技巧以節(jié)省大量面積。

這意味著相同的 IPC 和 ISA 功能級(jí)別，簡(jiǎn)化了客戶(hù)端的集成。事實(shí)上，AMD 還在其低端 4nm Ryzen 7000U「Phoenix」移動(dòng)處理器中悄悄地將一些 Zen4 內(nèi)核替換為 Zen 4c 內(nèi)核。

在貝加莫，Zen 4c 允許 AMD 將核心數(shù)從 96 增加到 128，同時(shí)節(jié)省面積和成本。這種設(shè)計(jì)理念的分歧將在未來(lái)幾代硬件中增加。

接下來(lái)，在最終縮小范圍并涵蓋成本、ASP、超大規(guī)模訂單轉(zhuǎn)換、數(shù)量和非數(shù)據(jù)中心環(huán)境中的采用之前，讓我們先介紹一下具體的技術(shù)細(xì)節(jié)。

這是貝加莫的規(guī)格表及其與熱那亞的區(qū)別

6 月將推出兩種型號(hào):完全啟用的 128 核的 EPYC 9754 和縮減的 112 核 EPYC 9734，其中 1/8 Zen4c 內(nèi)核已禁用。與 Genoa 最好的 96 核 EPYC 9654 相比，Zen 4c 使 Bergamo 能夠在相同的 SP5 插槽和 360W TDP 中安裝 1.33 倍的內(nèi)核數(shù)。

Zen 4c 擁有與 Zen 4 相同數(shù)量的私有緩存，具有相同的 L1 和 1MB L2。保持足夠大的私有緩存在云和虛擬化環(huán)境中很重要。這有助于通過(guò)減少對(duì)共享資源的依賴(lài)來(lái)保持性能一致性。

Bergamo 的時(shí)鐘速度也有所下降，基本時(shí)鐘降低了 150MHz、提升時(shí)鐘降低了 600MHz。當(dāng)然，相同 360W 插座 TDP 中的更多內(nèi)核意味著更低的工作頻率。Bergamo 在原始 CPU 吞吐量 (內(nèi)核 x 基本時(shí)鐘) 方面仍然具有 1.25 倍的優(yōu)勢(shì)，雖然 Genoa 可以提升得更高，但這只會(huì)在較低利用率的情況下有所幫助。Bergamo 專(zhuān)注于云環(huán)境，其中可預(yù)測(cè)的性能是關(guān)鍵，時(shí)鐘速度的工作范圍較低。

與 Bergamo 的另一個(gè)主要區(qū)別在于裸片和 L3 緩存配置。CCD 的數(shù)量從熱那亞的 12 個(gè)減少到貝加莫的 8 個(gè)，這意味著貝加莫的每個(gè) CCD 有 16 個(gè) Zen 4c 內(nèi)核，而熱那亞有 8 個(gè) Zen 4 內(nèi)核。

Bergamo 還看到了每個(gè) CCD 多個(gè) CCX 的回歸，最后一次出現(xiàn)在 EPYC 7002「羅馬」一代上。這會(huì)將裸片一分為二，其中一半的內(nèi)核只能通過(guò)長(zhǎng)途往返 IO 裸片來(lái)與另一半通信。

這對(duì)性能的影響將在下面詳細(xì)說(shuō)明。雖然 Bergamo 的每個(gè) CCX 仍有 8 個(gè)內(nèi)核可以進(jìn)行本地通信，但它們的共享 L3 緩存已減半至 16MB。這種半尺寸的 L3 也出現(xiàn)在 AMD 的移動(dòng)設(shè)計(jì)中，以節(jié)省面積。雖然這會(huì)在某些工作負(fù)載中損害 IPC，但這對(duì) Bergamo 來(lái)說(shuō)是有意義的，因?yàn)樗^少關(guān)注共享資源，而更多地關(guān)注每平方毫米的性能。那些尋找大型 L3 選項(xiàng)的人可以期待 Genoa-X 及其高達(dá) 1152MB 的 L3。

Bergamo 使用與 Genoa 相同的 IO Die，因此 SP5 插槽 IO 與 DDR5-4800 的 12 通道 128 條 PCIe 5.0 通道和雙插槽能力相同。然而，Bergamo 的 IO Die 僅連接到 8 個(gè) CCD，而 Genoa 則為 12 個(gè)，這帶來(lái)了一個(gè)問(wèn)題：AMD 是否可以制作 12 CCD、192 核 Bergamo？

IO 芯片具有 12 個(gè)全局內(nèi)存互連 3(GMI3) 小芯片鏈路，通過(guò)封裝基板布線(xiàn)。在 Genoa，遠(yuǎn)離 IO Die 的 CCD 的 GMI3 線(xiàn)布線(xiàn)在較近的 CCD 的 L3 緩存區(qū)域下方。

事實(shí)證明，這在 Bergamo 上更加困難，因?yàn)?Zen 4c CCD 的更高密度意味著必須使用更多層將電線(xiàn)布線(xiàn)在較近的 CCD 的較小 L3 下方。我們可以通過(guò) CCD 芯片放置看到這個(gè)的視覺(jué)結(jié)果。

在 Genoa 上，每組 3 個(gè) CCD 并排放置，而在 Bergamo 上，CCD 之間留有間隙，以便為布線(xiàn)留出空間。該封裝還在中間布線(xiàn) PCIe，上下布線(xiàn) DDR5，因此可用空間不足以容納 12 個(gè) Zen 4c CCD。

模具拍攝、平面圖和核心分析

這是 Bergamo 的 Zen 4c CCD 的模版，代號(hào)為「Vindhya」。這是使用 Zen 4 CCD 的資產(chǎn)制作的，代號(hào)為「Durango」，由 AMD 在 ISSCC 2023 上提供。請(qǐng)注意兩個(gè) 8 核 CCXCompute Complexes 彼此并排，每個(gè)都有 16MB 的共享 L3。L3 也沒(méi)有用于 3D V-Cache 的硅通孔 (TSV) 陣列，從而節(jié)省了一小部分面積。這是有道理的，因?yàn)樵乒ぷ髫?fù)載不會(huì)從大量共享緩存中獲益太多。

然而，這里真正令人驚嘆的是芯片尺寸。16 個(gè) Zen 4c 核心略大于 8 個(gè) Zen 4 核心。在 ISSCC 2023 上，AMD 透露 Zen4 的 CCD 為 66.3mm2。這是邊緣沒(méi)有芯片密封和劃線(xiàn)的設(shè)計(jì)區(qū)域。Zen 4c 的 CCD 設(shè)計(jì)面積只有 72.7mm2，大了不到 10%。

請(qǐng)記住，每個(gè)芯片上有雙倍的內(nèi)核、雙倍的 L2 緩存和相同數(shù)量的 L3 緩存。核心必須大大縮小，以便在每個(gè)芯片上容納更多的緩存，而面積只增加了一小部分。

關(guān)于小芯片互連，Infinity Fabric on Package(IFOP) 在兩個(gè)芯片上都是相同的，包括兩個(gè) GMI3-Narrow 鏈路。然而，雖然芯片支持它，但似乎沒(méi)有使用兩個(gè) GMI3 鏈接的 Zen 4c 模型。相反，來(lái)自?xún)蓚€(gè)獨(dú)立 CCX 的信號(hào)通過(guò)單個(gè)鏈路多路復(fù)用到 IO Die。

仔細(xì)觀(guān)察核心會(huì)發(fā)現(xiàn)設(shè)計(jì)和布局上的明顯差異。下表列出了代號(hào)為「Dionysus」的 Zen 4c 與代號(hào)為「Persephone」的 Zen 4 的區(qū)域細(xì)分。

與 Zen4 相比，Zen 4c 的核心區(qū)域下降了 35.4%，這是非常了不起的，因?yàn)樗及?1MB 二級(jí)緩存。雖然這意味著 L2 SRAM 單元占用相同的面積，但 AMD 能夠通過(guò)使 L2 控制邏輯更緊湊來(lái)減少 L2 區(qū)域的面積。不包括 L2 和芯片普適邏輯 (CPL) 區(qū)域，核心收縮了驚人的 44.1%，引擎 (前端+執(zhí)行) 區(qū)域幾乎減半。

這就是 Papermaster 所指的，Zen 4c 的驚人工程壯舉與 Zen 4 的設(shè)計(jì)基本相同，具有相同的 IPC，只是實(shí)現(xiàn)和布局不同。浮點(diǎn)單元 (FPU) 并沒(méi)有縮小到完全相同的程度，這可能是由于 thermal hotspots，因?yàn)?FPU 通常在承受重壓時(shí)是內(nèi)核中最熱的部分。我們還注意到內(nèi)核本身內(nèi)的 SRAM 單元看起來(lái)也更加緊湊，面積減少了 32.6%。您可以通過(guò)右下角的 Page Table Walker 清楚地看到這一點(diǎn)。

物理設(shè)計(jì)技巧

AMD 通過(guò)采用完全相同的 Zen 4 寄存器傳輸級(jí) (RTL) 描述來(lái)創(chuàng)建 Zen 4c，描述了 Zen 4 核心 IP 的邏輯設(shè)計(jì)，并使用更緊湊的物理設(shè)計(jì)來(lái)實(shí)現(xiàn)它。設(shè)計(jì)規(guī)則與臺(tái)積電 N5 上的兩者相同，但面積差異很大。我們?cè)敿?xì)介紹了實(shí)現(xiàn)這一點(diǎn)的設(shè)備物理設(shè)計(jì)的三個(gè)關(guān)鍵技術(shù)。

首先，降低設(shè)計(jì)的時(shí)鐘目標(biāo)會(huì)導(dǎo)致在合成內(nèi)核時(shí)減少面積。這是在 TSMC 的 N5 和 N3E 節(jié)點(diǎn)上合成的 ARM Cortex-A72 CPU 內(nèi)核的速度與面積曲線(xiàn)。即使在同一節(jié)點(diǎn)上使用相同的核心設(shè)計(jì)，也可以選擇核心面積和可在其上實(shí)現(xiàn)的時(shí)鐘速度。

通過(guò)較低的時(shí)鐘目標(biāo)，設(shè)計(jì)人員在關(guān)鍵路徑的設(shè)計(jì)上有更多的工作空間，從而簡(jiǎn)化了時(shí)序收斂并減少了清除寬松時(shí)序約束所需的額外緩沖器單元的數(shù)量?，F(xiàn)在大多數(shù)設(shè)計(jì)都受到布線(xiàn)密度和擁塞的限制，較低的工作時(shí)鐘使設(shè)計(jì)人員能夠?qū)⑿盘?hào)路徑壓縮得更近，并提高標(biāo)準(zhǔn)單元密度。

標(biāo)準(zhǔn)單元密度是指設(shè)計(jì)中可放置區(qū)域中標(biāo)準(zhǔn)單元所占的比例。標(biāo)準(zhǔn)單元是功能性電路例如觸發(fā)器和反相器，它們?cè)谡麄€(gè)設(shè)計(jì)中重復(fù)出現(xiàn)并組合形成復(fù)雜的數(shù)字邏輯。正如貼裝軟件的這個(gè)特寫(xiě)視圖所示，它們有許多不同的尺寸。

藍(lán)色矩形是標(biāo)準(zhǔn)單元格，而黑色區(qū)域是未填充的。我們突出顯示了一個(gè)單元密度低、面積利用率約為 50% 的區(qū)域，以及另一個(gè)單元密度高、超過(guò) 90% 的區(qū)域。具有大量輸入和輸出信號(hào)引腳的標(biāo)準(zhǔn)單元會(huì)占用附近的布線(xiàn)資源，有效地阻塞標(biāo)準(zhǔn)單元放置的相鄰空間。

縮小以查看整個(gè)核心，可以生成一個(gè)單元密度圖，該圖概述了標(biāo)準(zhǔn)單元緊密堆積的區(qū)域 (橙色、黃色) 和面積利用率較低的區(qū)域 (綠色、藍(lán)色)。黑色矩形是放置在標(biāo)準(zhǔn)單元之前的大型 SRAM 宏。

這一切意味著 AMD 可以采用他們的 Zen 4 核心并通過(guò)向下移動(dòng)速度與面積曲線(xiàn)來(lái)直接縮小，并且核心看起來(lái)大致相似但具有更高的單元密度。然而，由于下一個(gè)物理設(shè)計(jì)方法，Zen 4c 看起來(lái)非常不同。

Zen 4c 看起來(lái)非常不同，因?yàn)樗哂懈馄降脑O(shè)計(jì)層次結(jié)構(gòu)和更少的分區(qū)。對(duì)于具有數(shù)億個(gè)晶體管的如此復(fù)雜的核心設(shè)計(jì)，在布局規(guī)劃中將核心分成不同的區(qū)域是有意義的，這樣設(shè)計(jì)人員和仿真工具就可以并行工作以加快上市時(shí)間 (TTM)。對(duì)電路的任何工程更改也可以隔離到一個(gè)子區(qū)域，而無(wú)需為整個(gè)核心重新進(jìn)行布局和布線(xiàn)過(guò)程。

有意分離時(shí)序關(guān)鍵區(qū)域還可以幫助解決路由擁塞問(wèn)題，并通過(guò)更少的干擾實(shí)現(xiàn)更高的時(shí)鐘速度。我們看到 ARM 的 Neoverse V1 和 Cortex-X2 內(nèi)核在邏輯區(qū)域之間沒(méi)有硬分區(qū)，布局盡可能緊湊。當(dāng)查看物理管芯時(shí)，這些區(qū)域看起來(lái)是同質(zhì)的。另一方面，我們看到英特爾的 Crestmont E-core 有許多可見(jiàn)分區(qū)，邊界以紫色突出顯示。

正如我們?cè)?Zen 4 內(nèi)核注釋中所見(jiàn)，內(nèi)核中的每個(gè)邏輯塊都有許多分區(qū)，但在 Zen 4c 中大大減少，只有 4 個(gè)分區(qū) (L2、前端、執(zhí)行、FPU)。通過(guò)合并 Zen 4 中的這些分區(qū)，這些區(qū)域可以更緊密地封裝在一起，通過(guò)進(jìn)一步提高標(biāo)準(zhǔn)單元密度來(lái)增加另一種節(jié)省面積的途徑?？梢哉f(shuō) AMD 的 Zen 4c「看起來(lái)像一個(gè) ARM 內(nèi)核」。

最后一種減少面積的方法是使用更密集的內(nèi)存。Zen 4c 減少了內(nèi)核本身的 SRAM 面積，因?yàn)?AMD 已改用新型 SRAM 位單元。圖為具有 8 個(gè)晶體管的 8T SRAM 電路圖中間的 4 個(gè)晶體管用于存儲(chǔ) 1 位信息，而 2 對(duì)存取晶體管為 2 對(duì)字線(xiàn)和位線(xiàn)供電。

高性能的 Out-of-Order 核心具有多種功能，可以從同一塊內(nèi)存讀取和寫(xiě)入，因此使用了這些 8T 雙端口 bitcells。與更密集的 6T 單端口位單元相比，它們占用更多區(qū)域并且需要雙倍的信號(hào)路由資源。

為了節(jié)省面積，AMD 用臺(tái)積電開(kāi)發(fā)的新 6T 偽雙端口位單元取代了這些 8T 雙端口位單元。

采用 5nm 技術(shù)的 4.24GHz 128X256 SRAM 操作雙泵讀寫(xiě)相同周期的相關(guān)論文中，臺(tái)積電提出了一種具有單端口 6T bitcell 宏的高速 1R1W 雙端口 32Kbit(128X256)SRAM。

提出了一種具有 TRKBL 旁路的先讀后寫(xiě) (RTW) 雙泵 CLK 生成電路，以提高讀取性能。采用雙金屬方案以提高信號(hào)完整性和整體操作周期時(shí)間。讀出放大器中引入了本地互鎖電路 (LIC)，以降低有功功率并進(jìn)一步推動(dòng) Fmax。結(jié)果表明，在 5nmFinFET 技術(shù)中，慢角晶圓能夠在 1.0V 和 100 攝氏度下達(dá)到 4.24GHz。

從描述中我們看到，臺(tái)積電可以通過(guò)在同一時(shí)鐘周期內(nèi)進(jìn)行順序讀寫(xiě)操作來(lái)模擬雙端口位單元。雖然這不如兩個(gè)獨(dú)立的訪(fǎng)問(wèn)端口靈活，但面積的減少足以讓 AMD 為 Zen 4c 采用該技術(shù)。隨著 SRAM 面積縮放趨于平緩，我們將看到更多此類(lèi)面積節(jié)省技術(shù)的發(fā)展。