HBM2E 和GDDR6： AI內(nèi)存解決方案

作者：時間：2020-09-29 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

本文引用地址：http://butianyuan.cn/article/202009/418928.htm

前言

人工智能/機器學習（AI/ML）改變了一切，影響著每個行業(yè)并觸動著每個人的生活。人工智能正在推動從5G到物聯(lián)網(wǎng)等一系列技術(shù)市場的驚人發(fā)展。從2012年到 2019年，人工智能訓練集增長了30萬倍，每3.43個月翻一番，這就是最有力的證明。支持這一發(fā)展速度需要的遠不止摩爾定律所能實現(xiàn)的改進，摩爾定律在任何情況下都在放緩，這就要求人工智能計算機硬件和軟件的各個方面都需要不斷的快速改進。

從2012年至今，訓練能力增長了30萬倍

內(nèi)存帶寬將成為人工智能持續(xù)增長的關(guān)鍵焦點領(lǐng)域之一。以先進的駕駛員輔助系統(tǒng)（ADAS）為例。第3級及更高級別系統(tǒng)的復雜數(shù)據(jù)處理需要超過200 GB/s 的內(nèi)存帶寬。這些高帶寬是復雜的AI/ML算法的基本需求，在道路上自駕過程中這些算法需要快速執(zhí)行大量計算并安全地執(zhí)行實時決策。在第5級，即完全自主駕駛，車輛能夠獨立地對交通標志和信號的動態(tài)環(huán)境作出反應，以及準確地預測汽車、卡車、自行車和行人的移動，將需要巨大的內(nèi)存帶寬。隨著新一代AI/ML加速器和專用芯片的快速發(fā)展，新的內(nèi)存解決方案，如高帶寬內(nèi)存（HBM、HBM2 、HBM2E）和GDDR6 SDRAM（GDDR6）漸被采用來提供所需的帶寬。

在為AI/ML應用程序所需而在HBM2E（最新一代HBM）和GDDR6之間做選擇時，設(shè)計者必須考慮許多權(quán)衡和關(guān)鍵指標，包括成本、功率、容量和實現(xiàn)復雜性。在本白皮書中，我們將探討HBM2E和GDDR6的優(yōu)點和設(shè)計注意事項。我們還將強調(diào)每個內(nèi)存在整個AI/ML架構(gòu)中的適用性。最后，我們將討論Rambus的HBM2E和GDDR6接口解決方案，它們可以用來實現(xiàn)一個完整的內(nèi)存子系統(tǒng)。

GDDR6 和HBM2E 提供了不同的優(yōu)點和設(shè)計權(quán)衡

GDDR6 內(nèi)存系統(tǒng)四個16Gbps x32 GDDR6 DRAMs

第一部分：HBM2E 內(nèi)存

高帶寬內(nèi)存（HBM）于2013年推出，是一種高性能3D堆棧SDRAM構(gòu)架。與前一代產(chǎn)品一樣，HBM2為每個堆棧包含最多8個內(nèi)存芯片，同時將管腳傳輸速率翻倍，達到2 Gbps。HBM2實現(xiàn)每個封裝256GB/s的內(nèi)存帶寬（DRAM堆棧），采用HBM2規(guī)格，每個封裝支持高達8GB的容量。

2018年末，JEDEC宣布推出HBM2E規(guī)范，以支持增加的帶寬和容量。當傳輸速率上升到每管腳3.6Gbps時，HBM2E可以實現(xiàn)每堆棧461GB/s的內(nèi)存帶寬。此外，HBM2E支持12個DRAM的堆棧，內(nèi)存容量高達每堆棧24 GB。

HBM2E 內(nèi)存系統(tǒng)單個2Gbps HBM2E設(shè)備

所有版本的HBM都以相對較低的數(shù)據(jù)傳輸速率運行，但通過采用極寬的接口實現(xiàn)了非常高的帶寬。具體地說，每一個運行速度高達3.6Gbps的HBM2E堆棧通過1024個數(shù)據(jù)“線”的接口連接到它的相關(guān)處理器。通過命令和地址，線的數(shù)量增加到大約1700條。這遠遠超出了標準PCB所能支持的范圍。因此，硅中介層被采用作為連接內(nèi)存堆棧和處理器的中介。與SoC一樣，精細數(shù)據(jù)走線可以在硅中介層中以蝕刻間隔的方式實現(xiàn)，以獲得HBM接口所需數(shù)量的數(shù)據(jù)線數(shù)。

QQ瀏覽器截圖20200929173024.png

單一DRAM堆棧的HBM2E內(nèi)存系統(tǒng)

HBM2E 和GDDR6： AI內(nèi)存解決方案

HBM2E提供了達成巨大內(nèi)存帶寬的能力。連接到一個處理器的四塊HBM2E內(nèi)存堆棧將提供超過1.8 TB/s的帶寬。通過3D堆疊內(nèi)存,可以以極小的空間實現(xiàn)高帶寬和高容量需求。進一步，通過保持相對較低的數(shù)據(jù)傳輸速率，并使內(nèi)存靠近處理器，總體系統(tǒng)功率得以維持在較低水位。

采用HBM的設(shè)計的代價是增加復雜性和成本。中介層是一個附加元件，必須進行設(shè)計、特性化和制造。與制造傳統(tǒng)DDR型內(nèi)存（包括GDDR）的巨大容量和制造經(jīng)驗相比，3D堆疊內(nèi)存的出貨量顯得微不足道。最終的結(jié)果是，采用和制造HBM2E成本高于GDDR6。

出色的帶寬、容量，低功耗的延遲、極小的尺寸空間，使HBM2E內(nèi)存成為AI訓練硬件的最佳選擇。

然而，對于人工智能訓練應用，HBM2E的優(yōu)點使其成為一個更好的選擇。它的性能非常出色，所增加的采用和制造成本可以透過節(jié)省的電路板空間和電力相互的緩解。在物理空間日益受限的數(shù)據(jù)中心環(huán)境中，HBM2E緊湊的體系結(jié)構(gòu)提供了切實的好處。它的低功率意味著它的熱負荷較低，在這種環(huán)境中，冷卻成本通常是幾個最大的運營成本之一。

總而言之，HBM2E為系統(tǒng)設(shè)計者提供了極高的帶寬能力和最佳的功率效率。雖說采用HBM2e系統(tǒng)的因設(shè)計復雜性和空間的增加，而更具挑戰(zhàn),但是板材面積的系統(tǒng)冷卻支出的節(jié)省卻是無與倫比。對于人工智能訓練，HBM2E是一個理想的解決方案。這一事實是基于采用HBM2E強大成功記錄之上的，例如已被采用人工智能的處理器，如英偉達的Telsla A100和谷歌第二代TPU。

第二部分：GDDR6 內(nèi)存

圖形DDR SDRAM（GDDR SDRAM）最初是20多年前為游戲和顯卡市場設(shè)計的。在這段時間內(nèi)，GDDR經(jīng)歷了幾次重大變革，最新一代GDDR6的數(shù)據(jù)傳輸速率為16Gbps。GDDR6提供了令人印象深刻的帶寬、容量、延遲和功率。它將工作電壓從1.5V降低到1.35V以獲得更高的功率效率，并使GDDR5內(nèi)存的數(shù)據(jù)傳輸速率（16比8 Gbps）和容量（16比8 GB）翻了一番。Rambus已經(jīng)演示了一個運行速度為18 Gbps的GDDR6接口，顯示這種內(nèi)存架構(gòu)還有額外的增長空間。

與HBM2E不同，GDDR6 DRAM采用與生產(chǎn)標準DDR式DRAM的大批量制造和組裝一樣的技術(shù)。更具體地說，GDDR6采用傳統(tǒng)的方法，通過標準PCB將封裝和測試的DRAMs與SoC連接在一起。利用現(xiàn)有的基礎(chǔ)架構(gòu)和流程為系統(tǒng)設(shè)計者提供了熟悉度，從而降低了成本和實現(xiàn)的復雜性。

帶有四個 DRAM的 GDDR6內(nèi)存系統(tǒng)

GDDR6內(nèi)存出色的性價比，建立在經(jīng)過時間考驗的制造流程之上，使其成為人工智能推理應用的絕佳選擇。

與HBM2E寬而慢的內(nèi)存接口不同，GDDR6接口窄而快。兩個16位寬通道（32條數(shù)據(jù)線）將GDDR6 PHY連接到相關(guān)的SDRAM。GDDR6接口以每針16 Gbps的速度運行，可以提供64 GB/s的帶寬。回到我們之前的L3汽車示例，GDDR6內(nèi)存系統(tǒng)以連接四個DRAM設(shè)備為例,帶寬可以達到200 GB/s。

采用GDDR6的主要設(shè)計挑戰(zhàn)也來自于它最強大的特性之一：速度。在較低的電壓條件，16 Gbps的信號速度下，保持信號完整性需要大量的專業(yè)經(jīng)驗知識。設(shè)計人員面臨更緊的時序和電壓裕度量損失，這些損失來源與影響都在迅速增加。系統(tǒng)的接口行為、封裝和電路板需要相互影響,需要采用協(xié)同設(shè)計方法來保證系統(tǒng)的信號完整性。

總的來說，GDDR6內(nèi)存的優(yōu)異性能特性建立久經(jīng)考驗的基礎(chǔ)制造過程之上，是人工智能推理的理想內(nèi)存解決方案。其出色的性價比使其適合在廣泛的邊緣網(wǎng)絡(luò)和物聯(lián)網(wǎng)終端設(shè)備上大量采用。

GDDR6提供了最佳的內(nèi)存設(shè)計和使用效率

L3 ADAS 內(nèi)存系統(tǒng)實施實例

可能沒有比ADAS更苛刻的“物聯(lián)網(wǎng)”人工智能推理應用程序。在一個負責保護生命和財產(chǎn)的體系中，認證標準必然很高。最終的結(jié)果是，經(jīng)過路試的內(nèi)存架構(gòu)，如LPDDR（擁有數(shù)十億的移動電話采用）和GDDR6已經(jīng)在早期的ADAS系統(tǒng)中得到了實現(xiàn)。如上圖所示，LPDDR4/5內(nèi)存架構(gòu)可以達到L3-ADAS系統(tǒng)200GB/s的帶寬閾值，但這需要大量的DRAM設(shè)備來實現(xiàn)。

從設(shè)計和利用的角度來看，GDDR6的效率要高得多，只需要不到一半的內(nèi)存顆粒數(shù)量就能達到所需的系統(tǒng)帶寬。隨著帶寬需求的增加，以滿足L4和L5 ADAS的需求，GDDR6成為唯一可行的替代方案。

如下圖所示，在L4 ADAS中，帶寬要求提高到300 GB/s。如果LPDDR5接口以 6.4 Gbps的速度運行，則需要12個DRAM設(shè)備才能達到這一目標。SoC的芯片前沿邊將被內(nèi)存接口給全盤占據(jù)而令SOC版圖設(shè)計變復雜而不切實際。運行速度為 16 Gbps的GDDR6僅用5個內(nèi)存顆粒就可以提供超過300 GB/s的帶寬，而對于L5 ADA，只需 8個內(nèi)存顆粒就可以達到500 GB/s以上的帶寬。

隨著更高級別的ADAS，內(nèi)存帶寬需求迅速增長

ADAS記憶體帶寬要求

總之，GDDR6提供了帶寬、容量、能效、可靠性和性價比的完美結(jié)合。有了像 Rambus這樣值得信賴的合作伙伴，SoC設(shè)計人員可以實現(xiàn)所有這些好處，同時解決因16Gbps或更高速度運行帶來的SI挑戰(zhàn)。

第三部分：HBM2E 和GDDR-AI的合作伙伴

鑒于AI/ML的需求分流的特性，內(nèi)存的選擇取決于應用：訓練還是推理。HBM2E 和GDDR6這兩種高帶寬內(nèi)存可以起到至關(guān)重要的作用，而不是“或”的問題，而是“和”的問題之一。

對于訓練來說，帶寬和容量是至關(guān)重要的需求。特別是考慮到訓練集的規(guī)模正以每3.43個月翻一番的速度增長，正如我們前面討論的那樣?，F(xiàn)行訓練工作負載在多個服務(wù)器上運行，以提供所需的處理能力，對虛擬化處理有翻天覆地的改變?？紤]到通過訓練創(chuàng)造的價值，并鑒于強大的“提早上市”誘因，其驅(qū)動盡快完成訓練計算的需求。此外，在數(shù)據(jù)中心運行的訓練應用程序因電源和空間所致的限制越來越大，因此有一個提供更佳能效和更小尺寸的解決方案是一大加分。

考慮到所有這些需求，HBM2E是AI訓練硬件的理想內(nèi)存解決方案。它提供了出色的帶寬和容量能力：461 GB/s的內(nèi)存帶寬和24 GB的容量，以單個12 DRAM 的 HBM2E堆棧即能實現(xiàn)。由于接口速度低和處理器距離近，它的3D結(jié)構(gòu)能以非常緊湊的尺寸和較低的功耗提供這些特性。

在推理的情況下，帶寬和延遲對于實時操作的需求至關(guān)重要。隨著推理被采用在廣泛的邊緣和物聯(lián)網(wǎng)終端設(shè)備上，其將比位于數(shù)據(jù)中心核心的實施成本更敏感。此外，對于ADAS，內(nèi)存將需要依在道路測試技術(shù)以及制造工藝需求來建造，以滿足嚴格的認證要求。隨著5G的不斷推出，將有越來越多的人工智能驅(qū)動的、不受約束的設(shè)備執(zhí)行復雜的推理。

對于人工智能推理這一日益具有挑戰(zhàn)性的領(lǐng)域，GDDR6是一個理想的解決方案。它可以單個或少量的DRAM顆粒提供出色的帶寬：在16 Gbps的數(shù)據(jù)速率下，每個顆粒有64GB/s的內(nèi)存帶寬?；诔墒斓闹圃旃に?，它提供了適合大量生產(chǎn)的性價比特性。

結(jié)果是，AI/ML并不是單一的，其訓練和推理都需要根據(jù)其特定需求定制的內(nèi)存解決方案。HBM2E和GDDR6分別滿足了訓練和推理的需求，提供了這些應用程序所需的一系列長處。正如前面討論的一樣，HBM2E與GDDR6呈現(xiàn)不同設(shè)計和實施的挑戰(zhàn)。但是有了像Rambus這樣值得信賴的合作伙伴的解決方案，這些內(nèi)存的好處就可以很容易地實現(xiàn)。在下一節(jié)中，我們將回顧Rambus提供的HBM2E 和GDDR6接口解決方案。

第四部分：Rambus HBM2E 內(nèi)存接口解決方案

針對高帶寬和低延遲進行了優(yōu)化，Rambus HBM2E接口提供了最好的性能與最小面積尺寸的特點和高效率。該接口由一個與PHY共同驗證的數(shù)字控制器組成，包括一個完整的HBM2E內(nèi)存子系統(tǒng)。

Rambus HBM2E接口完全符合JEDEC JESD235B標準。它支持每個數(shù)據(jù)引腳高達 3.6 Gbps的數(shù)據(jù)傳輸速率。該接口具有8個獨立的通道，每個通道包含128位，總數(shù)據(jù)寬度為1024位。由此每個堆棧支持的帶寬是461GB/s，每個堆棧由2、4、8或 12個DRAMs組成。

該接口是為一個2.5D系統(tǒng)設(shè)計的，它有一個用于在3D-DRAM堆棧和SoC上的PHY之間的中介層由提供信號繞線。這種信號密度和堆積尺寸的組合需要特殊的設(shè)計考慮。為了便于實施和提高了設(shè)計的靈活性，Rambus對整個2.5D系統(tǒng)進行完整的信號和功率完整性分析，以確保所有信號、功率和散熱要求都得到滿足。

其他主要功能包括：

● 共同驗證過的PHY和數(shù)字控制器

● 支持速度范圍: 0.5, 1.0, 1.5, 1.6, 1.8, 2.0, 2.4, 3.0, 3.2, 3.6 Gbps

● 8個通道和16個偽通道

● 支持2、4、8或12個DRAM堆棧

● 支持所有標準HBM2E通道密度（4、6、8、12、16、24 Gb）

● 內(nèi)存控制器或PHY可以是ASIC接口主機（PHY獨立模式）

● 可選低功率運行狀態(tài)

● 可編程輸出阻抗

● 用于鏈路修復的引腳可編程支持

● 輸出阻抗的ZQ校準

● IEEE 1500測試支持

● 自主測試支持

● SSO降噪

● 微凸塊間距DRAM間距間距匹配

● 采用13層或15層金屬疊層

● 東西向（PHY可放置在die角落）

● 狀態(tài)觀察寄存器接口

● 具有特色的LabStation?軟件開發(fā)環(huán)境，有效隔離問題，快速系統(tǒng)點亮、校正和驗證

HBM2E內(nèi)存接口子系統(tǒng)示例

第五部分：Rambus GDDR6 內(nèi)存接口解決方案

Rambus GDDR6接口專為性能和功率效率而設(shè)計，支持AI/ML和ADAS推理高帶寬與低延遲要求。它由一個經(jīng)共同驗證的PHY和數(shù)字控制器組成，提供一個完整的GDDR6內(nèi)存子系統(tǒng)。Rambus GDDR6接口完全符合JEDEC GDDR6 JESD250標準，每個引腳支持高達16 Gbps。GDDR6接口支持2個通道，每個通道有16位，總數(shù)據(jù)寬度為32位。Rambus GDDR6接口每針16 Gbps，提供帶寬為64 GB/s。

Rambus直接與客戶合作，提供完整的系統(tǒng)信號和電源完整性（SI/PI）分析，創(chuàng)建優(yōu)化的芯片布線版圖?？蛻羰盏揭粋€硬核解決方案與全套測試軟件可以快速啟動，定性和調(diào)試。

其他主要特性包括：

● 經(jīng)共同驗證的PHY和數(shù)字控制器

● IP核的靈活交付（符合ASIC/SoC版圖布線要求）

● 支持速度范圍：12、14和 16 Gbps。Rambus展示了18 Gbps的未來可擴展性。

● 兩個16位通道

● 支持GDDR6 SGRAM

● 內(nèi)存控制器或PHY可以是ASIC接口主機（PHY獨立模式）

● 可選低功率運行狀態(tài)

● 可編程驅(qū)動器/終端阻抗值

● 驅(qū)動器/終端阻抗校準

● 建置測試支持

● 采用13層金屬疊層

● 狀態(tài)觀察寄存器接口

● 具有特色的LabStation?軟件開發(fā)環(huán)境，有校隔離問題，快速系統(tǒng)點亮校正和驗證

GDDR6 內(nèi)存接口子系統(tǒng)示例

總結(jié)

AI/ML的發(fā)展速度非?？臁Ｓ柧毮芰φ悦磕?0倍的速度增長，推動著計算機硬件和軟件各方面的快速發(fā)展。與此同時，人工智能推理正在網(wǎng)絡(luò)邊緣和廣泛的物聯(lián)網(wǎng)設(shè)備中采用，包括在汽車/ADAS中。訓練和推理有其獨特的應用,定制內(nèi)存解決方案可以滿足的需求，HBM2E是前者的理想選擇，GDDR6是后者的理想選擇。設(shè)計師可以通過與Rambus合作來克服這些架構(gòu)中固有的設(shè)計挑戰(zhàn)，從而實現(xiàn)這些高性能內(nèi)存的長處。Rambus提供全面且現(xiàn)成的HBM2E和GDDR6內(nèi)存接口解決方案，可集成到AI/ML訓練和推理SoCs中。

新聞中心

HBM2E 和GDDR6： AI內(nèi)存解決方案

評論

相關(guān)推薦

技術(shù)專區(qū)