新聞中心

EEPW首頁(yè) > 網(wǎng)絡(luò)與存儲(chǔ) > 設(shè)計(jì)應(yīng)用 > HBM2E 和GDDR6: AI內(nèi)存解決方案

HBM2E 和GDDR6: AI內(nèi)存解決方案

作者: 時(shí)間:2020-09-29 來(lái)源:電子產(chǎn)品世界 收藏


本文引用地址:http://www.butianyuan.cn/article/202009/418928.htm

前言

人工智能/機(jī)器學(xué)習(xí)(AI/)改變了一切,影響著每個(gè)行業(yè)并觸動(dòng)著每個(gè)人的生 活。人工智能正在推動(dòng)從5G到物聯(lián)網(wǎng)等一系列技術(shù)市場(chǎng)的驚人發(fā)展。從2012年到 2019年,人工智能訓(xùn)練集增長(zhǎng)了30萬(wàn)倍,每3.43個(gè)月翻一番,這就是最有力的證 明。支持這一發(fā)展速度需要的遠(yuǎn)不止摩爾定律所能實(shí)現(xiàn)的改進(jìn),摩爾定律在任何情況下都在放緩,這就要求人工智能計(jì)算機(jī)硬件和軟件的各個(gè)方面都需要不斷的快速改進(jìn)。

image.png

從2012年至今,訓(xùn)練能力增長(zhǎng)了30萬(wàn)倍

帶寬將成為人工智能持續(xù)增長(zhǎng)的關(guān)鍵焦點(diǎn)領(lǐng)域之一。以先進(jìn)的駕駛員輔助系統(tǒng)()為例。第3級(jí)及更高級(jí)別系統(tǒng)的復(fù)雜數(shù)據(jù)處理需要超過(guò)200 GB/s 的帶寬。這些高帶寬是復(fù)雜的AI/算法的基本需求,在道路上自駕過(guò)程中這些算法需要快速執(zhí)行大量計(jì)算并安全地執(zhí)行實(shí)時(shí)決策。在第5級(jí),即完全自主駕駛,車輛能夠獨(dú)立地對(duì)交通標(biāo)志和信號(hào)的動(dòng)態(tài)環(huán)境作出反應(yīng),以及準(zhǔn)確地預(yù)測(cè)汽車、卡車、自行車和行人的移動(dòng),將需要巨大的帶寬。隨著新一代AI/加 速器和專用芯片的快速發(fā)展,新的內(nèi)存解決方案,如高帶寬內(nèi)存(HBM、HBM2 、HBM2E)和GDDR6 S(GDDR6)漸被采用來(lái)提供所需的帶寬。

image.png

在為AI/ML應(yīng)用程序所需而在HBM2E(最新一代HBM)和GDDR6之間做選擇時(shí),設(shè)計(jì)者必須考慮許多權(quán)衡和關(guān)鍵指標(biāo),包括成本、功率、容量和實(shí)現(xiàn)復(fù)雜性。在本白皮書(shū)中,我們將探討HBM2E和GDDR6的優(yōu)點(diǎn)和設(shè)計(jì)注意事項(xiàng)。我們還將強(qiáng)調(diào)每個(gè)內(nèi)存在整個(gè)AI/ML架構(gòu)中的適用性。最后,我們將討論Rambus的HBM2E和GDDR6接口解決方案,它們可以用來(lái)實(shí)現(xiàn)一個(gè)完整的內(nèi)存子系統(tǒng)。

GDDR6 和HBM2E 提供了不同的優(yōu)點(diǎn)和設(shè)計(jì)權(quán)衡

image.png

image.png

GDDR6 內(nèi)存系統(tǒng)四個(gè)16Gbps x32 GDDR6 s

第一部分:HBM2E 內(nèi)存

高帶寬內(nèi)存(HBM)于2013年推出,是一種高性能3D堆棧S構(gòu)架。與前一代產(chǎn)品一樣,HBM2為每個(gè)堆棧包含最多8個(gè)內(nèi)存芯片,同時(shí)將管腳傳輸速率翻倍,達(dá)到2 Gbps。HBM2實(shí)現(xiàn)每個(gè)封裝256GB/s的內(nèi)存帶寬(DRAM堆棧),采用HBM2規(guī)格,每個(gè)封裝支持高達(dá)8GB的容量。

2018年末,JEDEC宣布推出HBM2E規(guī)范,以支持增加的帶寬和容量。當(dāng)傳輸速率上升到每管腳3.6Gbps時(shí),HBM2E可以實(shí)現(xiàn)每堆棧461GB/s的內(nèi)存帶寬。此外,HBM2E支持12個(gè)DRAM的堆棧,內(nèi)存容量高達(dá)每堆棧24 GB。

image.png

HBM2E 內(nèi)存系統(tǒng)單個(gè)2Gbps HBM2E設(shè)備

所有版本的HBM都以相對(duì)較低的數(shù)據(jù)傳輸速率運(yùn)行,但通過(guò)采用極寬的接口實(shí)現(xiàn)了非常高的帶寬。具體地說(shuō),每一個(gè)運(yùn)行速度高達(dá)3.6Gbps的HBM2E堆棧通過(guò)1024個(gè)數(shù)據(jù)“線”的接口連接到它的相關(guān)處理器。通過(guò)命令和地址,線的數(shù)量增加到大約1700條。這遠(yuǎn)遠(yuǎn)超出了標(biāo)準(zhǔn)PCB所能支持的范圍。因此,硅中介層被采用作為連接內(nèi)存堆棧和處理器的中介。與SoC一樣,精細(xì)數(shù)據(jù)走線可以在硅中介層中以蝕刻間隔的方式實(shí)現(xiàn),以獲得HBM接口所需數(shù)量的數(shù)據(jù)線數(shù)。

QQ瀏覽器截圖20200929173024.png

單一DRAM堆棧的HBM2E內(nèi)存系統(tǒng)

HBM2E 和GDDR6: AI內(nèi)存解決方案

HBM2E提供了達(dá)成巨大內(nèi)存帶寬的能力。連接到一個(gè)處理器的四塊HBM2E內(nèi)存堆棧將提供超過(guò)1.8 TB/s的帶寬。通過(guò)3D堆疊內(nèi)存,可以以極小的空間實(shí)現(xiàn)高帶寬和高容量需求。進(jìn)一步,通過(guò)保持相對(duì)較低的數(shù)據(jù)傳輸速率,并使內(nèi)存靠近處理器,總體系統(tǒng)功率得以維持在較低水位。

采用HBM的設(shè)計(jì)的代價(jià)是增加復(fù)雜性和成本。中介層是一個(gè)附加元件,必須進(jìn)行設(shè)計(jì)、特性化和制造。與制造傳統(tǒng)DDR型內(nèi)存(包括GDDR)的巨大容量和制造經(jīng)驗(yàn)相比,3D堆疊內(nèi)存的出貨量顯得微不足道。最終的結(jié)果是,采用和制造HBM2E成本高于GDDR6。

出色的帶寬、容量,低功耗的延遲、極小的尺寸空間,使HBM2E內(nèi)存成為AI訓(xùn)練硬件的最佳選擇。

然而,對(duì)于人工智能訓(xùn)練應(yīng)用,HBM2E的優(yōu)點(diǎn)使其成為一個(gè)更好的選擇。它的性能非常出色,所增加的采用和制造成本可以透過(guò)節(jié)省的電路板空間和電力相互的緩解 。在物理空間日益受限的數(shù)據(jù)中心環(huán)境中,HBM2E緊湊的體系結(jié)構(gòu)提供了切實(shí)的好處。它的低功率意味著它的熱負(fù)荷較低,在這種環(huán)境中,冷卻成本通常是幾個(gè)最大的運(yùn)營(yíng)成本之一。

總而言之,HBM2E為系統(tǒng)設(shè)計(jì)者提供了極高的帶寬能力和最佳的功率效率。雖說(shuō)采用HBM2e系統(tǒng)的因設(shè)計(jì)復(fù)雜性和空間的增加,而更具挑戰(zhàn),但是板材面積的系統(tǒng)冷卻支出的節(jié)省卻是無(wú)與倫比。對(duì)于人工智能訓(xùn)練,HBM2E是一個(gè)理想的解決方案。這一事實(shí)是基于采用HBM2E強(qiáng)大成功記錄之上的,例如已被采用人工智能的處理器,如英偉達(dá)的Telsla A100和谷歌第二代TPU。

image.png

第二部分:GDDR6 內(nèi)存

圖形DDR SDRAM(GDDR SDRAM)最初是20多年前為游戲和顯卡市場(chǎng)設(shè)計(jì)的。在這段時(shí)間內(nèi),GDDR經(jīng)歷了幾次重大變革,最新一代GDDR6的數(shù)據(jù)傳輸速率為16Gbps。GDDR6提供了令人印象深刻的帶寬、容量、延遲和功率。它將工作電壓從1.5V降低到1.35V以獲得更高的功率效率,并使GDDR5內(nèi)存的數(shù)據(jù)傳輸速率(16比8 Gbps)和容量(16比8 GB)翻了一番。Rambus已經(jīng)演示了一個(gè)運(yùn)行速度為18 Gbps的GDDR6接口,顯示這種內(nèi)存架構(gòu)還有額外的增長(zhǎng)空間。

與HBM2E不同,GDDR6 DRAM采用與生產(chǎn)標(biāo)準(zhǔn)DDR式DRAM的大批量制造和組裝一樣的技術(shù)。更具體地說(shuō),GDDR6采用傳統(tǒng)的方法,通過(guò)標(biāo)準(zhǔn)PCB將封裝和測(cè)試的DRAMs與SoC連接在一起。利用現(xiàn)有的基礎(chǔ)架構(gòu)和流程為系統(tǒng)設(shè)計(jì)者提供了 熟悉度,從而降低了成本和實(shí)現(xiàn)的復(fù)雜性。

image.png

帶有四個(gè) DRAM的 GDDR6內(nèi)存系統(tǒng)

GDDR6內(nèi)存出色的性價(jià)比,建立在經(jīng)過(guò)時(shí)間考驗(yàn)的制造流程之上,使其成為人工智能推理應(yīng)用的絕佳選擇。

與HBM2E寬而慢的內(nèi)存接口不同,GDDR6接口窄而快。兩個(gè)16位寬通道(32條 數(shù)據(jù)線)將GDDR6 PHY連接到相關(guān)的SDRAM。GDDR6接口以每針16 Gbps的速度運(yùn)行,可以提供64 GB/s的帶寬?;氐轿覀冎暗腖3汽車示例,GDDR6內(nèi)存系 統(tǒng)以連接四個(gè)DRAM設(shè)備為例,帶寬可以達(dá)到200 GB/s。

采用GDDR6的主要設(shè)計(jì)挑戰(zhàn)也來(lái)自于它最強(qiáng)大的特性之一:速度。在較低的電壓條件,16 Gbps的信號(hào)速度下,保持信號(hào)完整性需要大量的專業(yè)經(jīng)驗(yàn)知識(shí)。設(shè)計(jì)人員面臨更緊的時(shí)序和電壓裕度量損失,這些損失來(lái)源與影響都在迅速增加。系 統(tǒng)的接口行為、封裝和電路板需要相互影響,需要采用協(xié)同設(shè)計(jì)方法來(lái)保證系統(tǒng)的信號(hào)完整性。

總的來(lái)說(shuō),GDDR6內(nèi)存的優(yōu)異性能特性建立久經(jīng)考驗(yàn)的基礎(chǔ)制造過(guò)程之上,是人工智能推理的理想內(nèi)存解決方案。其出色的性價(jià)比使其適合在廣泛的邊緣網(wǎng)絡(luò)和物聯(lián)網(wǎng)終端設(shè)備上大量采用。

image.pngimage.pngimage.png

GDDR6提供了最佳的內(nèi)存設(shè)計(jì)和使用效率

L3 內(nèi)存系統(tǒng)實(shí)施實(shí)例

可能沒(méi)有比更苛刻的“物聯(lián)網(wǎng)”人工智能推理應(yīng)用程序。在一個(gè)負(fù)責(zé)保護(hù)生命和財(cái)產(chǎn)的體系中,認(rèn)證標(biāo)準(zhǔn)必然很高。最終的結(jié)果是,經(jīng)過(guò)路試的內(nèi)存架構(gòu),如LPDDR(擁有數(shù)十億的移動(dòng)電話采用)和GDDR6已經(jīng)在早期的ADAS系統(tǒng)中得到了實(shí)現(xiàn)。 如上圖所示,LPDDR4/5內(nèi)存架構(gòu)可以達(dá)到L3-ADAS系統(tǒng)200GB/s的帶寬閾值, 但這需要大量的DRAM設(shè)備來(lái)實(shí)現(xiàn)。

從設(shè)計(jì)和利用的角度來(lái)看,GDDR6的效率要高得多,只需要不到一半的內(nèi)存顆粒數(shù)量就能達(dá)到所需的系統(tǒng)帶寬。隨著帶寬需求的增加,以滿足L4和L5 ADAS的需求,GDDR6成為唯一可行的替代方案。

如下圖所示,在L4 ADAS中,帶寬要求提高到300 GB/s。如果LPDDR5接口以 6.4 Gbps的速度運(yùn)行,則需要12個(gè)DRAM設(shè)備才能達(dá)到這一目標(biāo)。SoC的芯片前 沿邊將被內(nèi)存接口給全盤占據(jù)而令SOC版圖設(shè)計(jì)變復(fù)雜而不切實(shí)際。運(yùn)行速度為 16 Gbps的GDDR6僅用5個(gè)內(nèi)存顆粒就可以提供超過(guò)300 GB/s的帶寬,而對(duì)于L5 ADA,只需 8個(gè)內(nèi)存顆粒就可以達(dá)到500 GB/s以上的帶寬。

image.png

隨著更高級(jí)別的ADAS,內(nèi)存帶寬需求迅速增長(zhǎng)

ADAS記憶體帶寬要求

總之,GDDR6提供了帶寬、容量、能效、可靠性和性價(jià)比的完美結(jié)合。有了像 Rambus這樣值得信賴的合作伙伴,SoC設(shè)計(jì)人員可以實(shí)現(xiàn)所有這些好處,同時(shí)解決因16Gbps或更高速度運(yùn)行帶來(lái)的SI挑戰(zhàn)。

image.png

第三部分:HBM2E 和GDDR-AI的合作伙伴

鑒于AI/ML的需求分流的特性,內(nèi)存的選擇取決于應(yīng)用:訓(xùn)練還是推理。HBM2E 和GDDR6這兩種高帶寬內(nèi)存可以起到至關(guān)重要的作用,而不是“或”的問(wèn)題,而 是“和”的問(wèn)題之一。

對(duì)于訓(xùn)練來(lái)說(shuō),帶寬和容量是至關(guān)重要的需求。特別是考慮到訓(xùn)練集的規(guī)模正以每3.43個(gè)月翻一番的速度增長(zhǎng),正如我們前面討論的那樣。現(xiàn)行訓(xùn)練工作負(fù)載在多個(gè)服務(wù)器上運(yùn)行,以提供所需的處理能力,對(duì)虛擬化處理有翻天覆地的改變??紤]到通過(guò)訓(xùn)練創(chuàng)造的價(jià)值,并鑒于強(qiáng)大的“提早上市”誘因,其驅(qū)動(dòng)盡快完成訓(xùn)練計(jì)算的需求。此外,在數(shù)據(jù)中心運(yùn)行的訓(xùn)練應(yīng)用程序因電源和空間所致的限制越來(lái)越大,因此有一個(gè)提供更佳能效和更小尺寸的解決方案是一大加分。

考慮到所有這些需求,HBM2E是AI訓(xùn)練硬件的理想內(nèi)存解決方案。它提供了出色的帶寬和容量能力:461 GB/s的內(nèi)存帶寬和24 GB的容量,以單個(gè)12 DRAM 的 HBM2E堆棧即能實(shí)現(xiàn)。由于接口速度低和處理器距離近,它的3D結(jié)構(gòu)能以非常緊湊的尺寸和較低的功耗提供這些特性。

在推理的情況下,帶寬和延遲對(duì)于實(shí)時(shí)操作的需求至關(guān)重要。隨著推理被采用在廣泛的邊緣和物聯(lián)網(wǎng)終端設(shè)備上,其將比位于數(shù)據(jù)中心核心的實(shí)施成本更敏感。 此外,對(duì)于ADAS,內(nèi)存將需要依在道路測(cè)試技術(shù)以及制造工藝需求來(lái)建造,以滿足嚴(yán)格的認(rèn)證要求。隨著5G的不斷推出,將有越來(lái)越多的人工智能驅(qū)動(dòng)的、不受約束的設(shè)備執(zhí)行復(fù)雜的推理。

對(duì)于人工智能推理這一日益具有挑戰(zhàn)性的領(lǐng)域,GDDR6是一個(gè)理想的解決方案。它可以單個(gè)或少量的DRAM顆粒提供出色的帶寬:在16 Gbps的數(shù)據(jù)速率下,每個(gè)顆粒有64GB/s的內(nèi)存帶寬?;诔墒斓闹圃旃に?,它提供了適合大量生產(chǎn)的性價(jià)比特性。

結(jié)果是,AI/ML并不是單一的,其訓(xùn)練和推理都需要根據(jù)其特定需求定制的內(nèi)存解決方案。HBM2E和GDDR6分別滿足了訓(xùn)練和推理的需求,提供了這些應(yīng)用程 序所需的一系列長(zhǎng)處。正如前面討論的一樣,HBM2E與GDDR6呈現(xiàn)不同設(shè)計(jì)和 實(shí)施的挑戰(zhàn)。但是有了像Rambus這樣值得信賴的合作伙伴的解決方案,這些內(nèi)存的好處就可以很容易地實(shí)現(xiàn)。在下一節(jié)中,我們將回顧Rambus提供的HBM2E 和GDDR6接口解決方案。

image.png

第四部分:Rambus HBM2E 內(nèi)存接口解決方案

針對(duì)高帶寬和低延遲進(jìn)行了優(yōu)化,Rambus HBM2E接口提供了最好的性能與最小面積尺寸的特點(diǎn)和高效率。該接口由一個(gè)與PHY共同驗(yàn)證的數(shù)字控制器組成,包括一個(gè)完整的HBM2E內(nèi)存子系統(tǒng)。

Rambus HBM2E接口完全符合JEDEC JESD235B標(biāo)準(zhǔn)。它支持每個(gè)數(shù)據(jù)引腳高達(dá) 3.6 Gbps的數(shù)據(jù)傳輸速率。該接口具有8個(gè)獨(dú)立的通道,每個(gè)通道包含128位,總 數(shù)據(jù)寬度為1024位。由此每個(gè)堆棧支持的帶寬是461GB/s,每個(gè)堆棧由2、4、8或 12個(gè)DRAMs組成。

該接口是為一個(gè)2.5D系統(tǒng)設(shè)計(jì)的,它有一個(gè)用于在3D-DRAM堆棧和SoC上的PHY之間的中介層由提供信號(hào)繞線。這種信號(hào)密度和堆積尺寸的組合需要特殊的 設(shè)計(jì)考慮。為了便于實(shí)施和提高了設(shè)計(jì)的靈活性,Rambus對(duì)整個(gè)2.5D系統(tǒng)進(jìn)行完整的信號(hào)和功率完整性分析,以確保所有信號(hào)、功率和散熱要求都得到滿足。 

其他主要功能包括:

●   共同驗(yàn)證過(guò)的PHY和數(shù)字控制器

●   支持速度范圍: 0.5, 1.0, 1.5, 1.6, 1.8, 2.0, 2.4, 3.0, 3.2, 3.6 Gbps

●   8個(gè)通道和16個(gè)偽通道

●   支持2、4、8或12個(gè)DRAM堆棧

●   支持所有標(biāo)準(zhǔn)HBM2E通道密度(4、6、8、12、16、24 Gb)

●   內(nèi)存控制器或PHY可以是ASIC接口主機(jī)(PHY獨(dú)立模式)

●   可選低功率運(yùn)行狀態(tài)

●   可編程輸出阻抗

●   用于鏈路修復(fù)的引腳可編程支持

●   輸出阻抗的ZQ校準(zhǔn)

●   IEEE 1500測(cè)試支持

●   自主測(cè)試支持

●   SSO降噪

●   微凸塊間距DRAM間距間距匹配

●   采用13層或15層金屬疊層

●   東西向(PHY可放置在die角落)

●   狀態(tài)觀察寄存器接口

●   具有特色的LabStation?軟件開(kāi)發(fā)環(huán)境,有效隔離問(wèn)題,快速系統(tǒng)點(diǎn)亮、 校正和驗(yàn)證

image.png

HBM2E內(nèi)存接口子系統(tǒng)示例

第五部分:Rambus GDDR6 內(nèi)存接口解決方案

Rambus GDDR6接口專為性能和功率效率而設(shè)計(jì),支持AI/ML和ADAS推理高帶 寬與低延遲要求。它由一個(gè)經(jīng)共同驗(yàn)證的PHY和數(shù)字控制器組成,提供一個(gè)完整的GDDR6內(nèi)存子系統(tǒng)。Rambus GDDR6接口完全符合JEDEC GDDR6 JESD250標(biāo) 準(zhǔn),每個(gè)引腳支持高達(dá)16 Gbps。GDDR6接口支持2個(gè)通道,每個(gè)通道有16位, 總數(shù)據(jù)寬度為32位。Rambus GDDR6接口每針16 Gbps,提供帶寬為64 GB/s。

Rambus直接與客戶合作,提供完整的系統(tǒng)信號(hào)和電源完整性(SI/PI)分析,創(chuàng)建優(yōu)化的芯片布線版圖。客戶收到一個(gè)硬核解決方案與全套測(cè)試軟件可以快速啟動(dòng),定性和調(diào)試。

其他主要特性包括

●   經(jīng)共同驗(yàn)證的PHY和數(shù)字控制器

●   IP核的靈活交付(符合ASIC/SoC版圖 布線 要求)

●   支持速度范圍:12、14和 16 Gbps。Rambus展示了18 Gbps的未來(lái)可擴(kuò)展性。

●   兩個(gè)16位通道

●   支持GDDR6 SGRAM

●   內(nèi)存控制器或PHY可以是ASIC接口主機(jī)(PHY獨(dú)立模式)

●   可選低功率運(yùn)行狀態(tài)

●   可編程驅(qū)動(dòng)器/終端阻抗值

●   驅(qū)動(dòng)器/終端阻抗校準(zhǔn)

●   建置測(cè)試支持

●   采用13層金屬疊層

●   狀態(tài)觀察寄存器接口

●   具有特色的LabStation?軟件開(kāi)發(fā)環(huán)境,有校隔離問(wèn)題,快速系統(tǒng)點(diǎn)亮校正和驗(yàn)證

image.png

GDDR6 內(nèi)存接口子系統(tǒng)示例

總結(jié)

AI/ML的發(fā)展速度非??臁S?xùn)練能力正以每年10倍的速度增長(zhǎng),推動(dòng)著計(jì)算機(jī)硬 件和軟件各方面的快速發(fā)展。與此同時(shí),人工智能推理正在網(wǎng)絡(luò)邊緣和廣泛的物聯(lián)網(wǎng)設(shè)備中采用,包括在汽車/ADAS中。訓(xùn)練和推理有其獨(dú)特的應(yīng)用,定制內(nèi)存解決方案可以滿足的需求,HBM2E是前者的理想選擇,GDDR6是后者的理想選擇。設(shè)計(jì)師可以通過(guò)與Rambus合作來(lái)克服這些架構(gòu)中固有的設(shè)計(jì)挑戰(zhàn),從而實(shí)現(xiàn)這些高性能內(nèi)存的長(zhǎng)處。Rambus提供全面且現(xiàn)成的HBM2E和GDDR6內(nèi)存接口解決方案,可集成到AI/ML訓(xùn)練和推理SoCs中。

image.png




關(guān)鍵詞: ADAS ML DRAM 內(nèi)存

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉