使用多通道體系結(jié)構(gòu)優(yōu)化LPDDR4的性能和功耗
LPDDR4是用于移動(dòng)應(yīng)用的最新雙數(shù)據(jù)率同步DRAM,它是當(dāng)今高端便攜產(chǎn)品中常見的DRAM類型,應(yīng)用于如Samsung Galaxy S6智能手機(jī),Apple iPhone 6S [1],以及數(shù)種最新發(fā)布的設(shè)備。除了移動(dòng)應(yīng)用之外,預(yù)計(jì)LPDDR4會(huì)像其前任LPDDR3那樣應(yīng)用于平板電腦、輕薄筆記本電腦中,會(huì)采用“底層存儲(chǔ)器”配置,亦即,DRAM以物理方式焊接在主板上。
本文引用地址:http://www.butianyuan.cn/article/201808/385960.htmLPDDR4在很小的PCB面積和體積上提供了巨大的帶寬;在3200Mbps的數(shù)據(jù)率下,當(dāng)兩片Die封裝在一起時(shí),單個(gè)15毫米x15毫米LPDDR4封裝包可提供25.6 GByte/s的帶寬。LPDDR4建立在LPDDR2和LPDDR3的成功基礎(chǔ)之上,增加了新的特性并引入了主要的結(jié)構(gòu)變化。
本白皮書中闡明了LPDDR4與以前所有JEDEC DRAM規(guī)格的差異之處。討論了下述方面:
設(shè)計(jì)人員為何選擇LPDDR4
LPDDR4體系結(jié)構(gòu)的亮點(diǎn)
如何最好地配置LPDDR4通道
如何處理具有多通道連接的2片和4片封裝
通過(guò)系統(tǒng)級(jí)芯片(SOC)分割共享通道的優(yōu)點(diǎn)
如何優(yōu)化通道以實(shí)現(xiàn)最低功耗
為什么是LPDDR4?
LPDDR4包含多項(xiàng)特性,這使得SOC設(shè)計(jì)團(tuán)隊(duì)能夠降低分離DRAM的功耗。對(duì)于諸如PC和服務(wù)器等桌面設(shè)備,通常將使用安裝在雙列直插內(nèi)存模塊(DIMM)上的DDR器件,所述DIMM位于64位寬總線上。這類板級(jí)解決方案能夠就地升級(jí)DRAM容量,但需要長(zhǎng)且負(fù)載較重的連接線,與較短的走線相比,它消耗的功率更高。對(duì)于使用LPDDR2、LPDDR3和LPDDR4的系統(tǒng),每條總線上的內(nèi)存器件通常數(shù)量更少,連接線也更短,因而消耗的功率比DDR2、DDR3和DDR4器件更低。
設(shè)計(jì)團(tuán)隊(duì)能夠調(diào)用LPDDR4 DRAM內(nèi)的節(jié)能選項(xiàng)。這些特性包括更低的電壓和I/O電容;更小寬度的多路復(fù)用命令和地址總線;消除了on-DRAM DLL;更快進(jìn)出的低功耗待機(jī)模式;更快、更加簡(jiǎn)單的變頻。
最后,LPDDR4 DRAM具有溫度感知刷新特性,這有助于使DRAM的刷新率與DRAM的位單元本身的要求匹配,尤其是在低功率自刷新待機(jī)模式下更是如此。在待機(jī)模式下可自動(dòng)啟用該特性,類似地,在主動(dòng)模式下可讀取溫度指示,使得LPDDR4控制器能夠調(diào)節(jié)其自刷新率,從而與LPDDR4器件的熱狀態(tài)相符。
LPDDR4采用了針對(duì)移動(dòng)裝置的模型
在實(shí)際應(yīng)用中,移動(dòng)用戶僅在較少的時(shí)間段內(nèi)才會(huì)用到LPDDR4的最高工作頻率。此時(shí),用戶或是采集或顯示高清晰(4K)視頻,或是玩具有高圖形要求的游戲,或是處理圖形,或是引導(dǎo)或加載新的軟件。
在部分時(shí)間段內(nèi),內(nèi)存會(huì)降至LPDDR3速度級(jí)別。這一性能水平足以支持文本、呼叫、網(wǎng)頁(yè)瀏覽、照片、簡(jiǎn)單游戲:所有這些功能對(duì)CPU或GPU沒(méi)過(guò)高要求。
在大部分時(shí)間段內(nèi),移動(dòng)設(shè)備并不使用,它或是在口袋內(nèi)、或是在床邊,此時(shí)DRAM斷電或處于低速模式下。僅一個(gè)內(nèi)存通道處于活動(dòng)狀態(tài)下,用于執(zhí)行“始終在線、始終連接”任務(wù)。在該模式下,設(shè)備執(zhí)行后臺(tái)任務(wù),如保持電池接觸,接收消息,接收/顯示推送通知,郵件同步,以及時(shí)間顯示。
然而,正是由于最高使用時(shí)間的設(shè)備性能,很多移動(dòng)用戶升級(jí)了其設(shè)備,這正是該使用模式下優(yōu)秀用戶體驗(yàn)十分重要的原因之所在(圖1)。
圖1:最高使用時(shí)間是移動(dòng)用戶升級(jí)循環(huán)的驅(qū)動(dòng)因素
LPDDR4體系結(jié)構(gòu)變化
與前代相比,LPDDR4規(guī)范中確定了多種性能和特性改進(jìn)。最為重要的是,LPDDR4對(duì)體系結(jié)構(gòu)進(jìn)行了重大改變:LPDDR4器件采用了每一裸片上2個(gè)獨(dú)立通道的布局方案。
DDR2、DDR3和DDR4器件的每一封裝包提供了一套命令地址輸入總線和一套數(shù)據(jù)總線,最為常見的是每一封裝包一個(gè)裸片。LPDDR2和LPDDR3的每一封裝包可提供1~4個(gè)裸片。對(duì)于LPDDR4、LPDDR3和LPDDR2,在雙裸片和4裸片封裝包情形下,通常提供了2套獨(dú)立的命令地址輸入和數(shù)據(jù)總線(通道)。換句話講,LPDDR2和LPDDR3器件實(shí)施了部分多通道,其中,每一封裝包提供了2個(gè)獨(dú)立通道。LPDDR4將該特性發(fā)揮到極致,這是因?yàn)槊恳宦闫加袃蓚€(gè)獨(dú)立通道,大多數(shù)封裝包都有4個(gè)通道。
連接多個(gè)通道
LPDDR4體系結(jié)構(gòu)天然具有2個(gè)通道(圖2),每一裸片有2套命令地址輸入和2套數(shù)據(jù)總線。LPDDR4的2裸片封裝包提供了4個(gè)獨(dú)立通道。為了更有效地使用LPDDR4,設(shè)計(jì)人員必須理解LPDDR4體系結(jié)構(gòu)變化對(duì)SoC體系結(jié)構(gòu)的影響。
圖2:LPDDR4雙通道體系結(jié)構(gòu)
對(duì)于具有1個(gè)通道(如LPDDR3的單裸片封裝包)的單個(gè)DRAM器件,只能做單向連接,即SOC上的命令/地址總線接到位于DRAM上的命令/地址總線,SOC數(shù)據(jù)總線接到DRAM數(shù)據(jù)總線(圖3)。片選(CS)可在需要時(shí)使能DRAM。
圖3:連接單個(gè)DRAM裝置的標(biāo)準(zhǔn)方式
2個(gè)DRAM器件,或具有2個(gè)獨(dú)立接口的單個(gè)DRAM器件(如LPDDR4)可支持4種可能配置:
并行(前后緊接)
串行(多級(jí))
多通道
共享命令/地址
并行(前后緊接)連接
對(duì)于在DDR2/DDR3/DDR4方面具有豐富經(jīng)驗(yàn)的設(shè)計(jì)人員,最熟悉的選擇是并行或前后緊接配置。并行配置(圖4)對(duì)于2個(gè)或多個(gè)DRAM裸片是恰當(dāng)?shù)模瑢?duì)于與同一命令/地址總線相連的LPDDR4的2個(gè)通道也是恰當(dāng)?shù)?。它們采用了相同的片選,但每一數(shù)據(jù)總線具有獨(dú)立的數(shù)據(jù)通道。在這類并行連接中,所有的DRAM器件接收相同的命令和地址,但會(huì)通過(guò)不同的字節(jié)線發(fā)送其數(shù)據(jù)。由于可同時(shí)訪問(wèn)所有器件,因此兩個(gè)DRAM始終處于相同狀態(tài)。它們打開相同的內(nèi)存頁(yè)面,并訪問(wèn)相同的數(shù)據(jù)列,但保存在每一 DRAM中的數(shù)據(jù)不同。
圖4:并行(前后緊接)連接
串行(多級(jí))連接
第二種選擇是采用串行或多級(jí)配置將器件連接在一起(圖5)。這等效于將多個(gè)DIMM置于PC上的同一通道內(nèi)。命令/地址和數(shù)據(jù)總線均連接在兩個(gè)DRAM器件上,但根據(jù)命令循環(huán)選中的2個(gè)不同的片選,以對(duì)兩個(gè)DRAM器件的訪問(wèn)進(jìn)行獨(dú)立控制。這兩個(gè)器件可處于不同狀態(tài),具有不同的活動(dòng)內(nèi)存頁(yè)面。典型情況下,SOC負(fù)責(zé)控制共享數(shù)據(jù)總線,確保DRAM不會(huì)同時(shí)進(jìn)行數(shù)據(jù)傳輸。
圖5:串行(多級(jí))連接
多通道連接
多通道連接(圖6)為DRAM的每一通道或每一DRAM器件提供了與SOC的獨(dú)立連接,其中,每一器件或通道具有自己的命令/地址總線,數(shù)據(jù)總線和片選。由于采用了這一靈活配置,每一DRAM器件(或器件組)能夠彼此完全獨(dú)立地工作。它們可能處于不同狀態(tài),接收不同命令和不同地址,當(dāng)一器件執(zhí)行寫入操作時(shí),另一器件可執(zhí)行讀取操作。
多通道連接還允許DRAM工作在不同功耗狀態(tài)下。例如,某一塊內(nèi)存可能處于待機(jī)自刷新模式,而另一內(nèi)存處于完全激活狀態(tài)。
圖6:多通道連接
共享命令/地址(CA)連接
最后一種配置選擇更常應(yīng)用在非低功耗DDR器件中,這是一種具有共享命令/地址(CA)或共享AC(圖7)的多通道配置。在該配置下,兩個(gè)DRAM裝置接收相同的命令和地址,與串行連接類似,片選決定了哪個(gè)DRAM器件負(fù)責(zé)監(jiān)聽特定的時(shí)鐘周期,因而每一器件可能處于不同狀態(tài)下。兩個(gè)通道之間的DRAM命令仲裁在SoC內(nèi)部完成,但每一DRAM能夠獨(dú)立傳輸數(shù)據(jù)。
圖7:共享CA連接
雙通道連接的各種配置選項(xiàng)的比較
這些配置選項(xiàng)中的每一個(gè)各有其優(yōu)缺點(diǎn)(圖8)。例如,并行實(shí)施僅有8個(gè)可用庫(kù)(bank),任一時(shí)刻在32位數(shù)據(jù)總線上可突發(fā)塊取的最小數(shù)據(jù)量為64字節(jié)。并行方法不太適合于使用堆疊封裝(POP)的設(shè)計(jì)。
圖8:LPDDR4的雙通道(1個(gè)晶片)連接選項(xiàng)比較
串行連接也不太適合于POP實(shí)現(xiàn)。它的確能節(jié)省一些DQ引腳,但由于DRAM器件共享了數(shù)據(jù)總線,它所提供的帶寬只有其他解決方案的一半,該方法的吸引力較低。
共享CA適合于DDR系統(tǒng),多通道連接使得設(shè)計(jì)團(tuán)隊(duì)能夠從LPDDR4中獲取最大好處。
管理具有多通道連接的2裸片和4裸片封裝包
在LPDDR4的實(shí)施中,最常見的方式是在單個(gè)封裝包中使用2個(gè)LPDDR4裸片,該包提供了4個(gè)16位通道,可實(shí)現(xiàn)8種不同拓?fù)浞桨?。在將LPDDR4器件連接至SOC的8種可能方式中,有三種特別有用的實(shí)施方案:
“真正”的4通道,雙通道加雙并行,完全并行
對(duì)于希望在其LPDDR4裝置中實(shí)現(xiàn)最大帶寬的設(shè)計(jì)團(tuán)隊(duì),尤其是在使用較小的數(shù)據(jù)塊傳輸時(shí),可能會(huì)考慮真正的4通道實(shí)施方案(圖9)。與其他實(shí)施方案相比,它具有最大的bank數(shù)目,以及最小的塊提取尺寸。它要求在SOC上具有24個(gè)CA引腳,可與SOC上的4個(gè)單獨(dú)的內(nèi)存控制器以及PHY一起實(shí)施。
圖9:真正的4通道實(shí)施
雙通道加雙并行實(shí)施在全并行實(shí)施和4通道實(shí)施之間實(shí)現(xiàn)了良好折衷。對(duì)于LPDDR3-LPDDR4組合(圖10),它尤其有用。在使用LPDDR4的早期商用SOC中,大部分都采用了該配置。
雙通道加雙并行
圖10:雙通道和并行實(shí)施
全并行實(shí)施僅采用了6個(gè)CA引腳,具有最大的DQ數(shù)(64)。然而該系統(tǒng)中僅提供了8個(gè)Bank。最小尺寸塊提取尺寸為128字節(jié),這將會(huì)限制其在某些應(yīng)用中的實(shí)用性。由于總線負(fù)載或芯片級(jí)時(shí)序收斂方面的原因,可能還需要復(fù)制CA總線。
圖11顯示了雙裸片4通道LPDDR4多通道實(shí)施(左側(cè))和4裸片實(shí)施(右側(cè))的示例。LPDDR4封裝包具有4個(gè)連接的裸片,每一物理通道具有與其相連的2排(rank)內(nèi)存存儲(chǔ)體。對(duì)于該配置,要求設(shè)計(jì)團(tuán)隊(duì)在包的4個(gè)通道的每一通道的串行方向上擴(kuò)展連接。不幸的是,4裸片包未提供8通道連通性;在4裸片包上只有4個(gè)通道。
圖11:雙裸片和4裸片實(shí)施。4裸片LPDDR4多通道和串行實(shí)施增加了DRAM容量。該解決方案與2裸片封裝包兼容
概括而言,推薦的雙裸片LPDDR4實(shí)施為:
雙通道加并行,這是LPDDR3用戶最熟悉的方案,也是可以實(shí)現(xiàn)LPDDR3/LPDDR4組合的實(shí)現(xiàn)方式;
4通道,這是最靈活并具有潛在最高性能的方案。
關(guān)于共享通道的設(shè)計(jì)推薦,通過(guò)多Bank改善LPDDR4的性能
類似地,LPDDR4繼承了DRAM的很多特性,其存儲(chǔ)結(jié)構(gòu)由Bank構(gòu)成,每一Bank具有多行(Row),每一行具有用于存儲(chǔ)數(shù)據(jù)的多個(gè)列(Column)。訪問(wèn)位于相同行內(nèi)保存在列中的數(shù)據(jù)很快,訪問(wèn)位于不同Bank內(nèi)不同的行也很快,但訪問(wèn)位于相同Bank內(nèi)的不同行則會(huì)很慢。
獨(dú)立訪問(wèn)其他器件的每一通道意味著,每一通道上的每一Bank可以具有不同的活動(dòng)行。對(duì)于像視頻和網(wǎng)絡(luò)包等在內(nèi)存中隨機(jī)分布的小尺寸的數(shù)據(jù)傳輸類型而言,擁有更多的Bank能夠避免一些固有的、會(huì)限制性能的內(nèi)存時(shí)序參數(shù)。在盡可能多的Bank上傳輸數(shù)據(jù)能夠改善性能是因?yàn)樗芙档陀龅揭恍﹥?nèi)存時(shí)序參數(shù)的概率。
在系統(tǒng)中有更多的Bank,并延長(zhǎng)在每一Bank上完成命令所需的時(shí)間這一方法能夠改善性能,是由于降低了因tRRD、tFAW和tRC內(nèi)存時(shí)序參數(shù)所導(dǎo)致延遲的概率::
tRC:內(nèi)存的行周期時(shí)間。這是觸發(fā)同一Bank中不同行所需的最小時(shí)間。
tRRD:行-行延遲。這是觸發(fā)不同Bank中不同行所需的最小時(shí)間。
tFAW:4激活窗口。該時(shí)序參數(shù)的含義是,在一個(gè)tFAW窗口內(nèi),不能發(fā)出4個(gè)以上的激活(active)命令。LPDDR4標(biāo)準(zhǔn)將其設(shè)為tRRD的4倍,因此,對(duì)于LPDDR4,它們實(shí)際上是相同的定時(shí)約束,對(duì)于其他內(nèi)存,可能會(huì)采用tRRD和tFAW之間的不同關(guān)系。
評(píng)論