一種面向多核DSP的小容量緊耦合快速共享數(shù)據(jù)池

作者：時(shí)間：2009-04-02 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

除了這種對(duì)程序員透明的硬件同步機(jī)制之外，F(xiàn)SDP還支持基于軟件查詢的同步機(jī)制。即在每次改變信號(hào)燈狀態(tài)前，插入一段查詢“信號(hào)燈”狀態(tài)的例程，然后根據(jù)查詢的結(jié)果決定程序的流向。

4.4 消除讀訪問(wèn)沖突

在FSDP的共享模式下存在多DSP核同時(shí)讀一個(gè)存儲(chǔ)體的沖突。雖然利用仲裁邏輯配合隊(duì)列機(jī)制可以緩解沖突，但是，這種方式降低了FSDP的并行性。另外，可以采用存儲(chǔ)體復(fù)制或者采用多端口存儲(chǔ)體的方式。為此，本文進(jìn)行了對(duì)比實(shí)驗(yàn)，結(jié)果表明，4個(gè)1KB大小的單端口SRAM在工作頻率和面積上都優(yōu)于4端口1KB的全定制SRAM模塊，而且單端口SRAM可以由EDA工具快速編譯生成，便于設(shè)計(jì)實(shí)現(xiàn)。因此，對(duì)于FSDP這類小容量的便箋存儲(chǔ)器，本文采用存儲(chǔ)體復(fù)制的方式解決訪問(wèn)沖突：將原來(lái)的每個(gè)存儲(chǔ)體換成4個(gè)同樣大小的單端口存儲(chǔ)體，構(gòu)成具有4個(gè)虛擬端口的存儲(chǔ)體，如圖5所示。

在處理讀寫訪問(wèn)時(shí)，存控邏輯自動(dòng)進(jìn)行數(shù)據(jù)寫復(fù)制和讀端口的分配工作，讀寫過(guò)程中對(duì)用戶都是透明的。這種方式完全消除了多核的讀訪問(wèn)沖突，實(shí)現(xiàn)了最大的共享訪問(wèn)帶寬，提高了FSDP的并行性和實(shí)時(shí)性。

圖5 存儲(chǔ)體復(fù)制構(gòu)成虛擬多端口存儲(chǔ)體

5. 性能分析

5.1 分析模型與設(shè)計(jì)實(shí)現(xiàn)

本文構(gòu)建了整個(gè)SDSP的C語(yǔ)言模擬器SDSP-Sim。SDSP-Sim是一個(gè)時(shí)鐘精確的模擬器，能夠運(yùn)行經(jīng)過(guò)編譯和手工分配的多核DSP應(yīng)用程序，報(bào)告程序運(yùn)行的各種統(tǒng)計(jì)信息和計(jì)算結(jié)果。每個(gè)處理器核占用一個(gè)模擬進(jìn)程，RISC與DSP核之間采用進(jìn)程通信的方式傳輸控制信息。本文以MediaBench基準(zhǔn)程序集為基礎(chǔ)，選擇了6組典型的多媒體類與通信類應(yīng)用程序，用于評(píng)測(cè)FSDP的性能，如表1所示。為了滿足多核DSP的并行計(jì)算需求，對(duì)于原來(lái)復(fù)雜度較低的一些測(cè)試程序，例如PEGWIT和JPEG_c，本文擴(kuò)大了它們的數(shù)據(jù)集。對(duì)于MP3解碼程序MP3_d則將其擴(kuò)展為兩路并行解碼器2MP3_d。由于SDSP的并行編譯器開(kāi)發(fā)工作還沒(méi)有完成，本文仍采用手工的方式對(duì)測(cè)試程序進(jìn)行并行化映射。

表1 用于性能評(píng)測(cè)的測(cè)試程序說(shuō)明

本文采用SMIC 0.13μm CMOS工藝庫(kù)對(duì)FSDP進(jìn)行了設(shè)計(jì)實(shí)現(xiàn)。其中各存儲(chǔ)體采用EDA工具生成的單端口SRAM。下表2給出了FSDP的各項(xiàng)設(shè)計(jì)指標(biāo)。其中，“無(wú)阻塞讀延遲”是指在同步成功且沒(méi)有沖突的情況下，從DSP核發(fā)出讀請(qǐng)求到獲得返回?cái)?shù)據(jù)之間的時(shí)間間隔。

表20.13μm CMOS工藝下四通道FSDP的各項(xiàng)性能指標(biāo)

5.2 性能對(duì)比

對(duì)于多核處理器共享SPM的研究，前人的工作主要是針對(duì)SPM的編譯優(yōu)化和數(shù)據(jù)劃分算法的研究。文獻(xiàn)0介紹的VS-SPM（虛擬共享便箋存儲(chǔ)器）原型結(jié)構(gòu)與本文的FSDP有類似之處，它根據(jù)SPM與處理器核的關(guān)系，將SPM分成本地SPM和遠(yuǎn)程SPM，各個(gè)處理器核通過(guò)共享總線訪問(wèn)各SPM模塊。下表3對(duì)比了本文的FSDP與VS-SPM在結(jié)構(gòu)上的差異。VS-SPM主要是針對(duì)編譯優(yōu)化和數(shù)據(jù)劃分算法優(yōu)化而設(shè)計(jì)的，其硬件優(yōu)化程度和訪問(wèn)速度都不及FSDP，而且沒(méi)有解決多個(gè)處理器核并行訪問(wèn)沖突的問(wèn)題，不支持核間數(shù)據(jù)的流水傳輸。

表3 FSDP與VS-SPM的結(jié)構(gòu)對(duì)比

本文建立了VS-SPM的結(jié)構(gòu)模型，將DSP核間同樣一批共享數(shù)據(jù)先后映射到VS-SPM和FSDP的存儲(chǔ)空間上，分別得到兩種結(jié)構(gòu)下程序的執(zhí)行時(shí)間TVS-SPM和TF-SDP，然后按照（1）式計(jì)算出FSDP相對(duì)VS-SPM的性能加速比。

圖6給出了6組測(cè)試程序的實(shí)驗(yàn)結(jié)果。結(jié)果表明，通過(guò)FSDP在DSP核之間傳輸共享數(shù)據(jù)相比通過(guò)VS-SPM傳輸具有明顯的性能優(yōu)勢(shì)，6組程序的平均性能加速比達(dá)到了1.37。

圖6FSDP相對(duì)VS-SPM的性能加速比

在引入FSDP之前，異構(gòu)多核DSP主要通過(guò)共享L2 Cache傳輸DSP核間的共享數(shù)據(jù)。為了評(píng)測(cè)FSDP對(duì)系統(tǒng)性能的加速作用，本文比較了下列三種數(shù)據(jù)映射方式下異構(gòu)多核DSP的計(jì)算性能：

僅用L2 Cache：DSP核間的共享數(shù)據(jù)全部通過(guò)L2傳輸；

僅用FSDP：DSP核間的共享數(shù)據(jù)全部通過(guò)FSDP傳輸；

FSDP + L2：將DSP核間的不規(guī)則共享數(shù)據(jù)映射到FSDP的地址空間，其余的共享數(shù)據(jù)流仍通過(guò)L2傳輸。

利用SDSP-Sim軟件模擬器分別得到上述三種映射方式下程序的執(zhí)行時(shí)間，然后以第一種映射方式下的執(zhí)行時(shí)間為基準(zhǔn)，計(jì)算出另外兩種方式的性能加速比，結(jié)果如圖7所示：

圖7三種數(shù)據(jù)映射方式下系統(tǒng)的計(jì)算性能對(duì)比

實(shí)驗(yàn)結(jié)果表明，在FSDP + L2 Cache方式下，程序的性能是最高的。6組程序的平均性能加速比為1.13。本文分析認(rèn)為：

對(duì)于核間共享數(shù)據(jù)包含大量細(xì)粒度數(shù)據(jù)和不規(guī)則數(shù)據(jù)流的應(yīng)用程序（例如PEGWIT和RASTA），僅用FSDP相比僅通過(guò)L2 Cache傳輸共享數(shù)據(jù)具有更高的計(jì)算性能；

對(duì)于核間共享數(shù)據(jù)量較大和數(shù)據(jù)流分布比較密集的應(yīng)用程序（例如2MP3_d和MPEG2_e），僅用FSDP傳輸共享數(shù)據(jù)的計(jì)算性能較低，這是因?yàn)镕SDP對(duì)共享數(shù)據(jù)的分塊處理使得同步開(kāi)銷在執(zhí)行時(shí)間中的比例增大，影響了總執(zhí)行時(shí)間；

FSDP與共享數(shù)據(jù)Cache結(jié)合使用進(jìn)一步提高了共享存儲(chǔ)多核DSP的片內(nèi)數(shù)據(jù)重用性，減少了對(duì)片外數(shù)據(jù)的長(zhǎng)延遲訪問(wèn)，因而能夠獲得最佳的計(jì)算性能。其中，對(duì)于需要緊耦合共享的小容量數(shù)據(jù)或者非常不規(guī)則的短數(shù)據(jù)流，優(yōu)先選擇通過(guò)FSDP傳輸，減少通過(guò)共享Cache的長(zhǎng)延遲訪問(wèn)開(kāi)銷；反之，對(duì)于大塊數(shù)據(jù)的共享或者規(guī)則數(shù)據(jù)流的傳輸，則宜采用共享Cache的方式，降低數(shù)據(jù)頻繁分塊的同步開(kāi)銷。

5.3 擴(kuò)展性分析

在消除了FSDP的訪問(wèn)沖突之后，所有DSP核可以同時(shí)訪問(wèn)不同的存儲(chǔ)體。理論上來(lái)看，F(xiàn)SDP的訪問(wèn)帶寬可以隨著DSP核數(shù)量的增長(zhǎng)而線性增長(zhǎng)，具有良好的可擴(kuò)展性。為此，我們進(jìn)行了分析與實(shí)驗(yàn)。定義B為FSDP的有效訪問(wèn)帶寬，即在考慮訪存延遲和工作頻率的情況下所有DSP核訪問(wèn)FSDP的實(shí)際存儲(chǔ)帶寬；N表示DSP核的數(shù)量。本文在N=1～8的情況下分別對(duì)FSDP進(jìn)行了單獨(dú)的設(shè)計(jì)實(shí)現(xiàn)，得到了B與N的關(guān)系，如圖8所示。

圖8FSDP有效訪問(wèn)帶寬與DSP核數(shù)量的關(guān)系

由實(shí)驗(yàn)結(jié)果可見(jiàn)，當(dāng)N小于5時(shí)， B快速增長(zhǎng)，與N呈近似的線性關(guān)系。隨著N的進(jìn)一步增大，DSP核與存儲(chǔ)體之間的控制邏輯開(kāi)銷、互連總線和交叉開(kāi)關(guān)端口數(shù)量以O(shè)(N2)量級(jí)增長(zhǎng)，F(xiàn)SDP的工作頻率開(kāi)始下降，訪問(wèn)延遲越來(lái)越大，F(xiàn)SDP的有效訪問(wèn)帶寬增長(zhǎng)十分緩慢。因此，F(xiàn)SDP更適合于5核以內(nèi)的多核DSP。當(dāng)DSP核數(shù)量超過(guò)8核以上時(shí)，我們將以4核為一個(gè)超節(jié)點(diǎn)進(jìn)行結(jié)構(gòu)擴(kuò)展。超節(jié)點(diǎn)內(nèi)部采用FSDP實(shí)現(xiàn)緊耦合的數(shù)據(jù)傳輸，超節(jié)點(diǎn)之間通過(guò)片上網(wǎng)絡(luò)（NoC）或者其他共享存儲(chǔ)結(jié)構(gòu)進(jìn)行數(shù)據(jù)傳輸。

7結(jié)束語(yǔ)

相比傳統(tǒng)的Cache結(jié)構(gòu)，便箋式存儲(chǔ)器具有更靈活的結(jié)構(gòu)、簡(jiǎn)潔的控制邏輯、更低的訪問(wèn)延遲和方便的數(shù)據(jù)管理等諸多優(yōu)勢(shì)。本文針對(duì)多核DSP架構(gòu)設(shè)計(jì)的快速共享數(shù)據(jù)緩沖池FSDP結(jié)合了便箋式存儲(chǔ)器的結(jié)構(gòu)特點(diǎn)和共享存儲(chǔ)結(jié)構(gòu)的編程需要，采用軟/硬件聯(lián)合的設(shè)計(jì)方法，為多核DSP之間傳輸細(xì)粒度共享數(shù)據(jù)提供了一個(gè)緊耦合的快速通路，相比共享二級(jí)Cache和DMA傳輸方式具有更好的傳輸效率，是一種新型而實(shí)用的、可擴(kuò)展多核共享存儲(chǔ)結(jié)構(gòu)。今后，我們將深入研究面向多核處理器的高性能共享存儲(chǔ)結(jié)構(gòu)，增強(qiáng)片上存儲(chǔ)的可擴(kuò)展性和可重構(gòu)能力，進(jìn)一步提高多核SoC的存儲(chǔ)帶寬。

新聞中心

一種面向多核DSP的小容量緊耦合快速共享數(shù)據(jù)池

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)