眾核多計(jì)算模式系統(tǒng)的構(gòu)建

作者：時(shí)間：2014-01-19 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

模式、執(zhí)行函數(shù)(即CUDA中的kernel函數(shù))等內(nèi)容，在計(jì)算任務(wù)在被加載前，需要通知形態(tài)管理模塊把眾核計(jì)算單元切換到指定的計(jì)算模式下，并通知資源管理模塊分配存儲(chǔ)空間，通過(guò)數(shù)據(jù)通信模塊獲取任務(wù)數(shù)據(jù)，然后讀取任務(wù)計(jì)算庫(kù)，加載執(zhí)行函數(shù)進(jìn)行計(jì)算。

本文引用地址：http://www.butianyuan.cn/article/226779.htm

形態(tài)管理模塊：接收任務(wù)管理模塊發(fā)送來(lái)的目標(biāo)計(jì)算模式，切換到該種計(jì)算模式。

資源管理模塊：根據(jù)任務(wù)管理模塊發(fā)送的參數(shù)分配存儲(chǔ)空間，包括眾核控制單元的存儲(chǔ)空間和眾核計(jì)算單元的存儲(chǔ)空間，眾核控制單元的存儲(chǔ)空間用于對(duì)任務(wù)數(shù)據(jù)進(jìn)行緩存，然后通過(guò)數(shù)據(jù)傳輸?shù)腁PI接口把緩存在眾核控制單元的數(shù)據(jù)傳送到眾核計(jì)算單元的存儲(chǔ)空間，在計(jì)算時(shí)由從眾核計(jì)算單元存儲(chǔ)空間加載數(shù)據(jù)進(jìn)行計(jì)算。

2.2 計(jì)算模式構(gòu)建與切換

計(jì)算模式構(gòu)建是形態(tài)管理模塊根據(jù)接收到的命令動(dòng)態(tài)構(gòu)建出被指定的目的計(jì)算模式的過(guò)程。眾核處理系統(tǒng)在初始化時(shí)，就已經(jīng)創(chuàng)建了指定數(shù)目的CUDA 流(CUDA流的最大數(shù)目取決于GPU中硬件工作隊(duì)列的數(shù)目)，并采用空位標(biāo)記法對(duì)創(chuàng)建的CUDA流進(jìn)行管理，通過(guò)標(biāo)記位的有效性描述CUDA 流的可用性。當(dāng)目的計(jì)算模式為單任務(wù)計(jì)算時(shí)，只需將首位的CUDA流標(biāo)記設(shè)置為有效，其他全部標(biāo)記為無(wú)效，在對(duì)計(jì)算任務(wù)加載時(shí)，將計(jì)算任務(wù)放入該CUDA流中進(jìn)行計(jì)算;當(dāng)目的計(jì)算模式為多任務(wù)計(jì)算時(shí)，需要將指定數(shù)目CUDA流的標(biāo)記位設(shè)置為有效，在對(duì)計(jì)算任務(wù)加載時(shí)，通過(guò)輪詢的方式將計(jì)算任務(wù)放入到相應(yīng)的CUDA 流中，利用CUDA 流的Hyper-Q特性，同時(shí)加載多個(gè)計(jì)算任務(wù)到眾核計(jì)算單元;當(dāng)目的計(jì)算模式為多任務(wù)流式計(jì)算時(shí)，需要將指定CUDA 流的標(biāo)記設(shè)置為有效，從構(gòu)建第一個(gè)計(jì)算步開(kāi)始，將第一個(gè)計(jì)算步放入第一個(gè)CUDA 流中進(jìn)行計(jì)算，當(dāng)?shù)谝粋€(gè)計(jì)算步首次完成計(jì)算后，利用二元信號(hào)量通知眾核控制單元中的任務(wù)管理模塊開(kāi)始構(gòu)建第二個(gè)計(jì)算步，并重新構(gòu)建第一個(gè)計(jì)算步，以此類推，完成對(duì)多任務(wù)流式計(jì)算中每個(gè)計(jì)算步的動(dòng)態(tài)構(gòu)建過(guò)程。

計(jì)算模式的切換是當(dāng)眾核計(jì)算單元的當(dāng)前計(jì)算模式與計(jì)算任務(wù)執(zhí)行需要的計(jì)算模式(即目的計(jì)算模式)不匹配時(shí)，需要對(duì)眾核計(jì)算單元的計(jì)算模式進(jìn)行切換，以適應(yīng)計(jì)算模式變化的需求。

在從任務(wù)配置文件中獲取適應(yīng)于計(jì)算任務(wù)執(zhí)行的目的計(jì)算模式后，首先與當(dāng)前計(jì)算模式進(jìn)行比較，若匹配成功則不需要進(jìn)行計(jì)算模式的切換;若匹配失敗則進(jìn)一步判斷眾核在當(dāng)前計(jì)算模式下是否空閑，如處于忙碌狀態(tài)則需要等待，對(duì)于不同優(yōu)先級(jí)的任務(wù)設(shè)有不同的等待時(shí)限，以保證對(duì)計(jì)算任務(wù)的及時(shí)響應(yīng)，當(dāng)大于這一時(shí)限時(shí)強(qiáng)制結(jié)束正在運(yùn)行的任務(wù)以釋放計(jì)算資源，從而構(gòu)建新的計(jì)算模式，完成計(jì)算模的切換過(guò)程，流程圖如圖4 所示。

2.3 共享內(nèi)存緩沖技術(shù)

眾核計(jì)算單元在對(duì)主控機(jī)請(qǐng)求的計(jì)算任務(wù)加載前，必須獲取來(lái)自主控機(jī)的任務(wù)數(shù)據(jù)，為了實(shí)現(xiàn)對(duì)任務(wù)數(shù)據(jù)的接收和發(fā)送，需要建立相應(yīng)的數(shù)據(jù)緩沖區(qū)。傳統(tǒng)的方法是采用消息隊(duì)列和基于共享內(nèi)存信號(hào)燈的方式來(lái)建立和管理數(shù)據(jù)緩沖區(qū)，但當(dāng)數(shù)據(jù)的寫(xiě)入和讀取速度差別較大時(shí)，容易造成數(shù)據(jù)緩沖區(qū)的阻塞。因此采用一種可滑動(dòng)動(dòng)態(tài)共享內(nèi)存緩沖技術(shù)，如圖5所示。

在眾核控制單元的存儲(chǔ)空間中申請(qǐng)存儲(chǔ)空間作為存放數(shù)據(jù)的緩沖池，按需要建立指定數(shù)量的單向指針鏈表，每個(gè)指針鏈表代表一個(gè)數(shù)據(jù)緩沖區(qū)，在眾核處理系統(tǒng)的計(jì)算模式切換時(shí)，可根據(jù)并行任務(wù)數(shù)目的變化修改指針鏈表的節(jié)點(diǎn)數(shù)，使每個(gè)數(shù)據(jù)緩沖區(qū)占用的存儲(chǔ)空間按需滑動(dòng)，以提高整個(gè)數(shù)據(jù)緩池?cái)?shù)據(jù)的傳遞效率。

2.4 計(jì)算庫(kù)動(dòng)態(tài)加載

在對(duì)計(jì)算任務(wù)的執(zhí)行函數(shù)進(jìn)行加載時(shí)，采用動(dòng)態(tài)共享庫(kù)的方式，因?yàn)閯?dòng)態(tài)鏈接的共享庫(kù)具有動(dòng)態(tài)加載、封裝實(shí)現(xiàn)、節(jié)省內(nèi)存等優(yōu)點(diǎn)，可以把眾核計(jì)算單元的執(zhí)行函數(shù)與邏輯控制程序相隔離，降低了眾核計(jì)算與邏輯控制的耦合度，增加了可擴(kuò)展性和靈活性。

在動(dòng)態(tài)加載計(jì)算庫(kù)前，需要將執(zhí)行函數(shù)編譯生成動(dòng)態(tài)共享庫(kù)，進(jìn)而在程序中進(jìn)行顯示調(diào)用。當(dāng)調(diào)用時(shí)使用動(dòng)態(tài)加載API,該過(guò)程首先調(diào)用dlopen以打開(kāi)指定名字的動(dòng)態(tài)共享庫(kù)，并獲得共享對(duì)象的句柄;而后通過(guò)調(diào)用dlsym,根據(jù)動(dòng)態(tài)共享庫(kù)操作句柄與符號(hào)獲取該符號(hào)對(duì)應(yīng)的函數(shù)的執(zhí)行代碼地址;在取得執(zhí)行代碼地址后，就可以根據(jù)共享庫(kù)提供的接口調(diào)用與計(jì)算任務(wù)對(duì)應(yīng)的執(zhí)行函數(shù)，將執(zhí)行函數(shù)發(fā)射到眾核計(jì)算單元，由眾核計(jì)算單元根據(jù)執(zhí)行函數(shù)的配置參數(shù)組織計(jì)算資源進(jìn)行計(jì)算;當(dāng)不會(huì)再調(diào)用共享對(duì)象時(shí)調(diào)用dlclose關(guān)閉指定句柄的動(dòng)態(tài)共享庫(kù)。

3 結(jié)語(yǔ)

針對(duì)復(fù)雜應(yīng)用領(lǐng)域計(jì)算任務(wù)對(duì)多種計(jì)算模式的需求，本文研究了眾核處理機(jī)結(jié)構(gòu)，根據(jù)NVIDIA KeplerGK110架構(gòu)中Hyper-Q 與CUDA 流的特性，構(gòu)建了可單任務(wù)并行計(jì)算、多任務(wù)并行計(jì)算、多任務(wù)流式計(jì)算間動(dòng)態(tài)切換的眾核多計(jì)算模式系統(tǒng)，能夠提高實(shí)時(shí)計(jì)算平臺(tái)的靈活性，以適應(yīng)不同的任務(wù)計(jì)算需求。下一步的研究方向是挖掘GPU中硬件工作鏈路與SM(Streaming Mul-tiprocessor)間的映射機(jī)制。

新聞中心

眾核多計(jì)算模式系統(tǒng)的構(gòu)建

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)