移動(dòng)算法而非巨量數(shù)據(jù)

作者：Simon Holt 時(shí)間：2022-06-27 來(lái)源：CTIMES

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)進(jìn)步使我們能夠處理越來(lái)越大量?jī)?chǔ)存資料。傳統(tǒng)方法是將數(shù)據(jù)傳輸?shù)剿惴ㄔO(shè)備，但是這種移動(dòng)巨量數(shù)據(jù)（高達(dá) 1 PB）以供可能只有幾十兆位元算法來(lái)進(jìn)行處理真的有意義嗎？因此，在靠近數(shù)據(jù)儲(chǔ)存位置處理數(shù)據(jù)的想法引起了很多關(guān)注。本文研究了計(jì)算儲(chǔ)存理論和實(shí)踐，以及如何使用計(jì)算儲(chǔ)存處理器 (CSP) 為許多計(jì)算密集型任務(wù)提供硬件加速和更高性能，而不會(huì)給主機(jī)處理器帶來(lái)大量負(fù)擔(dān)。

數(shù)據(jù)集崛起
近年來(lái)，神經(jīng)網(wǎng)絡(luò)算法在汽車、工業(yè)、安全和消費(fèi)等應(yīng)用中使用顯著增加?；谶吘壩锫?lián)網(wǎng)傳感器通常只處理少量數(shù)據(jù)，因此所使用算法占用很少代碼空間。然而，伴隨微控制器處理能力提高和功耗降低，機(jī)器學(xué)習(xí)算法在邊緣應(yīng)用中使用開(kāi)始呈指數(shù)級(jí)增長(zhǎng)。卷積神經(jīng)網(wǎng)絡(luò)用于視覺(jué)處理以及工業(yè)和汽車應(yīng)用中對(duì)象檢測(cè)。例如，視覺(jué)處理系統(tǒng)可用于檢測(cè)標(biāo)簽是否正確貼在高速工業(yè)生產(chǎn)線的瓶子上。

視覺(jué)系統(tǒng)還適用于更復(fù)雜任務(wù)，例如根據(jù)對(duì)象類型、條件和大小對(duì)物體進(jìn)行分類。在汽車應(yīng)用中，使用實(shí)時(shí)視覺(jué)系統(tǒng)進(jìn)行多物體分類和識(shí)別能夠更充分利用神經(jīng)網(wǎng)絡(luò)。除了具體市場(chǎng)應(yīng)用外，神經(jīng)網(wǎng)絡(luò)也可用于科學(xué)研究。例如，它可廣泛用于處理由分布在全球各地遙感衛(wèi)星和地震監(jiān)測(cè)傳感器收集的大量資料。

在大多數(shù)應(yīng)用中，機(jī)器學(xué)習(xí)用于增加正確觀察和分類對(duì)象概率。然而，為此目的的訓(xùn)練算法需要大型數(shù)據(jù)集（高達(dá) PB），這些數(shù)據(jù)集移動(dòng)、處理和儲(chǔ)存都具有非常大挑戰(zhàn)性。

計(jì)算儲(chǔ)存
近年來(lái)，基于NAND閃存普及程度快速增長(zhǎng)，這種技術(shù)不再局限于高端儲(chǔ)存，還可用于一般商品固態(tài)儲(chǔ)存，一個(gè)典型用例是正在取代筆記本電腦和桌面計(jì)算機(jī)中的磁盤驅(qū)動(dòng)器。固態(tài)儲(chǔ)存普及，加上NVMe協(xié)議興起（支持更高帶寬、更低延遲和更高儲(chǔ)存密度）以及 PCIe 連接帶來(lái)的更高數(shù)據(jù)速率，為我們提供了重新思考如何使用儲(chǔ)存和計(jì)算資源方法的機(jī)會(huì)。

圖片.png
圖一 : 具有計(jì)算和儲(chǔ)存平面的傳統(tǒng)計(jì)算架構(gòu)。（source：BittWare）

圖一所示傳統(tǒng)方法可在計(jì)算平面和儲(chǔ)存平面之間移動(dòng)數(shù)據(jù)。計(jì)算資源用于數(shù)據(jù)傳輸、處理、壓縮和解壓縮以及許多其他系統(tǒng)相關(guān)任務(wù)。所有這些任務(wù)的組合對(duì)可用資源造成沉重負(fù)擔(dān)。

圖片.png

圖二 : 計(jì)算儲(chǔ)存架構(gòu)。（source：BittWare）

圖二所示計(jì)算儲(chǔ)存架構(gòu)是一種更有效方法。它透過(guò)使用硬件加速器（通常在FPGA 上）來(lái)執(zhí)行計(jì)算密集型任務(wù)。將 NVMe 閃存靠近并連接到硬件加速器，CPU 不再需要將數(shù)據(jù)從其儲(chǔ)存位置移動(dòng)到處理位置附近，從而顯著降低運(yùn)行負(fù)擔(dān)。如圖三所示，F(xiàn)PGA在其中扮演計(jì)算儲(chǔ)存處理器角色，從而能夠減輕 CPU 處理壓縮、加密或神經(jīng)網(wǎng)絡(luò)推理等計(jì)算密集型任務(wù)負(fù)擔(dān)。

圖片.png

圖三 : 計(jì)算儲(chǔ)存處理器 (CSP)。（source：BittWare）

基于 FPGA 的計(jì)算儲(chǔ)存處理器
計(jì)算儲(chǔ)存處理器的一個(gè)例子是 BittWare IA-220-U2，它采用 Intel Agilex FPGA（具有多達(dá) 140 萬(wàn)個(gè)邏輯組件、多達(dá) 16GB DDR4 內(nèi)存和四個(gè) PCIe Gen4 接口）。 DDR4 SDRAM 能夠以高達(dá) 2,400 MT/s 速率傳輸數(shù)據(jù)，它使用符合 SFF-8639 標(biāo)準(zhǔn)的 2.5 英寸 U.2 封裝和對(duì)流冷卻散熱器，能夠整合到 U.2 NVMe 儲(chǔ)存數(shù)組，如圖 4 所示。

圖片.png

圖四 : BittWare IA220-U2。（source： BittWare）

BittWare IA-220-U2通常消耗 20W功率，并支持熱插入，它具有板載 NVMe-MI且兼容 SMBus 控制器、SMBus FPGA 閃存控制功能以及 SMBus 訪問(wèn)板載電壓和溫度監(jiān)測(cè)傳感器，可理想適用于企業(yè) IT 和數(shù)據(jù)中心等應(yīng)用。BittWare IA-220-U2 功能方塊圖和主要特性如圖 5 所示。

圖片.png

圖五 : BittWare IA-220-U2 功能方塊圖和特性。（source：BittWare）

IA-220-U2 設(shè)計(jì)用于在大容量應(yīng)用中執(zhí)行各種加速任務(wù)，包括算法推理、壓縮、加密和散列（hashing）、影像搜索和數(shù)據(jù)庫(kù)分類以及重復(fù)數(shù)據(jù)刪除等。

使用 BittWare IA-220-U2 實(shí)現(xiàn) CSP
BittWare IA -220-U2 可以使用 Eideticom 的 NoLoad IP 作為預(yù)配置解決方案提供?；蛘?，它可以為客制化應(yīng)用進(jìn)行使用者程序設(shè)計(jì)。

透過(guò)提供包含 PCIe 驅(qū)動(dòng)器、電路板監(jiān)控設(shè)備以及電路板庫(kù)的 SDK，BittWare可用來(lái)支持客制開(kāi)發(fā)?？梢允褂肐ntel Quartus Prime Pro 和高級(jí)綜合工具鏈以及設(shè)計(jì)流程來(lái)執(zhí)行 FPGA 應(yīng)用開(kāi)發(fā)。

本文引用地址：http://butianyuan.cn/article/202206/435607.htm

圖片.png
圖六 : Eideticom NoLoad IP 硬件特性。（來(lái)源：BittWare）

Eideticom 的 NoLoad IP 包括一個(gè)預(yù)配置即插即用解決方案，該解決方案采用基于 BittWare U.2 模塊的整合軟件堆棧，還提供一組硬件加速計(jì)算儲(chǔ)存服務(wù) (CSS)，在圖 6 中以橙色突出顯示。

圖片.png

圖七 : Eideticom 的 NoLoad IP 軟件堆棧。（source：BittWare）

圖七展示了 NoLoad IP 軟件組件，其中包括內(nèi)核空間堆棧文件系統(tǒng)和使用 NoLoad CSS 的 NVMe 驅(qū)動(dòng)器，以及面向具體應(yīng)用的使用者空間 Libnoload。

Eideticom NoLoad CPU 不可知解決方案卸除功能將服務(wù)質(zhì)量 (QoS) 提高了 40 倍，并還有較低擁有成本和更低功耗優(yōu)勢(shì)。

卸除計(jì)算密集型任務(wù)可提高通量
使用基于 NVMe 計(jì)算儲(chǔ)存架構(gòu)可在大型數(shù)據(jù)處理應(yīng)用中提供更高性能并使用更少功率。這種架構(gòu)透過(guò)使用基于 FPGA 的計(jì)算儲(chǔ)存處理器來(lái)執(zhí)行計(jì)算密集型任務(wù)，降低了將資料從儲(chǔ)存點(diǎn)傳輸?shù)教幚砥鳎ú⒎祷兀┑囊蟆Ｔ?NVMe NAND 閃存數(shù)組上處理點(diǎn)附近儲(chǔ)存數(shù)據(jù)可以節(jié)省能源，同時(shí)還可以減少延遲和所需帶寬。