賽靈思器件上的 INT4 優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)（2）

作者：Xilinx 時(shí)間：2020-09-15 來(lái)源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

接上期http://www.butianyuan.cn/article/202009/418351.htm

本文引用地址：http://www.butianyuan.cn/article/202009/418352.htm

賽靈思 DSP 片上的 INT4 優(yōu)化

使用 DSP 硬件資源可實(shí)現(xiàn)乘法和累加 (MAC) 占用硬件資源較少。經(jīng)優(yōu)化后，DSP 能夠在 16nm 或 28nm 器件上處理盡可能多的 MAC 運(yùn)算。以 16nm 為例，賽靈思可編程器件中 UltraScale? 架構(gòu)的 DSP48E2 片就屬于專用片[參考資料 11]。DSP48E2 片由一個(gè) 27x18 二進(jìn)制補(bǔ)碼乘法器和一個(gè) 48 位累加器構(gòu)成。如圖 3 所示，MAC 能使用賽靈思 DSP 片完成。

圖片.png

圖 3：MAC 模式下的 DSP48E2 片

INT4 優(yōu)化

在低精度 MAC 運(yùn)算中，相乘方式是 a*b。其中 a 是 4 位無(wú)符號(hào)激活參數(shù)數(shù)據(jù)，b 是 4 位有符號(hào)權(quán)重參數(shù)數(shù)據(jù)。DSP48E2 片可被配置成 4 通道乘法運(yùn)算，如圖 4 所示。

DSP48E2 片的端口 A 是 27 位寬。端口 B 是 18 位寬。int4 * uint4 相乘產(chǎn)生的結(jié)果至少有 8 位寬。充分利用 DSP 資源的前提是在多個(gè)相乘被打包在一起時(shí)，確保輸出結(jié)果保持正確。為確保這一點(diǎn)，通道之間添加了保護(hù)位。當(dāng)四個(gè) MAC 通道被打包在一起時(shí)，需要在兩路輸入間布置足夠的保護(hù)位。根據(jù) DSP48E2 片的設(shè)計(jì)，保護(hù)位被設(shè)置為 3 位：

第一個(gè)通道 A1*W1 被布置在對(duì)應(yīng)端口的 4LSB 上。下一個(gè)通道 A2*W1 需要移位至少 8 位才能正確計(jì)算。第二個(gè)通道與第一個(gè)通道共享權(quán)重參數(shù)數(shù)據(jù) W1。端口 B 中的 A2 移位 11 位。3 位保護(hù)位用于最大化 DSP 資源的利用。最后一個(gè)計(jì)算元 W2 被分配給端口 A。最后兩個(gè)通道是 A1*W2 和 A2*W2。權(quán)重參數(shù)是有符號(hào)數(shù)據(jù)。在相乘開(kāi)始前，使用 27 位預(yù)加法器打包兩個(gè)權(quán)重參數(shù)數(shù)據(jù)。因?yàn)?W1 需要符號(hào)擴(kuò)展，所以 W2 不能布置在 D 端口的四個(gè) MSB 上[參考資料 12]。如果 W2 在 MSB 中，當(dāng) W1 < 0 且 W2 = -8 時(shí)，預(yù)加法器就會(huì)溢出。后 48 位加法器可用作累加器，通過(guò)級(jí)聯(lián)對(duì)之前層次的 DSP 結(jié)果進(jìn)行相加。單個(gè) DSP48E2 就能在單個(gè)時(shí)鐘周期內(nèi)實(shí)現(xiàn)四通道 MAC。
結(jié)果的位寬在累加后增大。硬件友好型量化器是一組移位寄存器，它可以通過(guò)指令控制移位的位數(shù)。移位運(yùn)算是硬件友好型的。在低精度 CNN 中，卷積能夠使用兩種量化方法之一。一種是逐計(jì)算元地輸出 8 位。另一種是對(duì)下一卷積輸出 4 位。通過(guò)算法優(yōu)化，兩種量化方法都能量化成 2k 步長(zhǎng)。差別在于輸出數(shù)據(jù)的位寬以及它們是否是有符號(hào)數(shù)據(jù)。

DSP 強(qiáng)化使用

DSP 雙數(shù)據(jù)速率 (DDR) 技術(shù)被用于改進(jìn)由 DSP48 片實(shí)現(xiàn)的性能[參考資料 13]。因此需要為 DPU 提供兩個(gè)輸入時(shí)鐘：一個(gè)用于通用邏輯，另一個(gè)用于 DSP 片。未采用 DSP DDR 技術(shù)的 DPU 和采用強(qiáng)化使用模式的 DPU 之間的差異如圖 5 所示。
圖片.png

面向 CNN 要求的計(jì)算圖

卷積是 CNN 網(wǎng)絡(luò)的主要計(jì)算要求。卷積的實(shí)際計(jì)算任務(wù)如下：

其中Anf 是浮點(diǎn)特征圖，Wnf 是浮點(diǎn)權(quán)重。其本質(zhì)是 MAC 運(yùn)算。根據(jù)賽靈思的新穎量化感知訓(xùn)練解決方案，浮點(diǎn)的卷積計(jì)算按如下方式進(jìn)行量化：

其中 axf、awf 和abf 是標(biāo)度。這些浮點(diǎn)參數(shù)被轉(zhuǎn)換成2k*2k。這是一種硬件友好型標(biāo)度，能夠在 FPGA 中使用移位運(yùn)算輕松實(shí)現(xiàn)。
DSP 塊在一個(gè)時(shí)鐘周期中需要兩個(gè)權(quán)重和兩個(gè)特征。其中的每一個(gè)都能共享，如圖 6 所示。

圖片.png

在 W_1 所在的內(nèi)核里，內(nèi)核寬 * 內(nèi)核高 * 通道的全部像素需要與特征相乘，然后加總成一個(gè)輸出像素。在同一層，每個(gè)權(quán)重內(nèi)核共享同樣的特征圖。兩個(gè)被打包的權(quán)重需要來(lái)自兩個(gè)不同的權(quán)重內(nèi)核。每一步中當(dāng)權(quán)重內(nèi)核滑移到特征圖上時(shí)，對(duì)應(yīng)的特征數(shù)據(jù)就需要與該權(quán)重內(nèi)核相乘。一個(gè) DSP48 塊中的兩個(gè)特征應(yīng)來(lái)自同一特征圖里的不同滑動(dòng)窗口。

模型量化與性能仿真

下面的章節(jié)講解量化感知訓(xùn)練中使用的 CV 任務(wù)。這些任務(wù)包括圖像分類、姿態(tài)估計(jì)、2D 檢測(cè)、3D 檢測(cè)、語(yǔ)義分割和多任務(wù)。
基準(zhǔn)分類模型

在完成 ImageNet 分類數(shù)據(jù)集上的實(shí)驗(yàn)后得到如下結(jié)果。網(wǎng)絡(luò)包括 ResNet50-V1、ResNet50-V2。在所有實(shí)驗(yàn)中，數(shù)據(jù)集均從浮點(diǎn)模型進(jìn)行微調(diào)。所有偏差參數(shù)都量化到 8 位。實(shí)驗(yàn)結(jié)果如表 1 所列。

基準(zhǔn)分類模型的結(jié)果參見(jiàn)表 1。它體現(xiàn)了這種方法的有效性。具體對(duì) ResNet50V1 而言，4 位 XDPU 解決方案與 8 位 XDPU 解決方案在前 1 精度上的差距僅有 1.4%，在前 5 精度上的差距僅有 0.9%。

實(shí)時(shí) ADAS 模型，包括姿態(tài)估計(jì)、檢測(cè)、分割、多任務(wù)等。

為進(jìn)一步驗(yàn)證量化方法的通用性，也在真實(shí)場(chǎng)景下開(kāi)展了其他 CV 任務(wù)。

姿態(tài)估計(jì)

姿態(tài)估計(jì)任務(wù)使用更加復(fù)雜的堆疊 Hourglass 網(wǎng)絡(luò)[參考資料 14]。通過(guò)在 MPII[參考資料 15]數(shù)據(jù)集上開(kāi)展姿態(tài)估計(jì)實(shí)驗(yàn)，評(píng)估了逐層模式下兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的精度。結(jié)果參見(jiàn)表 2。

在表 2 中，hg-s2-b1 意味著堆棧數(shù)量是 2，塊數(shù)量是 1。Hg-s8-b1 意味著堆棧數(shù)量是 8，塊數(shù)量是 1。表 2 證明賽靈思 INT4 量化解決方案實(shí)現(xiàn)了可媲美浮點(diǎn)模型的精度。

2D 檢測(cè)

在 ADAS 系統(tǒng)中，BDD100K[參考資料 16]數(shù)據(jù)集用于 2D 檢測(cè)。此外，F(xiàn)PN 結(jié)構(gòu)被添加到 ResNet18-SSD 中，用作檢測(cè)網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果如表 3 所示。

表 3 所示的是在經(jīng)過(guò)微調(diào)后，8 位量化模型實(shí)現(xiàn)了高于浮點(diǎn)模型的 mAP。通過(guò)逐漸從 8 位微調(diào)到 4 位，最終的 4 位量化模型的 mAP 損耗小于 2%。2D 檢測(cè)的示意圖如圖 7 所示。

3D 檢測(cè)

ADAS 系統(tǒng)的 3D 檢測(cè)任務(wù)使用 KITTI 數(shù)據(jù)集[參考資料 17]。PointPillars[參考資料 18]用于開(kāi)展 3D 預(yù)測(cè)任務(wù)。實(shí)驗(yàn)結(jié)果如表 4 所示。

如表 4 所示，采用微調(diào)技巧后，4 位量化模型的精度僅比浮點(diǎn)模型低 0.16%。8 位和 4 位的 3D 檢測(cè)結(jié)果如圖 8 所示。

語(yǔ)義分割

在 ADAS 系統(tǒng)的語(yǔ)義分割任務(wù)中，CityScape 的數(shù)據(jù)集[參考資料 19]以理解城市視覺(jué)場(chǎng)景為重點(diǎn)。實(shí)驗(yàn)在以 ResNet18 為基干的特征金字塔網(wǎng)絡(luò) (FPN) 上開(kāi)展。結(jié)果如表 5 所示。

表 5 顯示，8 位模型可實(shí)現(xiàn)比浮點(diǎn)模型更高的 mIoU，4 位模型的 mIoU 僅比浮點(diǎn)模型低 1.7%。語(yǔ)義分割的示意圖參見(jiàn)圖 9。

多任務(wù)學(xué)習(xí)

為增強(qiáng)模型的歸納功能和精度，在多任務(wù)模型中使用了多個(gè)訓(xùn)練數(shù)據(jù)集，包括用于檢測(cè)的 Waymo 和 BDD100k，以及用于分割的 BDD100k 和 Cityscapes[參考資料 19]。這些研究在以 ResNet18 為基干的特征金字塔網(wǎng)絡(luò) (FPN) 上開(kāi)展。結(jié)果如表 6 所示。

表 6顯示，8 位量化模型可實(shí)現(xiàn)優(yōu)于浮點(diǎn)模型的 mAP 和與浮點(diǎn)模型保持同等水平的 mIoU。通過(guò)逐步微調(diào)，與浮點(diǎn)模型相比，最終的 4 位量化模型的 mAP 降低 1.66%，mIoU 提高 1.79%，仍然劣于 8 位模型的表現(xiàn)。多任務(wù)示意圖結(jié)果如表 10 所示。
圖片.png
競(jìng)爭(zhēng)分析：8 位與 4 位對(duì)比

4 位 XDPU 在下列三種評(píng)估板上以 300MHz 頻率運(yùn)行：Ultra96 與 Zynq UltraScale+ MPSoC ZCU104 和 ZCU102。表 7 所示的是 4 位 XDPU 和 8 位 XDPU 的比較情況。在不同的 FPGA 上，4位 XDPU 實(shí)現(xiàn)的性能提升在 1.5 倍到 2.0 倍之間。例如，ZCU102 板使用的硬件資源沒(méi)有增加，但性能提高 2 倍。

對(duì)于兩個(gè)精度不同的加速器，在啟用池化、逐計(jì)算元逐深度卷積和平均池化等全部功能后，對(duì)資源進(jìn)行比較。如表 8 中所示，在相同的性能架構(gòu)下，DSP 和 RAM 的占用顯著下降。鑒于資源耗用下降，4 位 XDPU 架構(gòu)被擴(kuò)展到 B8192 的最大規(guī)模。使用 B8192 架構(gòu)能以單器件實(shí)現(xiàn)更高性能。

以表 3 中 13.6FLOP 的 2D 檢測(cè)模型為例，兩個(gè)高精度模型 4/4 和 8/8 分別使用 4 位 XDPU 和 8 位XDPU 進(jìn)行測(cè)試。該網(wǎng)絡(luò)的計(jì)算要求是 13.6GOP。2D 檢測(cè)網(wǎng)絡(luò)的幀率如表 9 所示，測(cè)試不包含預(yù)處理和后處理。鑒于效率和網(wǎng)絡(luò)類型的差異，性能和幀率之間不存在線性關(guān)系。如表 9 所示，4 位XDPU 的幀率在所有平臺(tái)上均優(yōu)于 8 位 XDPU。

結(jié)論

本白皮書(shū)介紹了一種運(yùn)行在 Zynq UltraScale+ MPSoC 和 Zynq-7000 SoC 系列（16nm 和 28nm）器件上的全流程、硬件友好型量化解決方案，可用作 CNN 的低精度加速器。此外，本白皮書(shū)也介紹了如何在賽靈思 DSP 片上優(yōu)化 INT4，從而在一個(gè)時(shí)鐘周期內(nèi)完成 4 通道 INT4 相乘。卷積的計(jì)算要求可通過(guò)打包 DSP 予以滿足。與 INT8 XDPU 解決方案相比，使用 DSP 實(shí)現(xiàn)的 INT4 優(yōu)化在真實(shí)硬件上可將處理峰值 GOPS 提升最大 2 倍并將性能最高提升 1.77 倍。這種賽靈思解決方案在各種 CV任務(wù)上都獲得了媲美浮點(diǎn)模型的結(jié)果。對(duì)于資源受限和功耗受限的用例，賽靈思繼續(xù)創(chuàng)新軟硬件協(xié)同優(yōu)化方法，為深度學(xué)習(xí)應(yīng)用提速。

新聞中心

賽靈思器件上的 INT4 優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)（2）

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)