邊緣視覺(jué) AI 的理想平臺(tái)

作者：時(shí)間：2021-06-18 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

深度學(xué)習(xí)模型性能比較

本文引用地址：http://butianyuan.cn/article/202106/426416.htm

本白皮書引用英偉達(dá)公布的 Jetson Nano 和 Jetson Tx2 的時(shí)延性能優(yōu)化值和吞吐量性能優(yōu)化值[參考資料10]，并測(cè)量了賽靈思 AI 模型庫(kù)中提供的復(fù)雜性相似的等效模型的性能。在用 B3136 DPU 和 B4096 DPU 配置的 KV260 入門套件上執(zhí)行這些模型，獲取性能數(shù)值。賽靈思平臺(tái)上的所有模型均以 INT8 量化，以改善功耗并提高帶寬效率。英偉達(dá) Jetson Nano 和英偉達(dá) Jetson Tx2 的性能數(shù)值以 FP16 精度報(bào)告，因?yàn)檫@些英偉達(dá)器件不支持較低精度的 INT8 [參考資料 11]。但賽靈思和英偉達(dá)性能應(yīng)用均使用綜合數(shù)據(jù)作為輸入，在報(bào)告中并不包括預(yù)處理和后處理時(shí)間。參見(jiàn)表2。

表 2：深度學(xué)習(xí)模型性能比較

編號(hào)	模型	圖像大小	賽靈思 K26 B3136 DPU		賽靈思 K26 B4096 DPU		英偉達(dá) Jetson Nano		英偉達(dá) Jetson TX2
編號(hào)	模型	圖像大小	FPS （時(shí)延優(yōu)化）(1)	FPS （吞吐量?jī)?yōu)化）(2)	FPS （延遲優(yōu)化）	FPS （吞吐量?jī)?yōu)化）	FPS （時(shí)延優(yōu)化）	FPS （吞吐量?jī)?yōu)化）	FPS （時(shí)延優(yōu)化）	FPS （吞吐量?jī)?yōu)化）
1	Inception V4	299x299	19	19.1	30.3	30.4	11	13	24	32
2	VGG-19	224x224	17.9	17.9	17.4	17.4	10	12	23	29
3	Tiny Yolo V3	416x416	88.2	92.6	148.0	161.3	48	49	107	112
4	ResNet-50	224x224	49	49.1	75.6	75.9	37	47	84	112
5	SSD Mobilenet- V1	300x300	129.6	133.4	192.1	200.4	43	48	92	109
6	SSD ResNet34	1200x1200	1.6	1.6	2.5	2.5	1	1	3	2

說(shuō)明：

1.K26 SOM 完成時(shí)延優(yōu)化后可執(zhí)行一個(gè)線程。

2.K26 SOM 完成吞吐量?jī)?yōu)化后可執(zhí)行兩個(gè)線程。

3.請(qǐng)聯(lián)系您當(dāng)?shù)氐馁愳`思銷售代表，獲取賽靈思 ML 性能包說(shuō)明。

根據(jù)表 2 所列信息，所有模型在 K26 SOM 上的性能數(shù)值均優(yōu)于英偉達(dá) Jetson Nano。而且對(duì)于 SSD Mobilenet-V1 等部分模型，吞吐量則為 Jetson Nano 的四倍以上，為 Jetson Tx2 的兩倍左右。參見(jiàn)圖 5，從中可以很容易地看到顯著的吞吐量提升。

圖5 FPS 測(cè)量（時(shí)延優(yōu)化）

功耗測(cè)量

邊緣設(shè)備提供最佳性能這點(diǎn)非常重要，但同時(shí)必須降低能耗。本白皮書在研究中測(cè)量了英偉達(dá)和賽靈思 SOM 模塊在執(zhí)行表 2 所列的具體模型時(shí)發(fā)生的峰值功率。但是，SSD ResNet34 模型的功耗測(cè)量不包括在內(nèi)，因?yàn)?Jetson 基準(zhǔn)測(cè)試庫(kù)不包含此模型。[參考資料 10]峰值功率數(shù)值是在所有三種器件上的時(shí)延優(yōu)化模式下執(zhí)行比較時(shí)取得的。對(duì)于英偉達(dá) Jetson Nano 和 TX2，每 30 秒從 INA3221x

驅(qū)動(dòng)程序的 sysfs 節(jié)點(diǎn)獲取一次讀數(shù)；對(duì)于賽靈思 K26 SOM，每 10 秒從 ina260-adc 驅(qū)動(dòng)程序獲取一次讀數(shù)。參見(jiàn)表 3。

表3 峰值功率測(cè)量（單位：瓦）

編號(hào)	模型	賽靈思 K26 SOM B3136 DPU	賽靈思 K26 SOM B4096 DPU	英偉達(dá) Jetson Nano	英偉達(dá) Jetson TX2
1	Inception V4	8.09	10.10	7.40	11.20
2	VGG-19	8.55	11.28	8.10	13.10
3	Tiny Yolo V3	8.26	11.08	7.80	12.30
4	ResNet-50	7.47	9.28	7.70	11.70
5	SSD Mobilenet-V1	7.67	9.29	7.30	10.80

為了更準(zhǔn)確地理解功耗優(yōu)勢(shì)，請(qǐng)參看圖 6 所示的單位功耗性能。很明顯，K26 SOM 優(yōu)于 Jetson Nano 3.5 倍，優(yōu)于 Jetson TX2 2.4 倍。

圖6 FPS/瓦

剪枝優(yōu)勢(shì)

賽靈思提供 AI 優(yōu)化工具，能進(jìn)一步增強(qiáng)運(yùn)行在 K26 SOM 上的各種神經(jīng)網(wǎng)絡(luò)的性能。本白皮書中提供的比較數(shù)據(jù)，到目前為止均是在未經(jīng)優(yōu)化或剪枝的原始模型上取得的。大多數(shù)神經(jīng)網(wǎng)絡(luò)通常都有過(guò)度參數(shù)化的情況，存在可以優(yōu)化的相當(dāng)嚴(yán)重的冗余。賽靈思的 AI 優(yōu)化器是一種行業(yè)領(lǐng)先的模型壓縮技術(shù)。該工具可在幾乎不影響精度的情況下，將模型復(fù)雜性最多降低 50 倍。

本白皮書引用了賽靈思研究部所做的案例研究中的一個(gè)例子[參考資料12]。這是一個(gè)擁有 117 千兆次運(yùn)算 (Gops) 的非常復(fù)雜的 SSD + VGG 模型，它使用賽靈思 AI優(yōu)化器工具經(jīng)多次迭代進(jìn)行優(yōu)化。圖7 所示的是使用 AI 優(yōu)化器工具為模型剪枝帶來(lái)的好處。作為基線，該模型運(yùn)算量為 117Gops，運(yùn)行在用兩個(gè) B4096 DPU 配置的 Zynq UltraScale+ MPSoC 上，最高 FPS 為 18。經(jīng)過(guò)數(shù)次剪枝迭代，數(shù)據(jù)顯示復(fù)雜性明顯下降，F(xiàn)PS 相應(yīng)增加，但未對(duì)精度 (mAP) 造成任何影響。在第 11 次迭代時(shí)，復(fù)雜性降低了 10 倍，即復(fù)雜性從 117Gops 降低到 11.6Gops；性能提高 5 倍，即性能從 18FPS 提高到 103FPS；精度僅下降 1.1%，即從 61.55mAP 下降到 60.4mAP。

圖7 剪枝結(jié)果

到這里，我們已經(jīng)對(duì) Kria K26 SOM 與 GPU 的原始性能對(duì)比做了介紹。了解這種原始性能在實(shí)際用例中的意義至關(guān)重要。實(shí)際用例結(jié)構(gòu)復(fù)雜，涉及流水線中的其他模塊，如任何 AI-ML 應(yīng)用所需的預(yù)處理和后處理組件。在這類應(yīng)用中，最大吞吐量由流水線中性能最低的組件決定。

下面章節(jié)里的性能比較以兩種器件的實(shí)際用例為基礎(chǔ)。

實(shí)際應(yīng)用的性能比較

為了分析實(shí)際用例，我們選擇了一種準(zhǔn)確檢測(cè)和識(shí)別車輛牌照的基于機(jī)器學(xué)習(xí)的應(yīng)用。賽靈思已經(jīng)與在智慧城市視頻分析解決方案領(lǐng)域居于行業(yè)領(lǐng)先地位的 Uncanny Vision 合作，旨在為市場(chǎng)提供世界一流的汽車牌照（車牌）識(shí)別 (ANPR) 解決方案。這種應(yīng)用已得到世界上眾多城市的廣泛采用，用于智慧城市的建設(shè)中。ANPR 的主要應(yīng)用包括自動(dòng)收費(fèi)管理系統(tǒng)、高速公路監(jiān)測(cè)系統(tǒng)、停車場(chǎng)門禁和安全門門禁。ANPR應(yīng)用是一種基于 AI 的流水線，內(nèi)含視頻解碼、圖像預(yù)處理、機(jī)器學(xué)習(xí)（檢測(cè)）和 OCR 字符識(shí)別。參見(jiàn)圖8。

圖8 ALPR 應(yīng)用的處理模塊

ANPR AI 盒應(yīng)用一般從現(xiàn)貨 IP 攝像頭攝入一個(gè)到多個(gè) H.264 或 H.265 編碼的 RTSP 流并進(jìn)行解碼（解壓縮）。解碼的視頻幀在被機(jī)器學(xué)習(xí)算法攝入前，先進(jìn)行預(yù)處理（通常是縮放、剪裁、色彩空間轉(zhuǎn)換和歸一化）。就高性能商用 ANPR 實(shí)現(xiàn)方案而言，通常需要多級(jí) AI 流水線。第一個(gè)網(wǎng)絡(luò)的作用是檢測(cè)和定位幀內(nèi)的車輛。這項(xiàng)操作中還結(jié)合了跨多幀追蹤車輛軌跡的算法和選擇最佳幀曝光，為OCR 優(yōu)化圖像畫質(zhì)的算法。通常先剪裁和縮放車輛感興趣區(qū)域 (ROI)，然后饋入負(fù)責(zé)定位車牌的次級(jí)檢測(cè)網(wǎng)絡(luò)。與車牌 ROI 有關(guān)的像素經(jīng)過(guò)剪裁和縮放，最終被饋送到負(fù)責(zé)實(shí)現(xiàn) OCR 預(yù)測(cè)的最后一個(gè)神經(jīng)網(wǎng)絡(luò)。最后一級(jí)提供的元數(shù)據(jù)預(yù)測(cè)是壓印或印刷在車牌上或是以其他方式可見(jiàn)的字母數(shù)字字符。為了進(jìn)行比較，已商業(yè)化地部署在 GPU 和 CPU 上的 Uncanny Vision 的 ANPR 應(yīng)用，為實(shí)現(xiàn)在 Kria KV260 視覺(jué) AI 入門套件上的部署進(jìn)行了優(yōu)化。結(jié)果證明，將 Uncanny Vision 算法在 Kria SOM 上進(jìn)行部署后，打破了每流 100 美元的價(jià)格壁壘，而且性能是 Uncanny Vision 以前使用的商品化同類 SOM 產(chǎn)品的 2-3 倍。盡管賽靈思沒(méi)有專門為運(yùn)行在英偉達(dá) SOM 上的 Uncanny Vision 算法進(jìn)行基準(zhǔn)測(cè)試，但表4 體現(xiàn)的是將 Uncanny Vision 行業(yè)領(lǐng)先的 ANPR 算法部署在 Kria SOM 上后，與英偉達(dá)用 Deepstream-SDK[參考資料13]完成的“車牌識(shí)別”的公開(kāi)數(shù)據(jù)的比較。

表4 ANPR 應(yīng)用的性能比較

硬件（模塊）	英偉達(dá) Jetson Nano	英偉達(dá) Jetson TX2 4GB	英偉達(dá) Jetson TX2 NX	賽靈思 Kria K26C SOM
價(jià)格	129 美元	299 美元	199 美元	250 美元
Fps	8(1)	23(1)	未公布，預(yù)計(jì)是TX2	33
流數(shù)量（假定每流10fps）	~1	2	未公布，預(yù)計(jì)是TX2	3
每流價(jià)格	129 美元	150 美元	100 美元	83 美元
最大功耗（僅SOM）	10W(2)	15W(2)	未公布，預(yù)計(jì)是TX2	15W(3)
每流功耗	10	7.5	7.5	5

說(shuō)明：

1.來(lái)源：https://developer.nvidia.com/deepstream-sdk

2.英偉達(dá)的功耗值是其 SOM 的最大額定功耗。來(lái)源：https://developer.nvidia.com/embedded/jetson-modules

3.僅 K26 SOM 的最大額定功耗。

這些數(shù)據(jù)說(shuō)明，Uncanny Vision 的 ANPR 流水線在針對(duì) KV260 入門套件進(jìn)行優(yōu)化后，實(shí)現(xiàn)了超過(guò) 33fps 的吞吐量，顯著優(yōu)于英偉達(dá)基準(zhǔn)測(cè)試中 Jetson Nano 的 8pfs 和 Jetson Tx2 的 23fps。這種前所未有的性能水平為ANPR 集成商和 OEM 廠商提供了優(yōu)于競(jìng)爭(zhēng)對(duì)手的開(kāi)發(fā)靈活性。每多安裝一個(gè) AI 盒都會(huì)直接影響安裝成本，還不考慮相關(guān)的布線和導(dǎo)管成本。根據(jù)安裝的具體情況，設(shè)計(jì)師可以犧牲幀率來(lái)?yè)Q取更大的每盒處理流數(shù)。對(duì)于停車場(chǎng)安裝（如停停走走、攔車桿和自由通行），推斷和捕獲幀率通常要達(dá)到 10fps 才可滿足要求，還能可靠地采集車牌元數(shù)據(jù)。這便于設(shè)計(jì)師將多個(gè)攝像頭流聚合到單個(gè) AI 盒，從而節(jié)省

每個(gè)閘門的總體資本支出 (CAPEX) 和運(yùn)營(yíng)成本 (OPEX)。在高速應(yīng)用中，如高速公路收費(fèi)和執(zhí)法，較高的幀率確保能夠準(zhǔn)確可靠地檢測(cè)和識(shí)別高速行駛中的車輛。在 33fps 的吞吐量下，與當(dāng)今市場(chǎng)上有可比性的競(jìng)爭(zhēng)解決方案相比，K26 SOM 能夠更加可靠地為識(shí)別和證據(jù)搜集提供支持。

大多數(shù) ANPR 系統(tǒng)都需要在環(huán)境嚴(yán)苛的條件下高可靠性運(yùn)行。I 級(jí)的 K26 SOM 專為嚴(yán)酷環(huán)境開(kāi)發(fā)，

支持 –40°C 至 100°C 的工作溫度范圍和行業(yè)領(lǐng)先的三年質(zhì)保。在采用 K26I SOM 后，與市場(chǎng)上原有解決方案相比，ANPR 系統(tǒng)的總體擁有成本顯著降低。

Uncanny Vision 的 ANPR 應(yīng)用說(shuō)明，K26 SOM 不僅在標(biāo)準(zhǔn)性能比較中表現(xiàn)極其優(yōu)異，并且在為開(kāi)發(fā)者提供加速整體 AI 和視覺(jué)流水線所需的原始性能時(shí)，效率也更高。通過(guò)對(duì)比，在標(biāo)準(zhǔn)的基準(zhǔn)測(cè)試領(lǐng)域之外，競(jìng)爭(zhēng)解決方案傾向于提供較低效率水平，而且功耗較高。

上一頁(yè) 1 2 3 4 5 下一頁(yè)

新聞中心

邊緣視覺(jué) AI 的理想平臺(tái)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)