邊緣視覺(jué) AI 的理想平臺(tái)
深度學(xué)習(xí)模型性能比較
本文引用地址:http://butianyuan.cn/article/202106/426416.htm本白皮書引用英偉達(dá)公布的 Jetson Nano 和 Jetson Tx2 的時(shí)延性能優(yōu)化值和吞吐量性能優(yōu)化值[參考資料10],并測(cè)量了賽靈思 AI 模型庫(kù)中提供的復(fù)雜性相似的等效模型的性能。在用 B3136 DPU 和 B4096 DPU 配置的 KV260 入門套件上執(zhí)行這些模型,獲取性能數(shù)值。賽靈思平臺(tái)上的所有模型均以 INT8 量化,以改善功耗并提高帶寬效率。英偉達(dá) Jetson Nano 和英偉達(dá) Jetson Tx2 的性能數(shù)值以 FP16 精度報(bào)告,因?yàn)檫@些英偉達(dá)器件不支持較低精度的 INT8 [參考資料 11]。但賽靈思和英偉達(dá)性能應(yīng)用均使用綜合數(shù)據(jù)作為輸入,在報(bào)告中并不包括預(yù)處理和后處理時(shí)間。參見(jiàn)表2。
表 2:深度學(xué)習(xí)模型性能比較
編號(hào) | 模型 | 圖像大小 | 賽靈思 K26 B3136 DPU | 賽靈思 K26 B4096 DPU | 英偉達(dá) Jetson Nano | 英偉達(dá) Jetson TX2 | ||||
FPS (時(shí)延優(yōu)化)(1) | FPS (吞吐量?jī)?yōu)化)(2) | FPS (延遲優(yōu)化) | FPS (吞吐量?jī)?yōu)化) | FPS (時(shí)延優(yōu)化) | FPS (吞吐量?jī)?yōu)化) | FPS (時(shí)延優(yōu)化) | FPS (吞吐量?jī)?yōu)化) | |||
1 | Inception V4 | 299x299 | 19 | 19.1 | 30.3 | 30.4 | 11 | 13 | 24 | 32 |
2 | VGG-19 | 224x224 | 17.9 | 17.9 | 17.4 | 17.4 | 10 | 12 | 23 | 29 |
3 | Tiny Yolo V3 | 416x416 | 88.2 | 92.6 | 148.0 | 161.3 | 48 | 49 | 107 | 112 |
4 | ResNet-50 | 224x224 | 49 | 49.1 | 75.6 | 75.9 | 37 | 47 | 84 | 112 |
5 | SSD Mobilenet- V1 | 300x300 | 129.6 | 133.4 |
192.1 |
200.4 |
43 |
48 |
92 |
109 |
6 | SSD ResNet34 | 1200x1200 | 1.6 | 1.6 | 2.5 | 2.5 | 1 | 1 | 3 | 2 |
說(shuō)明:
1.K26 SOM 完成時(shí)延優(yōu)化后可執(zhí)行一個(gè)線程。
2.K26 SOM 完成吞吐量?jī)?yōu)化后可執(zhí)行兩個(gè)線程。
3.請(qǐng)聯(lián)系您當(dāng)?shù)氐馁愳`思銷售代表,獲取賽靈思 ML 性能包說(shuō)明。
根據(jù)表 2 所列信息,所有模型在 K26 SOM 上的性能數(shù)值均優(yōu)于英偉達(dá) Jetson Nano。而且對(duì)于 SSD Mobilenet-V1 等部分模型,吞吐量則為 Jetson Nano 的四倍以上,為 Jetson Tx2 的兩倍左右。參見(jiàn)圖 5,從中可以很容易地看到顯著的吞吐量提升。
圖5 FPS 測(cè)量(時(shí)延優(yōu)化)
功耗測(cè)量
邊緣設(shè)備提供最佳性能這點(diǎn)非常重要,但同時(shí)必須降低能耗。本白皮書在研究中測(cè)量了英偉達(dá)和賽靈思 SOM 模塊在執(zhí)行表 2 所列的具體模型時(shí)發(fā)生的峰值功率。但是,SSD ResNet34 模型的功耗測(cè)量不包括在內(nèi),因?yàn)?Jetson 基準(zhǔn)測(cè)試庫(kù)不包含此模型。[參考資料 10]峰值功率數(shù)值是在所有三種器件上的時(shí)延優(yōu)化模式下執(zhí)行比較時(shí)取得的。對(duì)于英偉達(dá) Jetson Nano 和 TX2,每 30 秒從 INA3221x
驅(qū)動(dòng)程序的 sysfs 節(jié)點(diǎn)獲取一次讀數(shù);對(duì)于賽靈思 K26 SOM,每 10 秒從 ina260-adc 驅(qū)動(dòng)程序獲取一次讀數(shù)。參見(jiàn)表 3。
表3 峰值功率測(cè)量(單位:瓦)
編號(hào) | 模型 | 賽靈思 K26 SOM B3136 DPU | 賽靈思 K26 SOM B4096 DPU | 英偉達(dá) Jetson Nano | 英偉達(dá) Jetson TX2 |
1 | Inception V4 | 8.09 | 10.10 | 7.40 | 11.20 |
2 | VGG-19 | 8.55 | 11.28 | 8.10 | 13.10 |
3 | Tiny Yolo V3 | 8.26 | 11.08 | 7.80 | 12.30 |
4 | ResNet-50 | 7.47 | 9.28 | 7.70 | 11.70 |
5 | SSD Mobilenet-V1 | 7.67 | 9.29 | 7.30 | 10.80 |
為了更準(zhǔn)確地理解功耗優(yōu)勢(shì),請(qǐng)參看圖 6 所示的單位功耗性能。很明顯,K26 SOM 優(yōu)于 Jetson Nano 3.5 倍,優(yōu)于 Jetson TX2 2.4 倍。
圖6 FPS/瓦
剪枝優(yōu)勢(shì)
賽靈思提供 AI 優(yōu)化工具,能進(jìn)一步增強(qiáng)運(yùn)行在 K26 SOM 上的各種神經(jīng)網(wǎng)絡(luò)的性能。本白皮書中提供的比較數(shù)據(jù),到目前為止均是在未經(jīng)優(yōu)化或剪枝的原始模型上取得的。大多數(shù)神經(jīng)網(wǎng)絡(luò)通常都有過(guò)度參數(shù)化的情況,存在可以優(yōu)化的相當(dāng)嚴(yán)重的冗余。賽靈思的 AI 優(yōu)化器是一種行業(yè)領(lǐng)先的模型壓縮技術(shù)。該工具可在幾乎不影響精度的情況下,將模型復(fù)雜性最多降低 50 倍。
本白皮書引用了賽靈思研究部所做的案例研究中的一個(gè)例子[參考資料12]。這是一個(gè)擁有 117 千兆次運(yùn)算 (Gops) 的非常復(fù)雜的 SSD + VGG 模型,它使用賽靈思 AI優(yōu)化器工具經(jīng)多次迭代進(jìn)行優(yōu)化。圖7 所示的是使用 AI 優(yōu)化器工具為模型剪枝帶來(lái)的好處。作為基線,該模型運(yùn)算量為 117Gops,運(yùn)行在用兩個(gè) B4096 DPU 配置的 Zynq UltraScale+ MPSoC 上,最高 FPS 為 18。經(jīng)過(guò)數(shù)次剪枝迭代,數(shù)據(jù)顯示復(fù)雜性明顯下降,F(xiàn)PS 相應(yīng)增加,但未對(duì)精度 (mAP) 造成任何影響。在第 11 次迭代時(shí),復(fù)雜性降低了 10 倍, 即復(fù)雜性從 117Gops 降低到 11.6Gops;性能提高 5 倍,即性能從 18FPS 提高到 103FPS;精度僅下降 1.1%,即從 61.55mAP 下降到 60.4mAP。
圖7 剪枝結(jié)果
到這里,我們已經(jīng)對(duì) Kria K26 SOM 與 GPU 的原始性能對(duì)比做了介紹。了解這種原始性能在實(shí)際用例中的意義至關(guān)重要。實(shí)際用例結(jié)構(gòu)復(fù)雜,涉及流水線中的其他模塊,如任何 AI-ML 應(yīng)用所需的預(yù)處理和后處理組件。在這類應(yīng)用中,最大吞吐量由流水線中性能最低的組件決定。
下面章節(jié)里的性能比較以兩種器件的實(shí)際用例為基礎(chǔ)。
實(shí)際應(yīng)用的性能比較
為了分析實(shí)際用例,我們選擇了一種準(zhǔn)確檢測(cè)和識(shí)別車輛牌照的基于機(jī)器學(xué)習(xí)的應(yīng)用。賽靈思已經(jīng)與在智慧城市視頻分析解決方案領(lǐng)域居于行業(yè)領(lǐng)先地位的 Uncanny Vision 合作,旨在為市場(chǎng)提供世界一流的汽車牌照(車牌)識(shí)別 (ANPR) 解決方案。這種應(yīng)用已得到世界上眾多城市的廣泛采用,用于智慧城市的建設(shè)中。ANPR 的主要應(yīng)用包括自動(dòng)收費(fèi)管理系統(tǒng)、高速公路監(jiān)測(cè)系統(tǒng)、停車場(chǎng)門禁和安全門門禁。ANPR應(yīng)用是一種基于 AI 的流水線,內(nèi)含視頻解碼、圖像預(yù)處理、機(jī)器學(xué)習(xí)(檢測(cè))和 OCR 字符識(shí)別。參見(jiàn)圖8。
圖8 ALPR 應(yīng)用的處理模塊
ANPR AI 盒應(yīng)用一般從現(xiàn)貨 IP 攝像頭攝入一個(gè)到多個(gè) H.264 或 H.265 編碼的 RTSP 流并進(jìn)行解碼(解壓縮)。解碼的視頻幀在被機(jī)器學(xué)習(xí)算法攝入前,先進(jìn)行預(yù)處理(通常是縮放、剪裁、色彩空間轉(zhuǎn)換和歸一化)。就高性能商用 ANPR 實(shí)現(xiàn)方案而言,通常需要多級(jí) AI 流水線。第一個(gè)網(wǎng)絡(luò)的作用是檢測(cè)和定位幀內(nèi)的車輛。這項(xiàng)操作中還結(jié)合了跨多幀追蹤車輛軌跡的算法和選擇最佳幀曝光,為OCR 優(yōu)化圖像畫質(zhì)的算法。通常先剪裁和縮放車輛感興趣區(qū)域 (ROI),然后饋入負(fù)責(zé)定位車牌的次級(jí)檢測(cè)網(wǎng)絡(luò)。與車牌 ROI 有關(guān)的像素經(jīng)過(guò)剪裁和縮放,最終被饋送到負(fù)責(zé)實(shí)現(xiàn) OCR 預(yù)測(cè)的最后一個(gè)神經(jīng)網(wǎng)絡(luò)。最后一級(jí)提供的元數(shù)據(jù)預(yù)測(cè)是壓印或印刷在車牌上或是以其他方式可見(jiàn)的字母數(shù)字字符。為了進(jìn)行比較,已商業(yè)化地部署在 GPU 和 CPU 上的 Uncanny Vision 的 ANPR 應(yīng)用,為實(shí)現(xiàn)在 Kria KV260 視覺(jué) AI 入門套件上的部署進(jìn)行了優(yōu)化。結(jié)果證明,將 Uncanny Vision 算法在 Kria SOM 上進(jìn)行部署后,打破了每流 100 美元的價(jià)格壁壘,而且性能是 Uncanny Vision 以前使用的商品化同類 SOM 產(chǎn)品的 2-3 倍。盡管賽靈思沒(méi)有專門為運(yùn)行在英偉達(dá) SOM 上的 Uncanny Vision 算法進(jìn)行基準(zhǔn)測(cè)試,但表4 體現(xiàn)的是將 Uncanny Vision 行業(yè)領(lǐng)先的 ANPR 算法部署在 Kria SOM 上后,與英偉達(dá)用 Deepstream-SDK[參考資料13]完成的“車牌識(shí)別”的公開(kāi)數(shù)據(jù)的比較。
表4 ANPR 應(yīng)用的性能比較
硬件(模塊) | 英偉達(dá) Jetson Nano | 英偉達(dá) Jetson TX2 4GB | 英偉達(dá) Jetson TX2 NX | 賽靈思 Kria K26C SOM |
價(jià)格 | 129 美元 | 299 美元 | 199 美元 | 250 美元 |
Fps | 8(1) | 23(1) | 未公布,預(yù)計(jì)是TX2 | 33 |
流數(shù)量 (假定每流10fps) |
~1 |
2 |
未公布,預(yù)計(jì)是TX2 |
3 |
每流價(jià)格 | 129 美元 | 150 美元 | 100 美元 | 83 美元 |
最大功耗(僅SOM) | 10W(2) | 15W(2) | 未公布,預(yù)計(jì)是TX2 | 15W(3) |
每流功耗 | 10 | 7.5 | 7.5 | 5 |
說(shuō)明:
1.來(lái)源:https://developer.nvidia.com/deepstream-sdk
2.英偉達(dá)的功耗值是其 SOM 的最大額定功耗。來(lái)源:https://developer.nvidia.com/embedded/jetson-modules
3.僅 K26 SOM 的最大額定功耗。
這些數(shù)據(jù)說(shuō)明,Uncanny Vision 的 ANPR 流水線在針對(duì) KV260 入門套件進(jìn)行優(yōu)化后,實(shí)現(xiàn)了超過(guò) 33fps 的吞吐量,顯著優(yōu)于英偉達(dá)基準(zhǔn)測(cè)試中 Jetson Nano 的 8pfs 和 Jetson Tx2 的 23fps。這種前所未有的性能水平為ANPR 集成商和 OEM 廠商提供了優(yōu)于競(jìng)爭(zhēng)對(duì)手的開(kāi)發(fā)靈活性。每多安裝一個(gè) AI 盒都會(huì)直接影響安裝成本,還不考慮相關(guān)的布線和導(dǎo)管成本。根據(jù)安裝的具體情況,設(shè)計(jì)師可以犧牲幀率來(lái)?yè)Q取更大的每盒處理流數(shù)。對(duì)于停車場(chǎng)安裝(如停停走走、攔車桿和自由通行),推斷和捕獲幀率通常要達(dá)到 10fps 才可滿足要求,還能可靠地采集車牌元數(shù)據(jù)。這便于設(shè)計(jì)師將多個(gè)攝像頭流聚合到單個(gè) AI 盒,從而節(jié)省
每個(gè)閘門的總體資本支出 (CAPEX) 和運(yùn)營(yíng)成本 (OPEX)。在高速應(yīng)用中,如高速公路收費(fèi)和執(zhí)法,較高的幀率確保能夠準(zhǔn)確可靠地檢測(cè)和識(shí)別高速行駛中的車輛。在 33fps 的吞吐量下,與當(dāng)今市場(chǎng)上有可比性的競(jìng)爭(zhēng)解決方案相比,K26 SOM 能夠更加可靠地為識(shí)別和證據(jù)搜集提供支持。
大多數(shù) ANPR 系統(tǒng)都需要在環(huán)境嚴(yán)苛的條件下高可靠性運(yùn)行。I 級(jí)的 K26 SOM 專為嚴(yán)酷環(huán)境開(kāi)發(fā),
支持 –40°C 至 100°C 的工作溫度范圍和行業(yè)領(lǐng)先的三年質(zhì)保。在采用 K26I SOM 后,與市場(chǎng)上原有解決方案相比,ANPR 系統(tǒng)的總體擁有成本顯著降低。
Uncanny Vision 的 ANPR 應(yīng)用說(shuō)明,K26 SOM 不僅在標(biāo)準(zhǔn)性能比較中表現(xiàn)極其優(yōu)異,并且在為開(kāi)發(fā)者提供加速整體 AI 和視覺(jué)流水線所需的原始性能時(shí),效率也更高。通過(guò)對(duì)比,在標(biāo)準(zhǔn)的基準(zhǔn)測(cè)試領(lǐng)域之外,競(jìng)爭(zhēng)解決方案傾向于提供較低效率水平,而且功耗較高。
評(píng)論