邊緣視覺 AI 的理想平臺(tái)
Kria K26 SOM
本文引用地址:http://butianyuan.cn/article/202106/426416.htmKria K26 SOM 專門為滿足當(dāng)前和未來(lái)市場(chǎng)對(duì)視覺 AI 和視頻分析的需求而設(shè)計(jì)。尺寸僅有手掌大小,Kria SOM 搭載基于 Zynq? UltraScale+? MPSoC 架構(gòu)的自適應(yīng) SoC 以及支持該 SoC 所需的所有基本組件(如存儲(chǔ)器和電源)。
量產(chǎn)部署的定制也簡(jiǎn)便易行。Kria SOM 搭配一款簡(jiǎn)單的專為最終用戶設(shè)計(jì)的載卡,該卡集成了用戶終端系統(tǒng)具體使用的連接組件和附加組件。
在評(píng)估和開發(fā)方面,賽靈思提供了一款入門套件。套件包含與視覺型載卡搭配的 Kria K26 SOM。通過(guò)將預(yù)定義視覺硬件平臺(tái)、構(gòu)建在 Yocto 或 Ubuntu 上的高度可靠且綜合全面的軟件協(xié)議棧與預(yù)構(gòu)建視覺型加速應(yīng)用相結(jié)合,為開發(fā)者提供了一個(gè)運(yùn)用賽靈思技術(shù)構(gòu)建系統(tǒng)的前所未有的方法。詳細(xì)介紹請(qǐng)參閱賽靈思白皮書:借助 Kria SOM 實(shí)現(xiàn)嵌入式設(shè)計(jì)簡(jiǎn)化[參考資料 6]和 Kria KV260 視覺 AI 入門套件用戶指南[參考資料7]。本白皮書的結(jié)論以 KV260 視覺 AI 入門套件為依據(jù)。參見圖 2。
圖2 KV260 視覺 AI 入門套件
將 K26 SOM 用作邊緣設(shè)備
智能應(yīng)用除了要求亞微秒級(jí)的時(shí)延,還需要具備私密性、低功耗、安全性和低成本。以 Zynq MPSoC 架構(gòu)為基礎(chǔ),Kria K26 SOM 提供了業(yè)界一流的單位功耗性能和更低的總體擁有成本,使之成為邊緣設(shè)備的理想選擇。Kria SOM 具備硬件可配置能力,也就是說(shuō)在 K26 上實(shí)現(xiàn)的解決方案是可擴(kuò)展,同時(shí)具備未來(lái)兼容能力的。
原始計(jì)算能力
就在邊緣設(shè)備上部署解決方案而言,硬件必須擁有充足的算力,才能處理先進(jìn) ML 算法工作負(fù)載。我們可以使用各種深度學(xué)習(xí)處理單元 (DPU) 配置對(duì) Kria K26 SOM 進(jìn)行配置,還能根據(jù)性能要求,將最適用的配置集成到設(shè)計(jì)內(nèi)。例如,運(yùn)行在 300MHz 的 DPU B3136 的峰值性能是 0.94TOPS。運(yùn)行在 300MHz 的 DPU B4096 的峰值性能是 1.2TOPS,幾乎是 Jetson Nano 公布的峰值性能 472GFLOPS[參考資料 8]的差不多 3 倍。
支持更低精度的數(shù)據(jù)類型
深度學(xué)習(xí)算法正在以極快的速度演進(jìn)發(fā)展,INT8、二進(jìn)制、三進(jìn)制等更低精度的數(shù)據(jù)類型和定制數(shù)據(jù)正在進(jìn)入使用。GPU 廠商難以滿足當(dāng)前的市場(chǎng)需求,因?yàn)樗麄儽仨毿薷?調(diào)整他們的架構(gòu),才能適應(yīng)并支持定制的或者更低精度的數(shù)據(jù)類型。Kria K26 SOM 支持全系列數(shù)據(jù)類型精度,如 PF32、INT8、二進(jìn)制和其他定制數(shù)據(jù)類型。此外,根據(jù) Mark Horowitz(雅虎創(chuàng)始者、斯坦福大學(xué)工程學(xué)院教授、計(jì)算機(jī)科學(xué)教授)提供的數(shù)據(jù)點(diǎn)[參考資料 9],以較低精度數(shù)據(jù)類型進(jìn)行的運(yùn)算功耗更低,比如在 INT8 上進(jìn)行的運(yùn)算的功耗比在 FP32 上進(jìn)行的運(yùn)算低一個(gè)數(shù)量級(jí)。參見圖3。
圖3 運(yùn)算的能耗成本
圖3 所列數(shù)值依據(jù)臺(tái)積電 45nm工藝并被證明可以準(zhǔn)確地縮放到更小的工藝節(jié)點(diǎn)。因此,Kria SOM 通過(guò)可重配置能力,允許適配任何數(shù)據(jù)類型,這是一個(gè)重大優(yōu)勢(shì)。
低時(shí)延與低功耗
一般情況下,對(duì)于任何實(shí)現(xiàn)在多核 CPU、GPU 或者任何 SoC 上的應(yīng)用設(shè)計(jì)而言,功耗可在總體上按如下估算大致進(jìn)行劃分[參考資料 9]:
● 核心 = 30%
● 內(nèi)部存儲(chǔ)器(L1、L2、L3)= 30%
● 外部存儲(chǔ)器(DDR)= 40%
這就是 GPU 功耗高的主要原因。為了改善軟件可編程能力,GPU 架構(gòu)需要頻繁訪問(wèn)外部 DDR。這種做法非常低效,有時(shí)候會(huì)對(duì)高帶寬設(shè)計(jì)要求構(gòu)成瓶頸。相反,Zynq MPSoC 架構(gòu)具有高能效。它的可重配置能力便于開發(fā)者設(shè)計(jì)的應(yīng)用減少或不必訪問(wèn)外部存儲(chǔ)器。這不僅有助于減少應(yīng)用的總功耗,也通過(guò)降低端到端時(shí)延改善了響應(yīng)能力。圖4 所示的是一種典型的汽車應(yīng)用架構(gòu),其中 GPU 與各個(gè)模塊的通信都通過(guò) DDR 實(shí)現(xiàn),而 Zynq MPSoC 器件采用的是在設(shè)計(jì)上避免訪問(wèn)任何DDR 的高效率流水線。
圖4 典型 GPU 與 Zynq MPSoC 架構(gòu)
靈活性
與數(shù)據(jù)流固定的 GPU 不同,賽靈思硬件提供了靈活性用來(lái)專門地重新配置數(shù)據(jù)路徑,從而實(shí)現(xiàn)最大吞吐量并降低時(shí)延。此外,可編程的數(shù)據(jù)路徑也降低了對(duì)批處理的需求,而批處理是 GPU 的一個(gè)重大不足,需要在降低時(shí)延或提高吞吐量之間做出權(quán)衡取舍。Kria SOM 靈活的架構(gòu)已在稀疏網(wǎng)絡(luò)中展示出巨大潛力。稀疏網(wǎng)絡(luò)是當(dāng)前 ML 應(yīng)用中最熱門的趨勢(shì)之一。另一個(gè)重要特性(能進(jìn)一步提高 Kria SOM 靈活性的特性)是任意 I/O 連接。它讓 K26 SOM 在無(wú)需主機(jī) CPU 的情況下就可以連接到任何設(shè)備、網(wǎng)絡(luò)或存儲(chǔ)設(shè)備。
評(píng)論