新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計應(yīng)用 > 加速實現(xiàn)網(wǎng)絡(luò)邊緣低功耗人工智能應(yīng)用

加速實現(xiàn)網(wǎng)絡(luò)邊緣低功耗人工智能應(yīng)用

作者: 時間:2018-05-22 來源:電子產(chǎn)品世界 收藏

  架構(gòu)轉(zhuǎn)變和網(wǎng)絡(luò)邊緣日益增長的智能需求

本文引用地址:http://butianyuan.cn/article/201805/380325.htm

  自第一臺電腦發(fā)明以來,尋求最理想系統(tǒng)架構(gòu)的路途始終充滿坎坷。從計算發(fā)展史中可以看出,系統(tǒng)架構(gòu)始終在計算資源遠(yuǎn)離用戶的集中式架構(gòu)和處理資源靠近用戶的分布式架構(gòu)之間反復(fù)搖擺。曾于20世紀(jì)70年代和80年代流行的基于服務(wù)器的方案則采用高度集中化的方法積蓄計算資源和存儲能力。但是這一理念很快在低成本個人電腦和互聯(lián)網(wǎng)快速發(fā)展的80和90年代衰落了。在這種新的架構(gòu)模式下,計算任務(wù)不斷向個人電腦傾斜。

  圍繞個人電腦構(gòu)建的高度分布式方案似乎無懈可擊,直到以智能手機、平板電腦和筆記本電腦為代表的高流動性工具大行其道。四處攜帶計算硬件和存儲資源瞬間成為了一種累贅。系統(tǒng)架構(gòu)隨之緩慢地將任務(wù)移到云端,利用其近乎無限的計算和存儲資源、高可靠性以及低成本。

  企業(yè)也在使用云端削減資本成本和更高效地管理IT基礎(chǔ)設(shè)施相關(guān)的運維成本。隨著他們采用機器學(xué)習(xí)和更高級的人工智能技術(shù),云端將扮演著至關(guān)重要的角色。即將來臨的新一代智能工廠、智慧城市和智能家居需要云端來高效管理機器視覺系統(tǒng)、協(xié)調(diào)交通模式以及最小化功耗。

  但并非所有應(yīng)用都將在云端運行。行業(yè)專家提出,另一輪從集中式到分布式的系統(tǒng)架構(gòu)轉(zhuǎn)變的征兆已經(jīng)顯而易見了。無論到來與否,有一點確信無疑。那就是低延遲要求、不斷加劇的隱私問題和通信帶寬限制將驅(qū)動網(wǎng)絡(luò)邊緣對智能化的需求。隨著設(shè)計人員向網(wǎng)絡(luò)邊緣應(yīng)用加入高級智能,他們需要能夠快速響應(yīng)環(huán)境條件變化的系統(tǒng)。例如,當(dāng)一輛無人駕駛汽車駛?cè)胫腔鄢鞘?,它不可能詢問云端如何避免沖撞事故,而是必須立即做出反應(yīng),自主做出判斷。同樣,當(dāng)AI安全攝像頭在家中檢測到異動,它必須利用設(shè)備現(xiàn)有資源做出決定,如有人闖入,則立刻報警。

  這些新型應(yīng)用需要基于AI或機器學(xué)習(xí)的、靠近IoT傳感器數(shù)據(jù)源而非云端的計算解決方案。這樣的需求有多大?有人認(rèn)為潛力非??捎^。Gartner的分析師估計到2022年,多達(dá)50%的企業(yè)數(shù)據(jù)將在傳統(tǒng)的集中式數(shù)據(jù)中心或云端以外的地方處理(參見圖1)。

  圖1. 為避免受延遲、隱私和網(wǎng)絡(luò)帶寬限制而快速興起的網(wǎng)絡(luò)

  網(wǎng)絡(luò)的要求

  設(shè)計人員在開發(fā)網(wǎng)絡(luò)解決方案時面臨的最嚴(yán)峻的挑戰(zhàn)是要滿足高靈活性、低功耗、小尺寸和低成本等一系列獨特要求(參見圖2)。

  圖2. 新一代基于AI的網(wǎng)絡(luò)邊緣計算應(yīng)用需要滿足一系列獨特要求

  開發(fā)人員如何構(gòu)建功耗低、尺寸小、成本低而又不影響性能的網(wǎng)絡(luò)邊緣解決方案呢?首先,他們需要具備最大化設(shè)計靈活性、支持廣泛I/O接口的芯片,還需要能夠助其利用快速演進的神經(jīng)網(wǎng)絡(luò)架構(gòu)和算法的半導(dǎo)體解決方案。最后他們還需要能通過自定義量化平衡精度和功耗的解決方案。

  考慮到網(wǎng)絡(luò)邊緣設(shè)備的尺寸限制,設(shè)計人員需要適當(dāng)?shù)男酒瑏碓O(shè)計小巧高性能的AI設(shè)備,在輸出卓越性能的同時又能滿足尺寸或散熱管理的要求。成本也是一個關(guān)鍵要素。任何一種解決方案都必須能與其他批量生產(chǎn)的網(wǎng)絡(luò)邊緣解決方案一較高下。最后,即便是在網(wǎng)絡(luò)邊緣,快速上市的規(guī)則依然適用。第一個將解決方案推向市場的企業(yè)必然擁有巨大優(yōu)勢。因此,任何有潛力的解決方案必須有機會獲得必要的資源實現(xiàn)定制化,并縮短開發(fā)周期——無論是演示示例、參考設(shè)計還是設(shè)計服務(wù)。

  網(wǎng)絡(luò)邊緣基于的機器學(xué)習(xí)推理

  在網(wǎng)絡(luò)邊緣扮演何種角色?機器學(xué)習(xí)通常要求兩種類型的計算工作量。訓(xùn)練系統(tǒng)通過現(xiàn)有數(shù)據(jù)習(xí)得新能力。例如,人臉檢測功能通過采集和分析成千上萬張圖片來學(xué)習(xí)識別人臉。這種早期訓(xùn)練階段實質(zhì)上是高度計算密集的。開發(fā)人員通常會在數(shù)據(jù)中使用高性能硬件處理數(shù)量龐大的數(shù)據(jù)。

  機器學(xué)習(xí)的第二階段推理通過識別圖案和執(zhí)行任務(wù)將系統(tǒng)能力用于處理新數(shù)據(jù)。例如,之前討論的人臉檢測功能將在投入現(xiàn)場工作后持續(xù)優(yōu)化其能力,以正確識別人臉。在此階段系統(tǒng)邊運行邊學(xué)習(xí),隨著時間推移變得愈加智能。鑒于網(wǎng)絡(luò)邊緣的任務(wù)執(zhí)行存在諸多限制,設(shè)計人員不可能在云端進行推理。相反他們須通過在網(wǎng)絡(luò)邊緣執(zhí)行靠近數(shù)據(jù)源的計算任務(wù)來提升系統(tǒng)的智能程度。

  那么如何替代云端龐大的計算資源從而在網(wǎng)絡(luò)邊緣執(zhí)行推理呢?一種方式就是利用固有的并行處理能力來加速神經(jīng)網(wǎng)絡(luò)的性能。設(shè)計人員可以使用經(jīng)過特別優(yōu)化的低功耗低密度FPGA滿足網(wǎng)絡(luò)邊緣對嚴(yán)苛性能和功耗限制的要求。萊迪思的ECP5和iCE40 UltraPlus FPGA可滿足這一需求。設(shè)計人員可通過功耗不足1W 的ECP5 FPGA和毫瓦級iCE40 UltraPlus FPGA來加速神經(jīng)網(wǎng)絡(luò),構(gòu)建高效、基于AI的網(wǎng)絡(luò)邊緣計算應(yīng)用。(參見圖3)

  圖3. 基于萊迪思FPGA的低功耗(1mW-1W)機器學(xué)習(xí)推理

  Lattice sensAI? 簡介

  除了計算硬件外,設(shè)計人員還需要各類IP、工具、參考設(shè)計和設(shè)計專業(yè)知識來構(gòu)建有效的解決方案并將其快速推向市場。

  為幫助開發(fā)人員應(yīng)對這一日益嚴(yán)峻的挑戰(zhàn),萊迪思現(xiàn)推出基于iCE40 UltraPlus和ECP5 FPGA系列的新型全套開發(fā)生態(tài)系統(tǒng)。Lattice sensAI旨在幫助開發(fā)人員快速構(gòu)建適用于智能家居、智慧城市、智能工廠、智能汽車和移動應(yīng)用的AI網(wǎng)絡(luò)邊緣解決方案,為網(wǎng)絡(luò)邊緣提供優(yōu)化靈活的推理。

  正如下列圖4所示,Lattice sensAI通過集成模塊化硬件平臺、神經(jīng)網(wǎng)絡(luò)IP核、軟件工具、參考設(shè)計和來自合作伙伴生態(tài)系統(tǒng)的定制設(shè)計服務(wù),簡化了靈活推理解決方案的開發(fā),經(jīng)優(yōu)化具有低功耗(1mW-1W)、封裝尺寸小(小至5.5mm2)、批量價格低(約1-10美元)等優(yōu)勢。

  圖4. Lattice sensAI為開發(fā)人員構(gòu)建網(wǎng)絡(luò)邊緣計算解決方案提供了堅實的基礎(chǔ)

  如圖4所示,Lattice sensAI以萊迪思的硬件套件為基礎(chǔ)。為實現(xiàn)這一功能,萊迪思提供全新的模塊化硬件平臺,加速機器學(xué)習(xí)的原型設(shè)計,滿足廣泛的性能和功耗需求。萊迪思還提供基于低功耗iCE40 UltraPlus FPGA的移動開發(fā)平臺(MDP),可用于毫瓦級功耗AI設(shè)計。MDP重點包括一系列板載傳感器,如圖像傳感器、麥克風(fēng)、羅盤、壓力傳感器和陀螺儀等。針對功耗稍高但總體低于1W的應(yīng)用,萊迪思則提供基于ECP5 FPGA系列的模塊化視頻接口平臺(VIP)。VIP可實現(xiàn)包括MIPI CSI-2、嵌入式DisplayPort(eDP)、HDMI、GigE Vision和USB3在內(nèi)的廣泛接口的互連。屢獲殊榮的嵌入式視覺開發(fā)套件是萊迪思首批硬件平臺之一。該模塊化平臺包含了一塊CrossLink輸入板、一塊ECP5處理器板和一塊HDMI輸出板。隨著全新eDP和USB3 GigE I/O板的加入,設(shè)計人員可輕易置換輸出板以支持其他應(yīng)用。

  除開發(fā)板外,萊迪思還提供新的神經(jīng)網(wǎng)絡(luò)加速器IP核,便于開發(fā)人員在FPGA上進行演示。該軟IP包括一個針對iCE40 UltraPlus FPGA優(yōu)化后的二值神經(jīng)網(wǎng)絡(luò)(BNN)加速器,可讓開發(fā)人員使用iCE40 UltraPlus FPGA通過二值神經(jīng)網(wǎng)絡(luò)算法實現(xiàn)深度學(xué)習(xí)應(yīng)用。萊迪思還提供一個卷積神經(jīng)網(wǎng)絡(luò)加速器(CNN)核。該核可靈活設(shè)置參數(shù),適用于萊迪思的ECP5 FPGA,它還支持不同量化,讓設(shè)計人員實現(xiàn)精度和功耗的平衡。

  如圖5所示,Lattice sensAI能讓用戶通過易用的工具流程實現(xiàn)快速設(shè)計空間探索和平衡。使用Caffe和TensorFlow等行業(yè)標(biāo)準(zhǔn)框架可實現(xiàn)網(wǎng)絡(luò)訓(xùn)練。然后神經(jīng)網(wǎng)絡(luò)編譯器工具能將經(jīng)過訓(xùn)練的網(wǎng)絡(luò)模型映射成定點數(shù)值表示,支持不同的權(quán)重和激活量化。此外,神經(jīng)網(wǎng)絡(luò)編譯器能幫助分析、模擬和編譯不同類型的網(wǎng)絡(luò),從而在萊迪思的CNN/BNN加速器IP核上實現(xiàn),無需RTL設(shè)計經(jīng)驗。然后使用Radiant和Diamond等傳統(tǒng)的FPGA設(shè)計軟件工具可實現(xiàn)總體的FPGA設(shè)計,包括剩下的預(yù)/后處理模塊。

  圖5. 通過易用的Lattice sensAI工具流程實現(xiàn)快速設(shè)計空間探索和平衡

  為簡化常用AI功能的實現(xiàn),Lattice sensAI包含了各類使用該產(chǎn)品硬件平臺、IP核以及軟件工具的參考設(shè)計和演示示例,例如:

  低功耗人臉檢測——該演示包含適用于網(wǎng)絡(luò)邊緣、使用神經(jīng)網(wǎng)絡(luò)模型的、低功耗快速人臉檢測功能。該基于iCE40 UltraPlus FPGA的演示使用了二值權(quán)重和激活,能幫助設(shè)計人員實現(xiàn)低于1mW功耗的人臉識別。

  汽車后裝市場攝像頭——該演示主要針對新興的汽車后裝市場中的攝像頭領(lǐng)域。它展示了設(shè)計人員如何通過FPGA本身的并行計算實現(xiàn)速度標(biāo)志牌檢測。在此示例中,在ECP5 FPGA上實現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)被訓(xùn)練讀取過往的交通指示牌信息。訓(xùn)練完成后,該攝像頭可在經(jīng)過交通標(biāo)志時檢測并顯示速度限制。

  將聲音指令轉(zhuǎn)換為系統(tǒng)操作——該演示向設(shè)計人員展示了如何將聲音指令轉(zhuǎn)化為系統(tǒng)操作。這項功耗不足5mW的關(guān)鍵詞識別功能使用了集成到iCE40 UltraPlus FPGA的二值神經(jīng)網(wǎng)絡(luò)。示例描述了如何將數(shù)字麥克風(fēng)直連到萊迪思推理引擎,從而使用關(guān)鍵詞檢測實現(xiàn)“實時在線”的監(jiān)聽功能。

  用于面部跟蹤的目標(biāo)檢測解決方案——該演示探索了適用于面部跟蹤應(yīng)用、基于AI實現(xiàn)的目標(biāo)檢測解決方案。演示描述了使用萊迪思ECP5-85 FPGA進行卷積神經(jīng)網(wǎng)路加速,其中8個卷積層在8個神經(jīng)網(wǎng)絡(luò)引擎中實現(xiàn)。該方案在萊迪思的嵌入式視覺開發(fā)套件上獨立運行,上電后在90 x 90 RGB輸入下以14fps運行。ECP5的總功耗僅為0.85 W。

  定制化設(shè)計服務(wù)

  開發(fā)團隊通常需要設(shè)計服務(wù)合作伙伴的專業(yè)能力來協(xié)助開發(fā)定制化解決方案。AI市場也不例外。為滿足這種需求,萊迪思與智能工廠、智慧城市、智能汽車、智能家居和移動應(yīng)用等眾多領(lǐng)域的設(shè)計服務(wù)伙伴展開了合作。例如,萊迪思經(jīng)認(rèn)證的合作伙伴之一VectorBlox是一家基于神經(jīng)網(wǎng)絡(luò)的推理解決方案開發(fā)商。近來,VectorBlox和萊迪思合作在iCE40 UltraPlus FPGA上用不到5000個LUT的神經(jīng)網(wǎng)絡(luò)實現(xiàn)了人臉檢測應(yīng)用。該解決方案使用了開源RISC V軟處理器和定制加速器,大大降低了功耗,同時縮短了響應(yīng)時間。

  為了更快地在萊迪思FPGA中實現(xiàn)推理解決方案,開發(fā)人員可能需要求助于具備神經(jīng)網(wǎng)絡(luò)設(shè)計和訓(xùn)練相關(guān)知識的設(shè)計服務(wù)專家。這些知識通常需要與Caffe和TensorFlow框架以及傳統(tǒng)的RTL設(shè)計經(jīng)驗相結(jié)合。為了讓這些專業(yè)知識更易獲取,萊迪思推出了Lattice sensAI設(shè)計服務(wù)計劃,推薦設(shè)計服務(wù)公司,從而加速設(shè)計,在萊迪思FPGA上實現(xiàn)深入學(xué)習(xí)應(yīng)用。這些公司提供開發(fā)和訓(xùn)練網(wǎng)絡(luò)的專業(yè)知識,且能開發(fā)RTL實現(xiàn)特定應(yīng)用。

  參與該計劃的第三方企業(yè)已經(jīng)與萊迪思進行合作,展示了其在神經(jīng)網(wǎng)絡(luò)開發(fā)、訓(xùn)練和硬件實施方面的強大實力。

  結(jié)論

  網(wǎng)絡(luò)邊緣計算革命蓄勢待發(fā),只有具備AI系統(tǒng)專長的開發(fā)人員方可駕輕就熟。隨著用戶尋求更高級別的智能,對于靠近IoT數(shù)據(jù)源的低功耗推理的需求將與日俱增。Lattice sensAI提供靈活、超低功耗、小尺寸和批量價格低的網(wǎng)絡(luò)邊緣優(yōu)化解決方案。萊迪思的超低功耗FPGA由廣泛的硬件平臺、軟IP、設(shè)計工具、參考設(shè)計和第三方專家提供支持,為您打開通往成功最可靠、最快捷的途徑。



關(guān)鍵詞: 邊緣計算 FPGA

評論


相關(guān)推薦

推薦視頻

更多>>

技術(shù)專區(qū)

關(guān)閉