運用FP-AI-VISION1的影像分類器
意法半導體(ST)持續(xù)積極參與高速發(fā)展的嵌入式人工智能領域。為了在具成本效益和低功耗的微控制器上加快運用機器學習和深度神經網絡,ST開發(fā)全方位的邊緣人工智能生態(tài)系統(tǒng),嵌入式開發(fā)人員可以在各種STM32微控制器產品組合中,輕松新增利用人工智能的新功能和強大的解決方案。
圖一顯示ST AI解決方案之于整個STM32產品組合,而且已經擁有預先訓練神經網絡的嵌入式開發(fā)人員,可以在任何采用Cortex M4、M33和M7的STM32上移植、優(yōu)化和驗證這整個產品組合。STM32Cube.AI是 STM32CubeMX的AI擴充套件,讓客戶能以更高效率開發(fā)其AI產品。
利用深度學習的強大功能可以增強訊號處理效能,并提升STM32 應用的工作效率。
本文概述FP-AI-VISION1,此為用于計算機視覺開發(fā)的架構,提供工程師在STM32H7上執(zhí)行視覺應用的程序代碼范例。
圖一 : 執(zhí)行機器學習和深度學習算法的STM32產品組合
從FP-AI-VISION1程序代碼范例開始,簡易達成在邊緣執(zhí)行的各種計算機視覺使用案例,例如
? 生產在線的物體分類,藉以根據物體的類型調整輸送帶速度;
? 偵測產品的一般瑕疵;
? 區(qū)分不同類型的對象,例如:螺絲、意大利面、樂高零件,并分揀到不同的容器中;
? 對設備或機器人操作的材料類型進行分類,并隨之調整行為;
? 對食品類型進行分類以調整烹調/燒烤/沖泡或重新訂購貨架上的新產品。
FP-AI-VISION1
概述
FP-AI-VISION1是STM32Cube功能套件(FP),提供采用卷積神經網絡(CNN)的計算機視覺應用范例。其由STM32Cube.AI產生的軟件組件和AI計算機視覺應用專用的應用軟件組件組成。
功能套件中提供的應用范例,包含:
? 食品識別:辨識18類常見食品;
? 人體感測:識別影像中是否有人;
? 人數統(tǒng)計:依照物體偵測模型計算情境中的人數。
主要特色
FP-AI-VISION1在與STM32F4DIS-CAM攝影機子板,或是B-CAMS-OMV攝影機模塊搭配連接的STM32H747I-DISCO板上運作,包括用于攝影機擷取、畫格影像預處理、推斷執(zhí)行的完整應用韌體和輸出后處理。這也提供浮點和 8 位量化 C 模型的整合范例,并支持多種數據存儲器設定,滿足各種應用需求。
此功能套件最重要的其中一項關鍵優(yōu)勢是提供范例,描述如何將不同類型的數據有效地放置在芯片上的內存和外部內存中。用戶因此能夠輕松了解最符合需求的內存分配,并有助建立適用于STM32系列的自定義神經網絡模型,特別是在STM32H747-Disco板上。
圖二 : FP-AI-VISION1評估裝置范例
FP-AI-VISION1 包括三個采用 CNN 的影像分類應用范例:
? 一種對彩色(RGB 24位)畫格影像執(zhí)行的食品識別應用;
? 一種對彩色(RGB 24位)畫格影像執(zhí)行的人體感測應用;
? 一種對灰階(8位)畫格影像執(zhí)行的人體感測應用。
本文將重點介紹食品識別和人體感測之兩種范例。
首先討論食品識別應用。食品識別CNN是MobileNet模型的衍生模型。MobileNet是適用于行動和嵌入式視覺應用的高效率模型架構,此模型架構由Google[1]提出。
MobileNet模型架構包括兩個簡單的全局超參數,可以高效在延遲和準確度之間進行權衡。原則上,這些超參數可讓模型建構者根據問題的限制條件,決定應用大小適合的模型??紤]STM32H747的目標限制條件,此軟件套件中使用的食品識別模型是透過調整這些超參數建構而成,以便在準確度、運算成本和內存占用之間進行最佳權衡。
圖三為食品識別模型的簡單執(zhí)行流程。這在STM32H747上執(zhí)行,大約需要150毫秒才能完成推斷。
圖三 : 食品識別模型的執(zhí)行流程
其次,將說明人體感測應用。FP-AI-VISION1 提供兩個人體感測的范例應用:
? 一種采用低復雜度CNN 模型(所謂的Google_Model),用于處理分辨率為96×96像素的灰階影像(每像素 8 位)。這個模型可從:storage.googleapis.com下載。
? 一種采用更高復雜度的CNN模型(所謂的 MobileNetv2_Model),用于處理分辨率為 128×128像素的彩色影像(每像素 24 位)。
在此觀察前一個模型,人體感測應用程序可識別影像中是否有人。在與STM32F4DIS-CAM連接的STM32L4R上執(zhí)行這個應用程序時,大約需要270毫秒來推斷。而閃存和 RAM 的大小足以在微控制器上執(zhí)行神經網絡 (NN),如圖四所示。
圖四 : 人體感測概覽
人體感測可利用從低功率喚醒,使用案例包括開燈、開門或其他任何自定義方法。一般用途通常采用被動紅外線傳感器,藉以在偵測到移動的時間和地點觸發(fā)事件。不過,這種PIR 系統(tǒng)的問題是可能發(fā)生誤報。如果有貓經過或在風中飛舞的樹葉,可能會觸發(fā)這個系統(tǒng)。人體感測應用只會偵測人類,并且有助于輕松開發(fā)更智能的偵測系統(tǒng)。
系統(tǒng)架構
FP-AI-VISION1的頂層架構,如圖五所示。
圖五 : FP-AI-VISION1架構
應用建構流程
從浮點 CNN 模型(使用 Keras 等架構設計和訓練)開始,使用者產生優(yōu)化的C程序代碼(使用STM32Cube.AI 工具)并整合到計算機視覺架構中(FP-AI-VISION1 提供),以便在 STM32H7上建構計算機視覺應用。
產生C程序代碼時,使用者可從下列兩個選項中擇一:
? 直接從CNN模型以浮點方式產生浮點C程序代碼;
? 或者對浮點CNN模型進行量化,得到8位模型,隨后產生對應之量化后的C程序代碼;
對于大多數 CNN 模型,第二個選項可以減少內存占用(閃存和RAM)以及推斷時間。對最終輸出準確度的影響則取決于CNN模型以及量化過程(主要是測試數據集和量化算法)。
圖六 : FP-AI-VISION1架構
應用執(zhí)行流程
對于計算機視覺應用,整合需要一些數據緩沖區(qū),如圖七所示。
圖七 : 執(zhí)行流程中的數據緩沖區(qū)
應用過程依序執(zhí)行下列操作:
1. 在 camera_capture buffer中擷取攝影機畫格(透過DCMI數據緩存器中的DMA引擎)。
2. 此時,根據選擇的內存分配配置,將camera_capture buffer內容復制到 camera_frame buffer,并啟動后續(xù)畫格的擷取。
3. camera_frame buffer中包含的影像將重新縮放到Resize_Dst_Img buffer中,藉以配合預期的CNN輸入張量尺寸。例如,食品識別NN模型需要輸入張量,例如 Height × Width = 224 × 224像素。
4. 執(zhí)行Resize_Dst_Img buffer到Pfc_Dst_Img buffer的像素色彩格式轉換。
5. 將Pfc_Dst_Img buffer內容中包含的各像素格式調整到nn_input緩沖區(qū)中。
6. 執(zhí)行NN模型的推斷:這個nn_input buffer以及activation buffer提供給NN作為輸入。分類結果將儲存在 nn_output buffer中。
7. 對nn_output buffer內容進行后處理,并顯示結果于屏幕上。
圖表八詳細說明了食品識別應用在整合量化C模型或浮點C模型時所需的RAM。
圖八 : 用于食品識別應用的SRAM內存緩沖器
參考數據
[1] 食品識別 CNN 是 MobileNet 模型的衍生模型。MobileNet:用于行動視覺應用的高效率卷積神經網絡
[2]UM2611:FP-AI-VISION1手冊
[3]UM2526:STM32Cube.AI手冊
[4]FP-AI-VISION1 視訊應用影片
評論