運用FP-AI-VISION1的影像分類器

作者：時間：2022-05-04 來源：CTIMES

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

意法半導體（ST）持續(xù)積極參與高速發(fā)展的嵌入式人工智能領域。為了在具成本效益和低功耗的微控制器上加快運用機器學習和深度神經(jīng)網(wǎng)絡，ST開發(fā)全方位的邊緣人工智能生態(tài)系統(tǒng)，嵌入式開發(fā)人員可以在各種STM32微控制器產(chǎn)品組合中，輕松新增利用人工智能的新功能和強大的解決方案。

圖一顯示ST AI解決方案之于整個STM32產(chǎn)品組合，而且已經(jīng)擁有預先訓練神經(jīng)網(wǎng)絡的嵌入式開發(fā)人員，可以在任何采用Cortex M4、M33和M7的STM32上移植、優(yōu)化和驗證這整個產(chǎn)品組合。STM32Cube.AI是 STM32CubeMX的AI擴充套件，讓客戶能以更高效率開發(fā)其AI產(chǎn)品。
利用深度學習的強大功能可以增強訊號處理效能，并提升STM32 應用的工作效率。
本文概述FP-AI-VISION1，此為用于計算機視覺開發(fā)的架構，提供工程師在STM32H7上執(zhí)行視覺應用的程序代碼范例。

圖片.png

圖一 : 執(zhí)行機器學習和深度學習算法的STM32產(chǎn)品組合

從FP-AI-VISION1程序代碼范例開始，簡易達成在邊緣執(zhí)行的各種計算機視覺使用案例，例如

? 生產(chǎn)在線的物體分類，藉以根據(jù)物體的類型調(diào)整輸送帶速度；
? 偵測產(chǎn)品的一般瑕疵；
? 區(qū)分不同類型的對象，例如：螺絲、意大利面、樂高零件，并分揀到不同的容器中；
? 對設備或機器人操作的材料類型進行分類，并隨之調(diào)整行為；
? 對食品類型進行分類以調(diào)整烹調(diào)／燒烤／沖泡或重新訂購貨架上的新產(chǎn)品。

FP-AI-VISION1
概述
FP-AI-VISION1是STM32Cube功能套件（FP），提供采用卷積神經(jīng)網(wǎng)絡（CNN）的計算機視覺應用范例。其由STM32Cube.AI產(chǎn)生的軟件組件和AI計算機視覺應用專用的應用軟件組件組成。

功能套件中提供的應用范例，包含：

? 食品識別：辨識18類常見食品；
? 人體感測：識別影像中是否有人；
? 人數(shù)統(tǒng)計：依照物體偵測模型計算情境中的人數(shù)。

主要特色
FP-AI-VISION1在與STM32F4DIS-CAM攝影機子板，或是B-CAMS-OMV攝影機模塊搭配連接的STM32H747I-DISCO板上運作，包括用于攝影機擷取、畫格影像預處理、推斷執(zhí)行的完整應用韌體和輸出后處理。這也提供浮點和 8 位量化 C 模型的整合范例，并支持多種數(shù)據(jù)存儲器設定，滿足各種應用需求。

此功能套件最重要的其中一項關鍵優(yōu)勢是提供范例，描述如何將不同類型的數(shù)據(jù)有效地放置在芯片上的內(nèi)存和外部內(nèi)存中。用戶因此能夠輕松了解最符合需求的內(nèi)存分配，并有助建立適用于STM32系列的自定義神經(jīng)網(wǎng)絡模型，特別是在STM32H747-Disco板上。

圖片.png

圖二 : FP-AI-VISION1評估裝置范例

FP-AI-VISION1 包括三個采用 CNN 的影像分類應用范例：

? 一種對彩色（RGB 24位）畫格影像執(zhí)行的食品識別應用；
? 一種對彩色（RGB 24位）畫格影像執(zhí)行的人體感測應用；
? 一種對灰階（8位）畫格影像執(zhí)行的人體感測應用。

本文將重點介紹食品識別和人體感測之兩種范例。

首先討論食品識別應用。食品識別CNN是MobileNet模型的衍生模型。MobileNet是適用于行動和嵌入式視覺應用的高效率模型架構，此模型架構由Google[1]提出。
MobileNet模型架構包括兩個簡單的全局超參數(shù)，可以高效在延遲和準確度之間進行權衡。原則上，這些超參數(shù)可讓模型建構者根據(jù)問題的限制條件，決定應用大小適合的模型?？紤]STM32H747的目標限制條件，此軟件套件中使用的食品識別模型是透過調(diào)整這些超參數(shù)建構而成，以便在準確度、運算成本和內(nèi)存占用之間進行最佳權衡。

圖三為食品識別模型的簡單執(zhí)行流程。這在STM32H747上執(zhí)行，大約需要150毫秒才能完成推斷。

圖片.png

圖三 : 食品識別模型的執(zhí)行流程

其次，將說明人體感測應用。FP-AI-VISION1 提供兩個人體感測的范例應用：

? 一種采用低復雜度CNN 模型（所謂的Google_Model），用于處理分辨率為96×96像素的灰階影像（每像素 8 位）。這個模型可從：storage.googleapis.com下載。
? 一種采用更高復雜度的CNN模型（所謂的 MobileNetv2_Model），用于處理分辨率為 128×128像素的彩色影像（每像素 24 位）。

在此觀察前一個模型，人體感測應用程序可識別影像中是否有人。在與STM32F4DIS-CAM連接的STM32L4R上執(zhí)行這個應用程序時，大約需要270毫秒來推斷。而閃存和 RAM 的大小足以在微控制器上執(zhí)行神經(jīng)網(wǎng)絡 (NN)，如圖四所示。

圖片.png

圖四 : 人體感測概覽

人體感測可利用從低功率喚醒，使用案例包括開燈、開門或其他任何自定義方法。一般用途通常采用被動紅外線傳感器，藉以在偵測到移動的時間和地點觸發(fā)事件。不過，這種PIR 系統(tǒng)的問題是可能發(fā)生誤報。如果有貓經(jīng)過或在風中飛舞的樹葉，可能會觸發(fā)這個系統(tǒng)。人體感測應用只會偵測人類，并且有助于輕松開發(fā)更智能的偵測系統(tǒng)。

系統(tǒng)架構
FP-AI-VISION1的頂層架構，如圖五所示。

圖片.png

圖五 : FP-AI-VISION1架構

應用建構流程
從浮點 CNN 模型（使用 Keras 等架構設計和訓練）開始，使用者產(chǎn)生優(yōu)化的C程序代碼（使用STM32Cube.AI 工具）并整合到計算機視覺架構中（FP-AI-VISION1 提供），以便在 STM32H7上建構計算機視覺應用。

產(chǎn)生C程序代碼時，使用者可從下列兩個選項中擇一：
? 直接從CNN模型以浮點方式產(chǎn)生浮點C程序代碼；
? 或者對浮點CNN模型進行量化，得到8位模型，隨后產(chǎn)生對應之量化后的C程序代碼；
對于大多數(shù) CNN 模型，第二個選項可以減少內(nèi)存占用（閃存和RAM）以及推斷時間。對最終輸出準確度的影響則取決于CNN模型以及量化過程（主要是測試數(shù)據(jù)集和量化算法）。

圖片.png

圖六 : FP-AI-VISION1架構

應用執(zhí)行流程
對于計算機視覺應用，整合需要一些數(shù)據(jù)緩沖區(qū)，如圖七所示。

圖七 : 執(zhí)行流程中的數(shù)據(jù)緩沖區(qū)

應用過程依序執(zhí)行下列操作：

1. 在 camera_capture buffer中擷取攝影機畫格（透過DCMI數(shù)據(jù)緩存器中的DMA引擎）。
2. 此時，根據(jù)選擇的內(nèi)存分配配置，將camera_capture buffer內(nèi)容復制到 camera_frame buffer，并啟動后續(xù)畫格的擷取。
3. camera_frame buffer中包含的影像將重新縮放到Resize_Dst_Img buffer中，藉以配合預期的CNN輸入張量尺寸。例如，食品識別NN模型需要輸入張量，例如 Height × Width = 224 × 224像素。
4. 執(zhí)行Resize_Dst_Img buffer到Pfc_Dst_Img buffer的像素色彩格式轉換。
5. 將Pfc_Dst_Img buffer內(nèi)容中包含的各像素格式調(diào)整到nn_input緩沖區(qū)中。
6. 執(zhí)行NN模型的推斷：這個nn_input buffer以及activation buffer提供給NN作為輸入。分類結果將儲存在 nn_output buffer中。
7. 對nn_output buffer內(nèi)容進行后處理，并顯示結果于屏幕上。

圖表八詳細說明了食品識別應用在整合量化C模型或浮點C模型時所需的RAM。

圖片.png

圖八 : 用于食品識別應用的SRAM內(nèi)存緩沖器

參考數(shù)據(jù)
[1] 食品識別 CNN 是 MobileNet 模型的衍生模型。MobileNet：用于行動視覺應用的高效率卷積神經(jīng)網(wǎng)絡
[2]UM2611：FP-AI-VISION1手冊
[3]UM2526：STM32Cube.AI手冊
[4]FP-AI-VISION1 視訊應用影片

本文引用地址：http://www.butianyuan.cn/article/202205/433731.htm

新聞中心

運用FP-AI-VISION1的影像分類器

評論

相關推薦

技術專區(qū)