博客專欄

EEPW首頁 > 博客 > 除了Yolo的其他選擇,輕量級檢測網(wǎng)絡層出不窮(框架解析及部署實踐)

除了Yolo的其他選擇,輕量級檢測網(wǎng)絡層出不窮(框架解析及部署實踐)

發(fā)布人:CV研究院 時間:2022-12-22 來源:工程師 發(fā)布文章

開源代碼:https://github.com/RangiLyu/nanodet

前言&背景


圖片

圖像選自于《https://www.cnblogs.com/azureology/p/14103685.html》

目標檢測是現(xiàn)在最熱門的研究課題,也一直是工業(yè)界重點研究的對象,最近幾年內(nèi),也出現(xiàn)了各種各樣的檢測框架,所屬于YOLO系列是最經(jīng)典也是目前被大家認可使用的檢測框架。

圖片

然而,隨著工業(yè)的應用發(fā)展,要求也越來越嚴格,正常的檢測框架已經(jīng)無法滿足現(xiàn)在的檢測需求,所有現(xiàn)在的輕量級是備受大家的關(guān)注。深度學習目標檢測方法還可劃分為Anchor-base和Anchor-free兩大類,今年又出現(xiàn)了將Transformer用于目標檢測的嘗試。

  • CVPR21目標檢測新框架:不再是YOLO,而是只需要一層特征(干貨滿滿,建議收藏)

  • 目標檢測 | Anchor free的目標檢測進階版本

  • ICCV2021:阿里達摩院將Transformer應用于目標重識別,效果顯著(附源代碼)

但是,在移動端目標檢測算法上,Yolo系列Anchor-base的模型一直占據(jù)主導地位。但是今天“計算機視覺研究院”介紹的是Anchor-free的NANODet框架以及部署應用。

圖片


2

框架介紹


圖片

Super fast and lightweight anchor-free object detection model. Real-time on mobile devices.

圖片

真實使用NANODet框架,確實比YOLO-Fastest系列好用很多,比YOLOF都好用一些,下一期,我們“計算進視覺研究院”計劃給大家一起來詳細說說YOLO-Fastest系列。

圖片

現(xiàn)在Github提供的整體,都已在安卓運行,華為P30上用NCNN移植跑benchmark,每幀僅需10.23毫秒,比yolov4-tiny快3倍,參數(shù)量小6倍,COCO mAP(0.5:0.95)能夠達到20.6 。而且模型權(quán)重文件只有1.8mb。

圖片


圖片

我們現(xiàn)在先說下NANODet的具體創(chuàng)新。首先是檢測頭,需要對移動端進行優(yōu)化的就是檢測頭:FCOS系列使用了共享權(quán)重的檢測頭,即對FPN出來的多尺度Feature Map使用同一組卷積預測檢測框,然后每一層使用一個可學習的Scale值作為系數(shù),對預測出來的框進行縮放。圖片

圖片來自于:

https://openaccess.thecvf.com/content_ICCV_2019/papers/Tian_FCOS_Fully_Convolutional_One-Stage_Object_Detection_ICCV_2019_paper.pdf

這么做的好處是能夠?qū)z測頭的參數(shù)量降低為不共享權(quán)重狀態(tài)下的 1/5。這對于光是檢測頭就擁有數(shù)百通道卷積的大模型來說非常有用,但是對于輕量化模型來說,共享權(quán)重檢測頭并沒有很大的意義。由于移動端模型推理由 CPU 執(zhí)行計算,共享權(quán)重并不會帶來推理過程的加速,而且在檢測頭非常輕量的情況下,共享權(quán)重使其檢測能力進一步下降,因此項目作者認為選擇對每一層特征使用一組卷積比較合適。


,時長00:53


其次,是對損失函數(shù)做了一些改變。將FCOS輕量化處理時,由于FCOS的centerness分支在輕量級的模型上很難收斂,模型效果不如預期。最終,NanoDet使用了李翔等人提出的Generalized Focal Loss損失函數(shù)。該函數(shù)能夠去掉FCOS的Centerness分支,省去這一分支上的大量卷積,從而減少檢測頭的計算開銷,非常適合移動端的輕量化部署。

圖片

圖片

改論文地址:https://arxiv.org/pdf/2006.04388.pdf最后,項目作者借鑒了Yolo系列的做法,將邊框回歸和分類使用同一組卷積進行計算,然后 split 成兩份。最終得到的輕量化檢測頭如下圖所示:圖片

FPN 層改進

摘自于《機器之心》

目前針對 FPN 的改進有許多,如EfficientDet使用了BiFPN,YOLO v4和v5使用了PAN,除此之外還有BalancedFPN等等。BiFPN雖然性能強大,但是堆疊的特征融合操作會導致運行速度降低,而PAN只有自上而下和自下而上兩條通路,非常簡潔,是輕量級模型特征融合的好選擇。

圖片

原版的PAN和YOLO系列中的PAN都使用了stride=2的卷積進行大尺度Feature Map到小尺度的縮放。而該項目出于輕量化的考慮,選擇完全去掉 PAN 中的所有卷積,只保留從骨干網(wǎng)絡特征提取后的1x1卷積來進行特征通道維度的對齊,上采樣和下采樣均使用插值來完成。與YOLO使用的concatenate操作不同,項目作者選擇將多尺度的Feature Map直接相加,使整個特征融合模塊的計算量變得非常小最終得到的極小版 PAN結(jié)構(gòu)非常簡單:

圖片
圖片源自于《https://zhuanlan.zhihu.com/p/306530300

主干網(wǎng)絡

項目作者選擇使用ShuffleNetV2 1.0x作為主干網(wǎng)絡,他去掉了該網(wǎng)絡的最后一層卷積,并且抽取8、16、32倍下采樣的特征輸入到PAN中做多尺度的特征融合。整個主干模型使用了Torchvision提供的代碼,能夠直接加載Torchvision上提供的imagenet預訓練權(quán)重,對加快模型收斂起到很大幫助。

圖片

3

部署

生成部署文件

  • pth 轉(zhuǎn)化為ONNX


python tools/export.py --cfg_path /config/EfficientNet-Lite/nanodet-EfficientNet-Lite1_416.yml --model_path  /model_best/model_best.pth --out_path model_test.onnx --input_shape 416,416

  • ONNX轉(zhuǎn)化NCNN

1)編譯ncnn

參考   https://blog.csdn.net/weixin_40970506/article/details/105148061

2)安裝onnx==1.8.1

3)cd onnx-simplifier-master


python -m onnxsim  /nanodet/nanodet-main/tools/model_test.onnx nanodet_sim.onnx

4)轉(zhuǎn)換成bin

cd  /ncnn-master/build/tools/onnx


./onnx2ncnn /onnx-simplifier-master/nanodet_sim.onnx nanodet_m.param nanodet_m.bin



*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

伺服電機相關(guān)文章:伺服電機工作原理




關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉