改進的YOLOv5:AF-FPN替換金字塔模塊提升目標檢測精度
交通標志檢測對于無人駕駛系統(tǒng)來說是一項具有挑戰(zhàn)性的任務(wù),特別是對于多尺度目標的檢測和檢測的實時性問題。在交通標志檢測過程中,目標的尺度變化很大,會對檢測精度產(chǎn)生一定的影響。特征金字塔被廣泛用于解決這個問題,但它可能會破壞不同尺度交通標志的特征一致性。而且,在實際應(yīng)用中,常用的方法很難在保證檢測實時性的同時提高多尺度交通標志的檢測精度。在今天分享中,研究者提出了一種改進的特征金字塔模型,命名為AF-FPN,它利用自適應(yīng)注意力模塊(AAM)和特征增強模塊(FEM)來減少特征圖生成過程中的信息丟失并增強表示能力的特征金字塔。將YOLOv5中原有的特征金字塔網(wǎng)絡(luò)替換為AF-FPN,在保證實時檢測的前提下提高了YOLOv5網(wǎng)絡(luò)對多尺度目標的檢測性能。此外,提出了一種新的自動學(xué)習(xí)數(shù)據(jù)增強方法來豐富數(shù)據(jù)集并提高模型的魯棒性,使其更適合實際場景。在Tsinghua-Tencent 100K (TT100K) 數(shù)據(jù)集上的大量實驗結(jié)果證明了與幾種最先進的方法相比所提出的方法的有效性和優(yōu)越性。
二、背景
交通標志識別系統(tǒng)化是自動駕駛中最重要的一部分,怎樣去提升交通標志檢測和識別技術(shù)的精度和實時性能,這個也是現(xiàn)在當技術(shù)實際落地時需要解決的重要問題。傳統(tǒng)的CNN通常需要大量的參數(shù)和浮點運算 (FLOP) 以達到準確性令人滿意的效果,例如ResNet-50有大約2560萬個參數(shù)和需要4.1B FLOPs來處理大小為224×224的圖像。然而,移動設(shè)備(例如智能手機和自動駕駛汽車)有限的內(nèi)存和計算資源不能用于大型網(wǎng)絡(luò)的部署和推理。作為一個one-stage檢測器,使用YOLOv5是由于具有計算量小、速度快的優(yōu)點。
三、新框架詳細分析
The improved YOLOv5s network framework
作為當前YOLO系列中的最新框架,卓越的YOLOv5其靈活性使其便于快速在車輛硬件方面進行部署。YOLOv5包含四個模型,分別是YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x。YOLOv5s是YOLO系列最小的模型,更適合部署在車載移動硬件平臺,由于其內(nèi)存大小為14.10M,但識別精度達不到準確、高效識別的要求,尤其是用于識別小規(guī)模目標。YOLOv5的基本框架可以分為四個部分:input、backbone、neck和prediction。Input部分通過數(shù)據(jù)增強來豐富數(shù)據(jù)集,它具有對硬件設(shè)備要求低,計算量成本低。但是它會導(dǎo)致數(shù)據(jù)集中原來的小目標變小,從而導(dǎo)致數(shù)據(jù)集的惡化,降低模型的泛化性能。Backbone部分主要由CSP模塊組成,它們通過CSPDarknet53執(zhí)行特征提取。FPN和PANet用于聚合Neck現(xiàn)階段的圖像特征。最后,網(wǎng)絡(luò)通過Prediction進行目標預(yù)測和輸出。
研究者引入AF-FPN和自動學(xué)習(xí)數(shù)據(jù)增強來解決模型大小和識別精度不兼容的問題,進一步提高模型的識別性能。將原有的FPN結(jié)構(gòu)替換為AF-FPN,以提高識別多尺度目標的能力,并在識別速度和準確率之間做出有效的權(quán)衡。
此外,研究者去除原始網(wǎng)絡(luò)中的mosaic augmentation,并根據(jù)自動學(xué)習(xí)數(shù)據(jù)增強策略使用最佳數(shù)據(jù)增強方法來豐富數(shù)據(jù)集并提高訓(xùn)練效果。改進后的YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。
AF-FPN structure
AF-FPN在傳統(tǒng)特征金字塔網(wǎng)絡(luò)的基礎(chǔ)上,增加了自適應(yīng)注意力模塊(AAM)和特征增強模塊(FEM)。前一部分由于減少了特征通道,減少了在高層特征圖中上下文信息的丟失;后一部分增強了特征金字塔的表示并加快了推理速度,同時實現(xiàn)了最先進的性能。AF-FPN的結(jié)構(gòu)如下圖所示。
AAM的具體結(jié)構(gòu)如下圖所示,作為自適應(yīng)注意力模塊的輸入,C5的大小為S=h×w。它首先通過自適應(yīng)池化層獲得不同尺度(β1×S,β2×S,β3×S)的上下文特征。然后每個上下文特征經(jīng)過1×1卷積,得到相同的通道維度256。使用雙線性插值將它們上采樣到S的尺度,用于后續(xù)融合。
空間注意力機制通過一個Concat層將三個上下文特征的通道合并,然后特征圖依次通過1×1卷積層、ReLU激活層、3×3卷積層和sigmoid激活層生成對應(yīng)的空間權(quán)重。生成的權(quán)重圖和合并通道后的特征圖進行Hadamard乘積運算,分離后加入到輸入特征圖M5中,將上下文特征聚合到M6中。最終的特征圖具有豐富的多尺度上下文信息,在一定程度上緩解了由于通道數(shù)減少而造成的信息丟失。
FEM主要利用空洞卷積根據(jù)檢測到的交通標志的不同尺度自適應(yīng)學(xué)習(xí)每個特征圖中不同的感受野,從而提高多尺度目標檢測和識別的準確性。如上圖所示,它可以分為兩個部分:多分支卷積層和多分支池化層。多分支卷積層用于通過空洞卷積為輸入特征圖提供不同大小的感受野。并且平均池化層用于融合來自三個分支感受野的交通信息,以提高多尺度預(yù)測的準確性。
- Data Augmentation
數(shù)據(jù)增強我就簡單描述下,具體如下示例:
四、實驗結(jié)果及可視化
Size distribution of sign instances from the TT100K
在TT100K數(shù)據(jù)集上與其他模型的性能比較
每種方法對19種交通標志的漏檢率比較
移動設(shè)備部署及通過攝像頭拍攝的檢測實例
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
隔離器相關(guān)文章:隔離器原理