博客專欄

EEPW首頁(yè) > 博客 > 改進(jìn)的YOLO:AF-FPN替換金字塔模塊提升目標(biāo)檢測(cè)精度

改進(jìn)的YOLO:AF-FPN替換金字塔模塊提升目標(biāo)檢測(cè)精度

發(fā)布人:CV研究院 時(shí)間:2023-06-23 來(lái)源:工程師 發(fā)布文章
隨著世界邁向第四次工業(yè)革命,電動(dòng)車越來(lái)越普遍,但是路上的交通標(biāo)志也五花八門,如果利用計(jì)算機(jī)視覺(jué)技術(shù)可以全部檢測(cè)識(shí)別,那也是一大進(jìn)步!


一、前言
圖片交通標(biāo)志檢測(cè)對(duì)于無(wú)人駕駛系統(tǒng)來(lái)說(shuō)是一項(xiàng)具有挑戰(zhàn)性的任務(wù),特別是對(duì)于多尺度目標(biāo)的檢測(cè)和檢測(cè)的實(shí)時(shí)性問(wèn)題。在交通標(biāo)志檢測(cè)過(guò)程中,目標(biāo)的尺度變化很大,會(huì)對(duì)檢測(cè)精度產(chǎn)生一定的影響。圖片特征金字塔被廣泛用于解決這個(gè)問(wèn)題,但它可能會(huì)破壞不同尺度交通標(biāo)志的特征一致性。而且,在實(shí)際應(yīng)用中,常用的方法很難在保證檢測(cè)實(shí)時(shí)性的同時(shí)提高多尺度交通標(biāo)志的檢測(cè)精度。在今天分享中,研究者提出了一種改進(jìn)的特征金字塔模型,命名為AF-FPN,它利用自適應(yīng)注意力模塊(AAM)和特征增強(qiáng)模塊(FEM)來(lái)減少特征圖生成過(guò)程中的信息丟失并增強(qiáng)表示能力的特征金字塔。將YOLOv5中原有的特征金字塔網(wǎng)絡(luò)替換為AF-FPN,在保證實(shí)時(shí)檢測(cè)的前提下提高了YOLOv5網(wǎng)絡(luò)對(duì)多尺度目標(biāo)的檢測(cè)性能。此外,提出了一種新的自動(dòng)學(xué)習(xí)數(shù)據(jù)增強(qiáng)方法來(lái)豐富數(shù)據(jù)集并提高模型的魯棒性,使其更適合實(shí)際場(chǎng)景。在Tsinghua-Tencent 100K (TT100K) 數(shù)據(jù)集上的大量實(shí)驗(yàn)結(jié)果證明了與幾種最先進(jìn)的方法相比所提出的方法的有效性和優(yōu)越性。
二、背景

圖片

交通標(biāo)志識(shí)別系統(tǒng)化是自動(dòng)駕駛中最重要的一部分,怎樣去提升交通標(biāo)志檢測(cè)和識(shí)別技術(shù)的精度和實(shí)時(shí)性能,這個(gè)也是現(xiàn)在當(dāng)技術(shù)實(shí)際落地時(shí)需要解決的重要問(wèn)題。傳統(tǒng)的CNN通常需要大量的參數(shù)和浮點(diǎn)運(yùn)算 (FLOP) 以達(dá)到準(zhǔn)確性令人滿意的效果,例如ResNet-50有大約2560萬(wàn)個(gè)參數(shù)和需要4.1B FLOPs來(lái)處理大小為224×224的圖像。然而,移動(dòng)設(shè)備(例如智能手機(jī)和自動(dòng)駕駛汽車)有限的內(nèi)存和計(jì)算資源不能用于大型網(wǎng)絡(luò)的部署和推理。作為一個(gè)one-stage檢測(cè)器,使用YOLOv5是由于具有計(jì)算量小、速度快的優(yōu)點(diǎn)。


三、新框架詳細(xì)分析

圖片

  • The improved YOLOv5s network framework

作為當(dāng)前YOLO系列中的最新框架,卓越的YOLOv5其靈活性使其便于快速在車輛硬件方面進(jìn)行部署。YOLOv5包含四個(gè)模型,分別是YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x。YOLOv5s是YOLO系列最小的模型,更適合部署在車載移動(dòng)硬件平臺(tái),由于其內(nèi)存大小為14.10M,但識(shí)別精度達(dá)不到準(zhǔn)確、高效識(shí)別的要求,尤其是用于識(shí)別小規(guī)模目標(biāo)。YOLOv5的基本框架可以分為四個(gè)部分:input、backbone、neck和prediction。Input部分通過(guò)數(shù)據(jù)增強(qiáng)來(lái)豐富數(shù)據(jù)集,它具有對(duì)硬件設(shè)備要求低,計(jì)算量成本低。但是它會(huì)導(dǎo)致數(shù)據(jù)集中原來(lái)的小目標(biāo)變小,從而導(dǎo)致數(shù)據(jù)集的惡化,降低模型的泛化性能。Backbone部分主要由CSP模塊組成,它們通過(guò)CSPDarknet53執(zhí)行特征提取。FPN和PANet用于聚合Neck現(xiàn)階段的圖像特征。最后,網(wǎng)絡(luò)通過(guò)Prediction進(jìn)行目標(biāo)預(yù)測(cè)和輸出。

研究者引入AF-FPN自動(dòng)學(xué)習(xí)數(shù)據(jù)增強(qiáng)來(lái)解決模型大小和識(shí)別精度不兼容的問(wèn)題,進(jìn)一步提高模型的識(shí)別性能。將原有的FPN結(jié)構(gòu)替換為AF-FPN,以提高識(shí)別多尺度目標(biāo)的能力,并在識(shí)別速度和準(zhǔn)確率之間做出有效的權(quán)衡。

此外,研究者去除原始網(wǎng)絡(luò)中的mosaic augmentation,并根據(jù)自動(dòng)學(xué)習(xí)數(shù)據(jù)增強(qiáng)策略使用最佳數(shù)據(jù)增強(qiáng)方法來(lái)豐富數(shù)據(jù)集并提高訓(xùn)練效果。改進(jìn)后的YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。

圖片

  • AF-FPN structure

AF-FPN在傳統(tǒng)特征金字塔網(wǎng)絡(luò)的基礎(chǔ)上,增加了自適應(yīng)注意力模塊(AAM)和特征增強(qiáng)模塊(FEM)。前一部分由于減少了特征通道,減少了在高層特征圖中上下文信息的丟失;后一部分增強(qiáng)了特征金字塔的表示并加快了推理速度,同時(shí)實(shí)現(xiàn)了最先進(jìn)的性能。AF-FPN的結(jié)構(gòu)如下圖所示。

圖片

AAM的具體結(jié)構(gòu)如下圖所示,作為自適應(yīng)注意力模塊的輸入,C5的大小為S=h×w。它首先通過(guò)自適應(yīng)池化層獲得不同尺度(β1×S,β2×S,β3×S)的上下文特征。然后每個(gè)上下文特征經(jīng)過(guò)1×1卷積,得到相同的通道維度256。使用雙線性插值將它們上采樣到S的尺度,用于后續(xù)融合。

圖片

空間注意力機(jī)制通過(guò)一個(gè)Concat層將三個(gè)上下文特征的通道合并,然后特征圖依次通過(guò)1×1卷積層、ReLU激活層、3×3卷積層和sigmoid激活層生成對(duì)應(yīng)的空間權(quán)重。生成的權(quán)重圖和合并通道后的特征圖進(jìn)行Hadamard乘積運(yùn)算,分離后加入到輸入特征圖M5中,將上下文特征聚合到M6中。最終的特征圖具有豐富的多尺度上下文信息,在一定程度上緩解了由于通道數(shù)減少而造成的信息丟失。

圖片

FEM主要利用空洞卷積根據(jù)檢測(cè)到的交通標(biāo)志的不同尺度自適應(yīng)學(xué)習(xí)每個(gè)特征圖中不同的感受野,從而提高多尺度目標(biāo)檢測(cè)和識(shí)別的準(zhǔn)確性。如上圖所示,它可以分為兩個(gè)部分:多分支卷積層和多分支池化層。多分支卷積層用于通過(guò)空洞卷積為輸入特征圖提供不同大小的感受野。并且平均池化層用于融合來(lái)自三個(gè)分支感受野的交通信息,以提高多尺度預(yù)測(cè)的準(zhǔn)確性。

  • Data Augmentation

數(shù)據(jù)增強(qiáng)我就簡(jiǎn)單描述下,具體如下示例:

圖片


四、實(shí)驗(yàn)結(jié)果及可視化


圖片

Size distribution of sign instances from the TT100K

在TT100K數(shù)據(jù)集上與其他模型的性能比較圖片

圖片

每種方法對(duì)19種交通標(biāo)志的漏檢率比較


圖片


圖片


移動(dòng)設(shè)備部署及通過(guò)攝像頭拍攝的檢測(cè)實(shí)例

圖片



*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉