Yolo-Z：改進(jìn)的YOLOv5用于小目標(biāo)檢測(cè)（附原論文下載）

發(fā)布人：CV研究院時(shí)間：2022-03-08 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

論文地址：https://arxiv.org/pdf/2112.11798.pdf

一、前言

隨著自動(dòng)駕駛汽車(chē)和自動(dòng)駕駛賽車(chē)越來(lái)越受歡迎，對(duì)更快、更準(zhǔn)確的檢測(cè)器的需求也在增加。

雖然我們的肉眼幾乎可以立即提取上下文信息，即使是在很遠(yuǎn)的地方，但圖像分辨率和計(jì)算資源的限制使得檢測(cè)較小的對(duì)象（即在輸入圖像中占據(jù)小像素區(qū)域的對(duì)象）對(duì)機(jī)器來(lái)說(shuō)是一項(xiàng)真正具有挑戰(zhàn)性的任務(wù)和廣闊的研究領(lǐng)域。

本研究探討了如何修改流行的YOLOv5目標(biāo)檢測(cè)器以提高其在檢測(cè)較小對(duì)象方面的性能，特別是在自主賽車(chē)中的應(yīng)用。為了實(shí)現(xiàn)這一點(diǎn)，研究者研究了替換模型的某些結(jié)構(gòu)元素（以及它們的連接和其他參數(shù)）如何影響性能和推理時(shí)間。為此，研究者提出了一系列不同尺度的模型，將其命名為“YOLO-Z”，當(dāng)以50%的IoU檢測(cè)較小的物體時(shí)，這些模型的mAP提升高達(dá)6.9%，而代價(jià)與原始YOLOv5相比，推理時(shí)間增加了 3ms。

研究者們的目標(biāo)是為未來(lái)的研究提供有關(guān)調(diào)整流行檢測(cè)器（例如YOLOv5）以解決特定任務(wù)的潛力的信息，并提供有關(guān)特定更改如何影響小物體檢測(cè)的見(jiàn)解。這些發(fā)現(xiàn)應(yīng)用于更廣泛的自動(dòng)駕駛汽車(chē)環(huán)境，可以增加此類(lèi)系統(tǒng)可用的環(huán)境信息量。

二、背景

檢測(cè)圖像中的小物體具有挑戰(zhàn)性，主要是由于模型可用的分辨率和上下文信息有限。許多實(shí)現(xiàn)目標(biāo)檢測(cè)的系統(tǒng)都以實(shí)時(shí)速度執(zhí)行此操作，從而對(duì)計(jì)算資源提出了特定要求，尤其是在處理要在捕獲圖像的同一設(shè)備上進(jìn)行時(shí)。許多自動(dòng)駕駛車(chē)輛系統(tǒng)就是這種情況，其中車(chē)輛本身實(shí)時(shí)捕獲和處理圖像，通常是為了通知其下一步行動(dòng)。在這種情況下，檢測(cè)較小的物體意味著檢測(cè)距離汽車(chē)較遠(yuǎn)的物體，從而可以更早地檢測(cè)到這些物體，有效地?cái)U(kuò)大了車(chē)輛的檢測(cè)范圍。這一特定領(lǐng)域的改進(jìn)將更好地為系統(tǒng)提供信息，使其能夠做出更穩(wěn)健和可行的決策。由于目標(biāo)檢測(cè)器的性質(zhì)，較小對(duì)象的細(xì)節(jié)在其卷積主干的每一層處理時(shí)失去了意義。在本研究中，“小物體”是指在輸入圖像中占據(jù)小像素區(qū)域的物體。

目前，已經(jīng)有很多研究者努力改進(jìn)對(duì)較小物體的檢測(cè)[如An Evaluation of Deep Learning Methods for Small Object Detection]，但許多都圍繞著圖像的特定區(qū)域進(jìn)行處理或集中在two-stages檢測(cè)器周?chē)?，這些檢測(cè)器以實(shí)現(xiàn)以推理時(shí)間為代價(jià)獲得更好的性能，使其不太適合實(shí)時(shí)應(yīng)用程序。這也是為此類(lèi)應(yīng)用開(kāi)發(fā)了如此多的單級(jí)檢測(cè)器的原因。增加輸入圖像分辨率是繞過(guò)此問(wèn)題的另一種明顯方法，但會(huì)導(dǎo)致處理時(shí)間顯著增加。

三、新思路

已經(jīng)投入了一些努力來(lái)開(kāi)發(fā)將處理導(dǎo)向輸入圖像的某些區(qū)域的系統(tǒng)，這使我們能夠調(diào)整分辨率，從而繞過(guò)定義對(duì)象的像素較少的限制。然而，這種方法更適合對(duì)時(shí)間不敏感的系統(tǒng)，因?yàn)樗鼈冃枰啻瓮ㄟ^(guò)不同規(guī)模的網(wǎng)絡(luò)。這種更加關(guān)注特定尺度的想法仍然可以激發(fā)我們處理某些特征圖的方式。此外，通過(guò)查看如何處理特征圖而不是僅僅修改主干可以學(xué)到很多東西。不同類(lèi)型的特征金字塔網(wǎng)絡(luò)（FPN）可以不同地聚合特征圖，以不同方式增強(qiáng)主干。這種技術(shù)被證明是相當(dāng)有效的。

YOLOv5框架

YOLOv5為其模型提供了四種不同的尺度，S、M、L和X，分別代表Small、Medium、Large和Xlarge。這些比例中的每一個(gè)都將不同的乘數(shù)應(yīng)用于模型的深度和寬度，這意味著模型的整體結(jié)構(gòu)保持不變，但每個(gè)模型的大小和復(fù)雜性都會(huì)按比例縮放。

在實(shí)驗(yàn)中，我們?cè)谒谐叨壬戏謩e對(duì)模型結(jié)構(gòu)進(jìn)行更改，并將每個(gè)模型視為不同的模型，以評(píng)估其效果。為了設(shè)置基線(xiàn)，我們訓(xùn)練并測(cè)試了YOLOv5四個(gè)未修改版本。然后，分別測(cè)試了對(duì)這些網(wǎng)絡(luò)的更改，以便根據(jù)我們的基線(xiàn)結(jié)果分別觀察它們的影響。在進(jìn)入下一階段時(shí)，那些似乎對(duì)提高準(zhǔn)確性或推理時(shí)間沒(méi)有貢獻(xiàn)的技術(shù)和結(jié)構(gòu)被過(guò)濾掉了。然后，嘗試了所選技術(shù)的組合。重復(fù)這個(gè)過(guò)程，觀察某些技術(shù)是相互補(bǔ)充還是相互削弱，并逐漸增加更復(fù)雜的組合。

Proposed architectural changes

YOLOv5使用yaml文件來(lái)指示解析器如何構(gòu)建模型。我們使用此設(shè)置編寫(xiě)自己的高級(jí)指令，說(shuō)明如何構(gòu)建模型的不同構(gòu)建塊以及使用哪些參數(shù)，從而修改其結(jié)構(gòu)。為了實(shí)現(xiàn)新結(jié)構(gòu)，我們安排并為每個(gè)構(gòu)建塊或?qū)犹峁﹨?shù)，并在必要時(shí)指示解析器如何構(gòu)建它。用我們的話(huà)來(lái)說(shuō)，我們利用了YOLOv5提供的基礎(chǔ)和實(shí)驗(yàn)網(wǎng)絡(luò)塊，同時(shí)在需要的地方實(shí)現(xiàn)了額外的塊來(lái)模擬所需的結(jié)構(gòu)。

其中，neck的修改：

在這項(xiàng)工作中，將當(dāng)前的Pan-Net[Path aggregation network for instance segmentation]簡(jiǎn)化為FPN，并將其替換為biFPN[EfficientDet: Scalable and Efficient Object Detection]。在這兩種情況下，neck都保留了類(lèi)似的功能，但復(fù)雜性有所不同，因此實(shí)現(xiàn)它們所需的層數(shù)和連接數(shù)也有所不同。

其他修改可見(jiàn)論文。