博客專(zhuān)欄

EEPW首頁(yè) > 博客 > Yolo-Z:改進(jìn)的YOLOv5用于小目標(biāo)檢測(cè)(附原論文下載)

Yolo-Z:改進(jìn)的YOLOv5用于小目標(biāo)檢測(cè)(附原論文下載)

發(fā)布人:CV研究院 時(shí)間:2022-03-08 來(lái)源:工程師 發(fā)布文章
論文地址:https://arxiv.org/pdf/2112.11798.pdf


一、前言

隨著自動(dòng)駕駛汽車(chē)和自動(dòng)駕駛賽車(chē)越來(lái)越受歡迎,對(duì)更快、更準(zhǔn)確的檢測(cè)器的需求也在增加。

圖片

雖然我們的肉眼幾乎可以立即提取上下文信息,即使是在很遠(yuǎn)的地方,但圖像分辨率和計(jì)算資源的限制使得檢測(cè)較小的對(duì)象(即在輸入圖像中占據(jù)小像素區(qū)域的對(duì)象)對(duì)機(jī)器來(lái)說(shuō)是一項(xiàng)真正具有挑戰(zhàn)性的任務(wù)和廣闊的研究領(lǐng)域。

本研究探討了如何修改流行的YOLOv5目標(biāo)檢測(cè)器以提高其在檢測(cè)較小對(duì)象方面的性能,特別是在自主賽車(chē)中的應(yīng)用。為了實(shí)現(xiàn)這一點(diǎn),研究者研究了替換模型的某些結(jié)構(gòu)元素(以及它們的連接和其他參數(shù))如何影響性能和推理時(shí)間。為此,研究者提出了一系列不同尺度的模型,將其命名為“YOLO-Z”,當(dāng)以50%的IoU檢測(cè)較小的物體時(shí),這些模型的mAP提升高達(dá)6.9%,而代價(jià)與原始YOLOv5相比,推理時(shí)間增加了 3ms。

研究者們的目標(biāo)是為未來(lái)的研究提供有關(guān)調(diào)整流行檢測(cè)器(例如YOLOv5)以解決特定任務(wù)的潛力的信息,并提供有關(guān)特定更改如何影響小物體檢測(cè)的見(jiàn)解。這些發(fā)現(xiàn)應(yīng)用于更廣泛的自動(dòng)駕駛汽車(chē)環(huán)境,可以增加此類(lèi)系統(tǒng)可用的環(huán)境信息量。

二、背景

檢測(cè)圖像中的小物體具有挑戰(zhàn)性,主要是由于模型可用的分辨率和上下文信息有限。許多實(shí)現(xiàn)目標(biāo)檢測(cè)的系統(tǒng)都以實(shí)時(shí)速度執(zhí)行此操作,從而對(duì)計(jì)算資源提出了特定要求,尤其是在處理要在捕獲圖像的同一設(shè)備上進(jìn)行時(shí)。許多自動(dòng)駕駛車(chē)輛系統(tǒng)就是這種情況,其中車(chē)輛本身實(shí)時(shí)捕獲和處理圖像,通常是為了通知其下一步行動(dòng)。在這種情況下,檢測(cè)較小的物體意味著檢測(cè)距離汽車(chē)較遠(yuǎn)的物體,從而可以更早地檢測(cè)到這些物體,有效地?cái)U(kuò)大了車(chē)輛的檢測(cè)范圍。這一特定領(lǐng)域的改進(jìn)將更好地為系統(tǒng)提供信息,使其能夠做出更穩(wěn)健和可行的決策。由于目標(biāo)檢測(cè)器的性質(zhì),較小對(duì)象的細(xì)節(jié)在其卷積主干的每一層處理時(shí)失去了意義。在本研究中,“小物體”是指在輸入圖像中占據(jù)小像素區(qū)域的物體。

目前,已經(jīng)有很多研究者努力改進(jìn)對(duì)較小物體的檢測(cè)[如An Evaluation of Deep Learning Methods for Small Object Detection],但許多都圍繞著圖像的特定區(qū)域進(jìn)行處理或集中在two-stages檢測(cè)器周?chē)?,這些檢測(cè)器以實(shí)現(xiàn)以推理時(shí)間為代價(jià)獲得更好的性能,使其不太適合實(shí)時(shí)應(yīng)用程序。這也是為此類(lèi)應(yīng)用開(kāi)發(fā)了如此多的單級(jí)檢測(cè)器的原因。增加輸入圖像分辨率是繞過(guò)此問(wèn)題的另一種明顯方法,但會(huì)導(dǎo)致處理時(shí)間顯著增加。

三、新思路

已經(jīng)投入了一些努力來(lái)開(kāi)發(fā)將處理導(dǎo)向輸入圖像的某些區(qū)域的系統(tǒng),這使我們能夠調(diào)整分辨率,從而繞過(guò)定義對(duì)象的像素較少的限制。然而,這種方法更適合對(duì)時(shí)間不敏感的系統(tǒng),因?yàn)樗鼈冃枰啻瓮ㄟ^(guò)不同規(guī)模的網(wǎng)絡(luò)。這種更加關(guān)注特定尺度的想法仍然可以激發(fā)我們處理某些特征圖的方式。此外,通過(guò)查看如何處理特征圖而不是僅僅修改主干可以學(xué)到很多東西。不同類(lèi)型的特征金字塔網(wǎng)絡(luò)(FPN)可以不同地聚合特征圖,以不同方式增強(qiáng)主干。這種技術(shù)被證明是相當(dāng)有效的。

圖片

YOLOv5框架

YOLOv5為其模型提供了四種不同的尺度,S、M、L和X,分別代表Small、Medium、Large和Xlarge。這些比例中的每一個(gè)都將不同的乘數(shù)應(yīng)用于模型的深度和寬度,這意味著模型的整體結(jié)構(gòu)保持不變,但每個(gè)模型的大小和復(fù)雜性都會(huì)按比例縮放。

在實(shí)驗(yàn)中,我們?cè)谒谐叨壬戏謩e對(duì)模型結(jié)構(gòu)進(jìn)行更改,并將每個(gè)模型視為不同的模型,以評(píng)估其效果。為了設(shè)置基線(xiàn),我們訓(xùn)練并測(cè)試了YOLOv5四個(gè)未修改版本。然后,分別測(cè)試了對(duì)這些網(wǎng)絡(luò)的更改,以便根據(jù)我們的基線(xiàn)結(jié)果分別觀察它們的影響。在進(jìn)入下一階段時(shí),那些似乎對(duì)提高準(zhǔn)確性或推理時(shí)間沒(méi)有貢獻(xiàn)的技術(shù)和結(jié)構(gòu)被過(guò)濾掉了。然后,嘗試了所選技術(shù)的組合。重復(fù)這個(gè)過(guò)程,觀察某些技術(shù)是相互補(bǔ)充還是相互削弱,并逐漸增加更復(fù)雜的組合。

Proposed architectural changes

YOLOv5使用yaml文件來(lái)指示解析器如何構(gòu)建模型。我們使用此設(shè)置編寫(xiě)自己的高級(jí)指令,說(shuō)明如何構(gòu)建模型的不同構(gòu)建塊以及使用哪些參數(shù),從而修改其結(jié)構(gòu)。為了實(shí)現(xiàn)新結(jié)構(gòu),我們安排并為每個(gè)構(gòu)建塊或?qū)犹峁﹨?shù),并在必要時(shí)指示解析器如何構(gòu)建它。用我們的話(huà)來(lái)說(shuō),我們利用了YOLOv5提供的基礎(chǔ)和實(shí)驗(yàn)網(wǎng)絡(luò)塊,同時(shí)在需要的地方實(shí)現(xiàn)了額外的塊來(lái)模擬所需的結(jié)構(gòu)。

其中,neck的修改:

在這項(xiàng)工作中,將當(dāng)前的Pan-Net[Path aggregation network for instance segmentation]簡(jiǎn)化為FPN,并將其替換為biFPN[EfficientDet: Scalable and Efficient Object Detection]。在這兩種情況下,neck都保留了類(lèi)似的功能,但復(fù)雜性有所不同,因此實(shí)現(xiàn)它們所需的層數(shù)和連接數(shù)也有所不同。

其他修改可見(jiàn)論文。

圖片

可以在包含性和排他性的結(jié)構(gòu)方面實(shí)現(xiàn)如何支持較小的特征圖的示例

四、實(shí)驗(yàn)分析

圖片

Results of applying individual architectural changes to YOLOv5 at each scale


YOLOv5和YOLO-Z的比較

圖片


圖片


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉