博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 目標(biāo)檢測(cè)性能優(yōu)化,F(xiàn)ocal EIOU,從IOU的角度提升檢測(cè)的準(zhǔn)確率!

目標(biāo)檢測(cè)性能優(yōu)化,F(xiàn)ocal EIOU,從IOU的角度提升檢測(cè)的準(zhǔn)確率!

發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2022-11-19 來(lái)源:工程師 發(fā)布文章
作者丨小書(shū)童

來(lái)源丨集智書(shū)童

導(dǎo)讀框回歸是目標(biāo)檢測(cè)任務(wù)中衡量檢測(cè)框位置準(zhǔn)確與否的重要指標(biāo),為減少已知框回歸方法帶來(lái)的收斂速度慢和結(jié)果不準(zhǔn)確的問(wèn)題,本文提出了一種有效的框回歸方法(EIOU),并提出了Focal Loss的回歸版本,在收斂速度和定位精度上實(shí)現(xiàn)顯著的優(yōu)勢(shì)。圖片論文鏈接:https://arxiv.org/abs/2101.08158

在目標(biāo)檢測(cè)中,框回歸(BBR)是決定目標(biāo)定位性能的關(guān)鍵步驟。然而,作者發(fā)現(xiàn)大多數(shù)以前的BBR損失函數(shù)有兩個(gè)主要缺點(diǎn):

  1. 基于范數(shù)和IOU的損失函數(shù)都不能有效地描述BBR的目標(biāo),這導(dǎo)致收斂速度慢和回歸結(jié)果不準(zhǔn)確。

  2. 大多數(shù)損失函數(shù)忽略了BBR中的不平衡問(wèn)題,即與目標(biāo)框具有小重疊的大量目標(biāo)框?qū)BR的優(yōu)化貢獻(xiàn)最大。

為了減輕由此造成的不利影響,在本文中進(jìn)行了深入研究,以挖掘BBR損失的潛力。首先,提出了一種有效的Efficient Intersection over Union(EIOU)損失,它明確地測(cè)量了BBR中3個(gè)幾何因子的差異,即重疊面積、中心點(diǎn)和邊長(zhǎng)。之后,陳述了Effective Example Mining(EEM)問(wèn)題,并提出了Focal loss的回歸版本,以使回歸過(guò)程專(zhuān)注于高質(zhì)量的Anchor boxes。最后,將上述兩部分結(jié)合起來(lái),得到一個(gè)新的損失函數(shù),即Focal EIOU Loss。在合成和真實(shí)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)。與其他BBR損失相比,可以在收斂速度和定位精度上實(shí)現(xiàn)顯著的優(yōu)勢(shì)。

1、簡(jiǎn)介目標(biāo)檢測(cè)包括兩個(gè)子任務(wù):目標(biāo)分類(lèi)和目標(biāo)定位,一直是計(jì)算機(jī)視覺(jué)中最基本的問(wèn)題之一。當(dāng)前最先進(jìn)的目標(biāo)檢測(cè)器(例如,Cascade R-CNN、Mask R-CNN、Dynamic R-CNN和DETR)依賴(lài)于邊界回歸(BBR)模塊來(lái)定位目標(biāo)。基于這一范式,精心設(shè)計(jì)的損失函數(shù)對(duì)于BBR的成功至關(guān)重要。迄今為止,BBR的大部分損失函數(shù)可以分為兩類(lèi):
  • -范數(shù)損失可以統(tǒng)一為等式:
圖片其中x是預(yù)測(cè)框和目標(biāo)框之間的差。傳統(tǒng)的Smooth L1損失可以形成為。 -范數(shù)損失被批評(píng)為不僅忽略了BBR變量(x,y,w,h)中的相關(guān)性,還忽略了對(duì)大邊界框的固有偏差(由于非規(guī)范化形式)。然而,如圖1所示以前基于IOU的損失,例如CIOU和GIOU,無(wú)法有效地測(cè)量目標(biāo)框和Anchor之間的差異,這導(dǎo)致BBR模型優(yōu)化中的收斂速度慢和定位不準(zhǔn)確。圖片
  • 基于 IOU 的損失可以統(tǒng)一為等式:
圖片其中是預(yù)測(cè)框和目標(biāo)框。附加懲罰旨在補(bǔ)充原始IOU的收益。這些損失共同回歸所有BBR變量作為一個(gè)整體。它們也是標(biāo)準(zhǔn)化的,對(duì)邊界框的比例不敏感。然而,大多數(shù)算法都存在收斂速度慢和定位不準(zhǔn)確的問(wèn)題。更重要的是,現(xiàn)有的基于 IOU 的損失忽略了信息Anchor的重要性。在本文中進(jìn)行了深入的研究,以挖掘當(dāng)前BBR損失的潛力,實(shí)現(xiàn)精確的目標(biāo)檢測(cè)。首先,提出了一種有效的IOU損失(EIOU)來(lái)提高收斂速度和定位精度,該方法使用額外的懲罰項(xiàng)來(lái)明確測(cè)量BBR中3個(gè)關(guān)鍵幾何因素的差異,包括重疊區(qū)域、中心點(diǎn)和邊長(zhǎng)。其次,闡述了BBR中的有效實(shí)例挖掘(EEM)問(wèn)題。受最初用于測(cè)量分類(lèi)誤差的 Focal loss 的啟發(fā),作者設(shè)計(jì)了 Focal loss 的回歸版本,以增強(qiáng)具有大IOU的高質(zhì)量Anchor在BBR模型優(yōu)化過(guò)程中的貢獻(xiàn)。最后,將所提出的兩種方法組合為一種新的BBR損失函數(shù),即Focal EIOU,以實(shí)現(xiàn)高效和準(zhǔn)確的目標(biāo)檢測(cè)。通過(guò)對(duì)合成和真實(shí)數(shù)據(jù)集的廣泛評(píng)估,驗(yàn)證了所提出損失函數(shù)的有效性和優(yōu)勢(shì)。此外,當(dāng)將Focal EIOU損失與幾種最先進(jìn)的目標(biāo)檢測(cè)模型(包括Faster R-CNN、Mask R-CNN,RetinaNet、ATSS、PAA和DETR)相結(jié)合時(shí),可以在大規(guī)模COCO 2017數(shù)據(jù)集上實(shí)現(xiàn)檢測(cè)精度的一致和顯著提高,這說(shuō)明了提出的損失功能的潛在潛力。本文的貢獻(xiàn)總結(jié)如下:
  1. 考慮到基于IOU的損失和-范數(shù)損失的缺陷,提出了一種有效的IOU損失,以解決現(xiàn)有損失的困境,并獲得更快的收斂速度和更好的回歸結(jié)果。

  2. 考慮到BBR中高質(zhì)量Anchor和低質(zhì)量Anchor之間的不平衡,設(shè)計(jì)了一個(gè) Focal loss 的回歸版本,以增強(qiáng)最有希望的Anchor在模型優(yōu)化中的貢獻(xiàn),同時(shí)抑制不相關(guān)的Anchor。

  3. 對(duì)合成數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行了大量實(shí)驗(yàn)。出色的實(shí)驗(yàn)結(jié)果驗(yàn)證了所提出方法的優(yōu)越性。詳細(xì)的消融研究顯示了損失函數(shù)和參數(shù)值的不同設(shè)置的影響。

2、IOU Loss的局限性分析圖片2.1、IOU Loss的局限測(cè)量?jī)蓚€(gè)任意形狀(體積)之間相似性的IOU損失為:圖片它具有非負(fù)性、對(duì)稱(chēng)性、三角形不等式和尺度不敏感性等良好的性質(zhì)。它已被證明是一個(gè)度量標(biāo)準(zhǔn)。然而,它有兩個(gè)主要的缺點(diǎn):
  • 如果兩個(gè)box沒(méi)有任何交集,IOU Loss將始終為零,這不能正確反映這兩個(gè)box之間的緊密程度。

  • IOU Loss的收斂速度較慢。

2.2、GIOU Loss的局限為了解決IOU Loss的缺點(diǎn),提出了GIOU損失,定義如下:圖片其中是兩個(gè)任意的box。C是包含A和B的最小凸盒。GIOU Loss在時(shí)有效,但它仍然有兩個(gè)缺點(diǎn):
  • 當(dāng)時(shí),GIOU損失打算增加邊界框的面積,使其與目標(biāo)框重疊(見(jiàn)圖1),這與減少空間位置差異的直覺(jué)相反。

  • 當(dāng)時(shí),|C?A∪B|的面積總是一個(gè)小數(shù)或等于零(當(dāng)A包含B時(shí),該項(xiàng)將為零,反之亦然)。在這種情況下,GIOU損失退化為 IOU 損失。因此,GIOU損失的收斂率仍然很慢。

2.3、CIOU Loss的局限CIOU損失考慮了三個(gè)重要的幾何因素,即重疊面積、中心點(diǎn)距離和長(zhǎng)寬比。給定一個(gè)預(yù)測(cè)框 B 和一個(gè)目標(biāo)框,CIOU損失的定義如下:圖片其中分別表示的中心點(diǎn)。表示歐幾里得距離。是覆蓋兩個(gè)box的最小封閉box的對(duì)角線長(zhǎng)度。和測(cè)量寬高比的差異。v關(guān)于w和h的梯度計(jì)算如下:圖片在之前的工作中,實(shí)驗(yàn)結(jié)果表明,與以前的損失函數(shù)相比,CIOU損失的收斂速度和檢測(cè)精度都有顯著提高。然而,最后一項(xiàng)的v仍然沒(méi)有得到很好的定義,這從3個(gè)方面減緩了CIOU的收斂速度:
  1. 在等式(5)中, 僅反映縱橫比的差異,而不是  與  或  與  之間的實(shí)際關(guān)系。即,所有具有屬性具有,這與現(xiàn)實(shí)不符。

  2. 在等式(6)中,有。有相反的符號(hào)。因此,在任何時(shí)候,如果這兩個(gè)變量(w或h)中的一個(gè)增加,另一個(gè)將減少。這是不合理的,尤其是當(dāng)時(shí)。

  3. 由于v僅反映縱橫比的差異,因此CIOU損失可能以不合理的方式優(yōu)化相似性。如圖1所示,目標(biāo)框的尺度設(shè)置為。Anchor的初始尺度設(shè)置為w=1和h=2.4。Anchor尺度在50次迭代后回歸為w=1.64和h=2.84。這里,CIOU損失確實(shí)增加了縱橫比的相似性,但它阻礙了模型有效地減少之間的真實(shí)差異。

2.4、本文提出的方法為了解決上述問(wèn)題,對(duì)CIOU損失進(jìn)行了修正,并提出了一個(gè)更有效的IOU損失版本,即EIOU損失,其定義如下。圖片其中是覆蓋兩個(gè)box的最小封閉盒子的寬度和高度。即,將損失函數(shù)分為三部分:IOU損失、距離損失和方位損失。這樣就可以保留 CIOU Loss的有益特性。同時(shí),EIOU Loss直接使目標(biāo)框和Anchor的寬度和高度的差異最小化,從而產(chǎn)生更快的收斂速度和更好的定位結(jié)果。3、Focal Loss For BBR在BBR中,也存在訓(xùn)練實(shí)例不平衡的問(wèn)題,即由于圖像中目標(biāo)目標(biāo)的稀疏性,回歸誤差較小的高質(zhì)量例子的數(shù)量遠(yuǎn)少于低質(zhì)量例子(異常值)。最近的研究表明,離群值會(huì)產(chǎn)生過(guò)大的梯度,這對(duì)訓(xùn)練過(guò)程有害。因此,制作高質(zhì)量的例子對(duì)網(wǎng)絡(luò)訓(xùn)練過(guò)程貢獻(xiàn)更多的梯度是至關(guān)重要的。在最近的研究中試圖基于SmoothL1的損失來(lái)解決上述問(wèn)題。在本節(jié)中,還從Smooth L1損失開(kāi)始,并提出Focal L1損失,以增加高質(zhì)量例子的貢獻(xiàn)。此外,作者還發(fā)現(xiàn),簡(jiǎn)單的方法不能直接適用于基于IOU的損失。因此,最終提出了Focal-EIOU損失來(lái)提高EIOU損失的性能。3.1、Focal L1 Loss首先,列出了理想損失函數(shù)的性質(zhì)如下:
  1. 當(dāng)回歸誤差趨于零時(shí),梯度幅度的極限應(yīng)該為零。
  2. 梯度幅度應(yīng)在小回歸誤差附近迅速增大,在大回歸誤差區(qū)域逐漸減小。
  3. 應(yīng)該有一些超參數(shù)來(lái)靈活地控制低質(zhì)量實(shí)例的抑制程度。
  4. 對(duì)于超參數(shù)的變值,梯度函數(shù)家族應(yīng)該有一個(gè)標(biāo)準(zhǔn)化的尺度,例如,(0,1],這有助于在高質(zhì)量和低質(zhì)量的例子之間的平衡。
圖片根據(jù)上述條件,隨著邊界框回歸誤差的變化,可以假設(shè)一個(gè)梯度幅度的期望函數(shù)曲線,如圖5(a)所示該函數(shù)是,滿足性質(zhì)1和2。接下來(lái),構(gòu)造了一個(gè)帶有參數(shù)β的函數(shù)族來(lái)控制曲線的形狀,如圖5(b)所示隨著β的增加,異常值的梯度幅度將被進(jìn)一步抑制。然而,高質(zhì)量的例子的梯度幅度也會(huì)減少,這不是所期望的。因此,添加另一個(gè)參數(shù)α,根據(jù)屬性4的要求,將不同β的梯度大小歸一化為[0,1]。最后,梯度大小函數(shù)的族可以表示如下:圖片

這里,由于以下原因獲得了β的值范圍。當(dāng),這意味著g(x)是具有全局最大值的凹函數(shù)。求解,可以得到。作為。還必須確保,那么,。為了滿足性質(zhì)4,設(shè)置最大值得到α與β的關(guān)系:。通過(guò)積分上述梯度公式,可以得到BBR的Focal L1損失:

圖片

其中C是一個(gè)常數(shù)值。以確保在等式中的在x = 1處是連續(xù)的,有。

圖片

圖4(b)顯示,根據(jù)β,提出的Focal L1損失可以增加內(nèi)值梯度的值,抑制異常值的梯度值。較大的β要求內(nèi)部有很少的回歸誤差,并快速抑制異常值的梯度值。

同樣,在圖4(a)中,藍(lán)色的曲線表示β的最大值。隨著回歸誤差的增加,藍(lán)色曲線的損失首先迅速增加,然后趨于穩(wěn)定。β值最小的橙色曲線增長(zhǎng)得越來(lái)越快,在x = 1左右達(dá)到峰值?,F(xiàn)在可以通過(guò)Focal L1損失,來(lái)計(jì)算定位損失,其中B是回歸結(jié)果,是回歸目標(biāo)。

3.2、Focal-EIOU Loss

為了使EIOU損失集中于高質(zhì)量的示例,自然可以考慮在等式中替換 x 與EIOU的損失聯(lián)系在一起。然而,作者觀察到上述組合的效果不太好。分析結(jié)果如下:

給定偏移量,F(xiàn)ocal L1損失的梯度為,其中等于1或者-1,因此即使偏移很小,還可以帶來(lái)足夠的梯度以使模型持續(xù)優(yōu)化。然而,如果用替換偏移量,梯度可以計(jì)算為。

這里不再是一個(gè)常量。此外,在實(shí)證研究中,隨著接近零,它將非常小,而在當(dāng)時(shí)也接近于零。因此,在乘法之后,整體梯度將更小,這削弱了對(duì)具有小的Box進(jìn)行重新加權(quán)的效果。為了解決這個(gè)問(wèn)題,使用IOU的值來(lái)重新計(jì)算 loss的權(quán)重,并得到Focal-,如下所示

圖片

其中,是控制異常值抑制程度的參數(shù)。

3.3、算法流程圖片4、實(shí)驗(yàn)4.1、消融實(shí)驗(yàn)IOU方法對(duì)比圖片Tradeoff Weight的影響圖片FocalL1 Loss圖片Focal-EIOU Loss圖片4.2、SOTA對(duì)比圖片4.3、可視化對(duì)比圖片5、參考[1].Focal and Efficient IOU Loss for Accurate Bounding Box Regression

本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉