博客專欄

EEPW首頁 > 博客 > 致敬ATSS | Dynamic ATSS再造ATSS輝煌!??!

致敬ATSS | Dynamic ATSS再造ATSS輝煌?。。?/h1>
發(fā)布人:計算機視覺工坊 時間:2022-02-08 來源:工程師 發(fā)布文章

以下文章來源于集智書童 ,作者ChaucerG

作者丨ChaucerG

來源丨集智書童

微信圖片_20220208194202.png

標簽分配(Label assignment)在目標檢測模型中起著重要的作用。檢測模型使用不同的標簽分配策略可能會產(chǎn)生完全不同的性能。對于基于Anchor的檢測模型,Anchor與其對應(yīng)的Ground Truth之間的IoU閾值是關(guān)鍵因素,因為正樣本和負樣本是由IoU閾值所劃分的。早期的目標檢測器只是對所有訓練樣本使用一個固定的閾值,而最近的檢測算法專注于基于IOU到Ground Truth分布的自適應(yīng)生成閾值。

本文介紹了一種簡單而有效的標簽分配(基于訓練和測試狀態(tài)動態(tài)分配)的方法。通過在標簽分配中引入預測,選擇對Ground Truth目標的高IoU的高質(zhì)量樣本作為正樣本,可以減少分類分數(shù)與IoU分數(shù)之間的差異,生成更多高質(zhì)量的邊界框。本文方法通過自適應(yīng)標簽分配算法提高了檢測模型的性能,并降低了這些正樣本的邊界框損失,這也表明更多具有更高質(zhì)量預測框的樣本被選擇為正樣本。

code地址:https://github.com/ZTX-100/DLA-Combined-IoUs

1介紹

目標檢測是計算機視覺中的一個基本問題,它可以同時分類和定位圖像或視頻中的所有目標。隨著深度學習的快速發(fā)展,目標檢測取得了巨大的成功,并被應(yīng)用于許多任務(wù),如目標跟蹤、圖像分類、圖像分割和醫(yī)學圖像分析。

標簽分配是將樣本分為正樣本和負樣本,這對目標檢測模型的成功至關(guān)重要。對于基于Anchor的模型,標簽分配的核心是正樣本和負樣本劃分的閾值。在計算Anchor與GT之間的交集(IoU)后,正樣本為IoU大于閾值的Anchor,而其他樣本為負樣本或忽略的Anchor。早期的檢測模型利用固定的閾值來區(qū)分正負樣本。然而,具有固定閾值來劃分正負樣本的算法忽略了不同GT的形狀和大小的差異。

近年來,人們提出了幾種自適應(yīng)標簽分配策略來自適應(yīng)計算閾值。這些算法自適應(yīng)地選擇基于IoU的正樣本和負樣本分布之間的Anchor和GT,以便GT有更多高質(zhì)量的Anchor對應(yīng)將有一個更高的IoU閾值,劣質(zhì)Anchor對應(yīng)會有一個較低的IoU閾值。

然而,自適應(yīng)分配方法并不基于更準確地代表訓練狀態(tài)的預測來分配正負樣本。由于分類和定位的差異,分類得分并不能精確對應(yīng)定位質(zhì)量,而NMS(非最大抑制)假設(shè)分類分數(shù)代表定位質(zhì)量,并進行過濾重復,只保留分類分數(shù)高的樣本。但是,如果分類分數(shù)不能準確地表示定位質(zhì)量,則可能會刪除一些高質(zhì)量的bbox,保留一些低質(zhì)量的bbox。而固定Anchor不能保證預測bbox的質(zhì)量。

因此,引入預測來指導標簽分配是一種有效的方法,因為Anchor可以產(chǎn)生高質(zhì)量的預測作為正樣本。在早期訓練階段,預測存在不確定性,所以不能直接用預測的邊界框代替Anchor。在一些利用預測來加權(quán)正樣本的算法中,提出了增加GT中心的距離。而預測(分類分數(shù)或IoU分數(shù))和距離是2個不同的“domains”,它們不能自然地組合起來。AutoAssign設(shè)計了一個中心加權(quán)模塊來解決這個問題,但由于假設(shè)靠近GT中心的樣本會有更多的權(quán)重,該模塊可能是次優(yōu)?!癆ll-to-Top-1”基于迭代而不是預測減少了包中Anchor的數(shù)量。因此,訓練可能不是最優(yōu)的,因為袋子中Anchor的數(shù)量不受預測的控制,也可能不滿足訓練狀態(tài)。

于是作者提出了一種簡單有效的方法,直接將預測邊界框和GT之間的預測IoUs,以及Anchor和GT之間的Anchor IoUs結(jié)合起來。然后根據(jù)候選Anchor與GT之間的IoU的統(tǒng)計特性,可以得到自適應(yīng)模型。

而本文的方法分別計算預測的IoU和Anchor IoU的分布,然后通過簡單相加得到組合參數(shù)。最后,通過組合分布參數(shù)計算組合閾值。由于每次迭代中的預測都涉及到標簽分配,因此 soft targets(預測邊界框和GT之間的預測IoU)比hard target更合適。QFL和VFL是常用的soft targets分類損失。這兩者都可以進一步提高所提方法的性能。此外,為了更好的準確性,作者用IoU分支替換Centerness分支。在COCO數(shù)據(jù)集上的實驗表明了本文的方法在沒有額外成本下的有效性。

2相關(guān)工作

2.1 目標檢測

目標檢測可分為兩階段方法和一階段方法:

兩階段檢測模型:首先利用區(qū)域金字塔網(wǎng)絡(luò)(RPN)選擇具有高置信度的Anchor,并對這些候選Anchor進行細化。然后將精細化后的Anchor送入第二階段進行分類并進一步的回歸。

單階段檢測模型:直接對Anchor進行分類和回歸,而沒有對一些候選Anchor進行選擇和細化。

與單階段檢測模型相比,兩級兩階段檢測通常具有更高的精度,但速度較低。隨著RetinaNet的出現(xiàn),通過引入Focal loss來抑制容易樣本的丟失,降低了單階段檢測模型和兩階段檢測模型的準確性差異,使單階段方法既能達到高精度,又能達到低延遲。因此,目前的目標檢測模型主要采用單階段檢測方法。

隨著Anchor-Free模型的發(fā)展,一個良好的檢測模型不再需要預定義的Anchor。Anchor-Free模型要么從Anchor point(特征點)回歸邊界框,要么預測GT目標的一些特殊點,如目標的邊界框的角或極端點,最后從這些特殊點構(gòu)建預測的邊界框。

最近,一些目標檢測模型通過使用Transformer的注意力模塊性能得到了一定的提升,Transformer最初是用于自然語言處理領(lǐng)域。DETR首先將Transformer引入到檢測模型的Head,它也是Anchor-Free的。盡管如此,由于Transformer中使用的全局注意力和用于目標檢測的大分辨率,DETR比CNN需要更長的時間才能收斂。因此,最近的算法試圖設(shè)計快速訓練收斂的DETR來加快訓練過程。

2.2 Label Assignment

標簽分配是檢測模型性能的核心因素,如何劃分正樣本和負樣本將決定網(wǎng)絡(luò)如何學習和收斂。早期的檢測模型,如快速的RCNN、SSD和RetinaNet,利用傳統(tǒng)的具有固定閾值的標簽分配方法來區(qū)分正樣本和負樣本。盡管那些具有固定閾值的檢測模型對標簽分配仍然有效,但它們忽略了不同目標樣本在其形狀、大小和相應(yīng)的正Anchor數(shù)量上的差異。

近年來,研究人員專注于設(shè)計自適應(yīng)閾值,并逐漸放棄了標簽分配的固定閾值。ATSS通過根據(jù)候選Anchor和GT目標之間的IoU分布,計算均值和標準差來計算自適應(yīng)閾值。PAA將候選Anchor擬入高斯混合模型中,并對其進行概率分離。

使用預測來指導標簽分配可能更準確,因為預先定義的Anchor可能不能準確地反映實際的訓練狀態(tài)。然而,在早期訓練階段的預測是不準確和不合理的指導標簽分配。

FreeAnchor利用最大似然估計(MLE)對訓練過程進行建模,使每個GT可以至少有一個對應(yīng)的Anchor、分類得分和定位得分。

MAL采用來自分類和定位的預測作為評估Anchor的聯(lián)合置信度。為了緩解次優(yōu)Anchor選擇問題,MAL基于聯(lián)合置信度對選定錨點的特征進行擾動,提出了“All-to-Top-1” Anchor選擇策略。

Autoassign引入中心權(quán)重來處理早期訓練階段中不合理的預測,這表明靠近GT中心的樣本會有更多的權(quán)重。

3本文方法

3.1 致敬ATSS

ATSS策略經(jīng)常把正負樣本通過計算統(tǒng)計參數(shù)(如平均值和標準偏差)選定候選Anchors。根據(jù)候選Anchor在GT中的位置選擇候選Anchor后,根據(jù)候選Anchor在相應(yīng)的GT中的分布情況計算自適應(yīng)閾值。

ATSS根據(jù)GT的形狀和大小自適應(yīng)地計算閾值。如果GT較大或方形,則其對應(yīng)的高質(zhì)量Anchor較多,閾值會更高。如果GT細長或小,由于大多數(shù)可能是低質(zhì)量Anchor,所以閾值會比較低。然而,大多數(shù)自適應(yīng)方法只根據(jù)Anchor和GT之間的關(guān)系來計算自適應(yīng)閾值。它們僅僅依賴于預定義的錨定框,而在訓練過程中忽略了預測的邊界框。

換句話說,對GT具有最高IoU的Anchor并不能保證其預測的邊界框在所有正樣本中也對GT具有最高的IoU。因此,一些具有高質(zhì)量預測邊界框的樣本可以被定義為分類目標為0的負樣本。因此,這就影響了高質(zhì)量的邊界框的性能。

使用預測信息可以提高定義正的和負的準確性,因為預測可以反映每個樣本的真實訓練狀態(tài)。然而,直接使用預測可能并不合適,因為在早期訓練階段的預測對于指導正樣本和負樣本的定義是不合理的。因此,本文提出了一種簡單有效的方法來解決這個問題。

3.2  Dynamic ATSS

本文提出了一種簡單有效的動態(tài)標簽分配策略,將預測引入到標簽分配的Anchor中。在早期訓練階段,由于隨機初始化,預測是不準確的。因此,Anchor就像之前指示標簽定義一樣。預測逐漸主導組合的IoU,并隨著訓練和預測的改進導致標簽分配。

微信圖片_20220208194207.png

本文方法將使用從回歸分支中解碼的預測框,并選擇ATSS作為標簽分配的自適應(yīng)示例。然后通過計算預測框與GT之間的IoU,以及Anchor與GT之間的IoU,得到預測的IoU和Anchor IoU。最后,通過對預測的IoUs和Anchor的IoUs的求和,計算出組合的IoUs(CIoUs)。ATSS利用均值和標準差來計算閾值,因此實現(xiàn)了相同的計算來獲得組合均值和組合std。IoU閾值由組合均值和組合std之和計算,正候選樣本定義為組合IoU大于或等于IoU閾值的樣本。候選正樣本被限制在GT內(nèi),作為最終的正樣本。

該網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。使用ATSS作為基礎(chǔ)網(wǎng)絡(luò),它有一個CNN Backbone,一個FPN Neck,和一個共享的Head,它分別有2個分支分別用于分類和回歸。該方法提取回歸結(jié)果,將回歸偏移量解碼為邊界框的坐標,最后計算出解碼的邊界框與GTs之間的IoU。將預測的IoU與Anchor IoU結(jié)合,選擇出正樣本,如圖1所示。

為什么利用預測來指導標簽分配如此重要?

預測比預定義的Anchor更準確,因為選擇最終結(jié)果和實現(xiàn)NMS算法都是基于預測結(jié)果而不是基于Anchor框。經(jīng)常設(shè)計檢測模型基于假設(shè)樣本的預定義Anchor有很高的IoU與GT適合被選為正樣本,或樣本的中心接近GT的中心的目標也可以被選擇為正樣本。

對于每個圖像,一旦選定了正樣本,在訓練過程中不會對正樣本進行修改,因為預先定義的Anchor是固定的,不會根據(jù)訓練狀態(tài)而改變。然而,具有高質(zhì)量預測的樣本可能并不經(jīng)常是具有高質(zhì)量Anchor的樣本,盡管它們產(chǎn)生高質(zhì)量預測的概率更高。

如果用高質(zhì)量的Anchor迫使樣本在整個訓練過程中都是正樣本,網(wǎng)絡(luò)將專注于學習這些樣本,即使他們的預測不夠好,忽略了樣本可以產(chǎn)生更好的預測結(jié)果的樣本,因為有相對低質(zhì)量的Anchor可能被分配為負樣本。

而如果在每次迭代中都引入預測,以幫助定義正負樣本,可以選擇更多具有高質(zhì)量預測的樣本作為正樣本,并進一步改進這些樣本。添加預測的IoU和Anchor IoU可以產(chǎn)生更好的結(jié)果,并產(chǎn)生更高質(zhì)量的預測。由于網(wǎng)絡(luò)的隨機初始化,Anchor IoU對于本文的方法也是必要的,它們可以作為先驗。在本文的方法中,預測和先驗都是對GT的IoU,因此它們可以通過添加自然地組合在一起,而不需要任何特殊的設(shè)計,如圖1所示。

3.3 Soft Targets for Classifification Loss

隨著focal loss的出現(xiàn),大多數(shù)目標檢測模型都利用focal loss學習類標簽。focal loss解決了訓練過程中正樣本和負樣本之間的極端不平衡問題,抑制了大多數(shù)簡單的負樣本,由于這些簡單負樣本數(shù)量極多,可能會主導訓練損失。

由于引入了標簽分配的預測,使用Soft Targets(預測Iou到GT)更適合將高預測IoU排序在其他低預測IoU之上,這在GFL和VFNet中使用。GFL分別由QFL和DFL組成,分別進行分類和回歸。在模型中使用了QFL來進行分類。當Soft Targets不等于1時,QFL的交叉熵損失轉(zhuǎn)換為一般形式。此外,還根據(jù)Soft Targets對focal loss權(quán)值進行了修正。

當分類預測接近QFL中使用的軟目標時,VFNet沒有降低損失的權(quán)重,而是利用VFL將正損失與賦值的Soft Targets加權(quán)。通過改變正IoU目標的權(quán)重,具有較高IoU目標的正樣本的損失也會更高,從而使網(wǎng)絡(luò)能夠?qū)W⒂趯W習那些高質(zhì)量的正樣本。

在實驗中,通過實驗證明,本文提出的方法優(yōu)于表一中使用QFL或VFL的相同模型。此外,將本文提出的方法與QFL或VFL相結(jié)合,可以進一步提高檢測模型的性能。

4實驗

4.1 消融實驗

1、驗證方法的有效性

微信圖片_20220208194209.png

從表1可以看出,ATSS與提出的CIoUs(組合IoUs)在分類損失方面超過了與Soft Targets(QFL和VFL)的相同模型。經(jīng)過簡單的修改,可以在MS COCO val2017 數(shù)據(jù)集上將原始ATSS算法提高約0.7AP,這表明使用預測可以更好地指導正負樣本,Anchor也是指導標簽分配的必要條件。通過簡單地將它們組合在一起,該模型可以產(chǎn)生更好的精度提高。只是將CIoUs引入ATSS,標記的目標仍然是Hard Targets。在接下來的實驗中,將證明Soft Targets(QFL或VFL)可以進一步提高性能。

2、每個元素的貢獻

微信圖片_20220208194211.png

在表2中,AIoU表示預定義Anchor與GT之間的IoU。如果只選擇AIoUs,則執(zhí)行原始的ATSS。PIoUs表示在預測的邊界框和GT之間的IoU。如果AIoU和PIoU同時被選中,提出的組合IoU通過將計算出的AIoU和PIoU相加來實現(xiàn)??梢宰⒁獾剑皇褂肞IoUs標簽分配模型的性能從39.06AP下降到了29.39AP,而簡單地添加PIoUs定義正樣本和負樣本相對于AIoU可以提升大約0.7AP。

從表2可以看出,本文提出的方法(AIoUs+PIoUs)可以通過軟目標(QFL或VFL)進一步改進。原ATSS采用中心作為額外分支對正樣本進行權(quán)重,使靠近GT中心的樣本比遠離GT中心的樣本有更高的權(quán)重。在將中心度轉(zhuǎn)換為IoU(預測IoU而不是中心度)后,性能可以進一步提高。

微信圖片_20220208194213.png

從圖2中可以看出,2種模型在早期訓練階段的回歸損失并沒有太大的差異。而隨著訓練過程的進行,本文的方法比原始模型具有更低的回歸損失,這表明本文的模型可以選擇具有更高質(zhì)量邊界框的正樣本,因為更準確的預測邊界框會產(chǎn)生更低的回歸損失。此外,大目標的平均精度(APl)大大提高了約2%。

3、平衡AIoU與PIoU

微信圖片_20220208194218.png

4.2 SOTA實驗

微信圖片_20220208194221.png

5參考

[1].Dynamic Label Assignment for Object Detection by Combining Predicted and Anchor IoUs

本文僅做學術(shù)分享,如有侵權(quán),請聯(lián)系刪文。

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉