目標檢測新方法:Copy-Paste新方式解決擁擠的目標檢測
文章地址:https://arxiv.org/pdf/2211.12110.pdf
01
概述
在今天分享中,研究者首先強調(diào)了擁擠問題的兩個主要影響:1)IoU置信度相關干擾(ICD)和2)混淆重復數(shù)據(jù)消除(CDD)。然后,研究者從數(shù)據(jù)擴充的角度探索破解這些。
首先,針對擁擠的場景提出了一種特殊的復制粘貼方案?;诖瞬僮?,研究者首先設計了一種“共識學習”策略,以進一步抵抗ICD問題,然后發(fā)現(xiàn)粘貼過程自然地揭示了場景中目標的偽“深度”,這可能用于緩解CDD困境。這兩種方法都源自對復制粘貼的神奇使用,無需額外的處理。
實驗表明,在典型的擁擠檢測任務中,新提出方法可以輕松地將最先進的檢測器提高2%以上。此外,這項工作可以在擁擠場景中勝過現(xiàn)有的數(shù)據(jù)增強策略。
02
背景
目標檢測的任務已經(jīng)被仔細研究了相當長的時間。在深度學習時代,近年來,已經(jīng)提出了許多精心設計的方法,并將檢測性能提高到了令人驚訝的高水平。盡管如此,仍然存在許多根本性問題沒有得到根本解決。其中之一是“擁擠問題”,這通常表示屬于同一類別的目標高度重疊在一起的現(xiàn)象。在幾何方式中,基本困難源于2D空間的語義歧義。如下圖所示,在我們的3D世界中,每個體素都有其“獨特的語義”,并位于“特定目標”上。然而,投影到2D平面后,一個像素可能落在幾個碰撞的對象上。在將概念從“像素”演變?yōu)椤翱颉敝螅瑩頂D場景中的語義模糊導致了重疊的概念。
為了探究這個問題的影響,研究者現(xiàn)在深入到檢測范式的本質(zhì)。通常,目標檢測器讀取圖像并輸出一組邊界框,每個邊界框與置信度分數(shù)相關。對于理想執(zhí)行的檢測器,得分值應反映預測框與GT的重疊程度。換句話說,這兩個框之間的交集(IoU)應與置信度得分呈正相關。在下圖中可視化了與IoU相關的得分的平均值和標準差后,結果表明,即使是像(Mask r-cnn)這樣的現(xiàn)成檢測器,這種正相關也會逐漸受到擁擠度增加的干擾。
這項實驗研究清楚地表明了當前檢測算法在面對超重重疊時的困難。我們將這種效應體現(xiàn)為IoU置信度相關干擾(ICD)。另一方面,典型的檢測管道通常以重復數(shù)據(jù)消除模塊結束,例如,廣泛采用的非極大抑制(NMS)。由于前面提到的2D語義模糊,這些模塊經(jīng)常被嚴重重疊的預測所混淆,這導致在人群中嚴重缺失。我們將這種效果稱為混亂的重復數(shù)據(jù)消除(CDD)。
03
新框架
Copy-Paste Augmentation:
Copy-Paste增強技術于2017年首次提出。通過從源圖像中剪切目標塊并粘貼到目標圖像,可以輕松獲取組合數(shù)量的合成訓練數(shù)據(jù),并顯著提高檢測/分割性能。這一驚人的魔力隨后被后續(xù)作品所驗證,并通過上下文改編進一步完善了該方法。Ghiasi等人聲稱只要訓練足夠,簡單的Copy-Paste可以帶來相當大的改進。他們的實驗進一步表明了這種增強策略在實例級圖像理解上的潛力。需要注意的是Copy-Paste的最初動機是使樣本空間多樣化,特別是對于稀有類別或緩解復雜的掩模標簽。然而,研究者利用這種操作來精確地解決擁擠問題。盡管在以前的工作中有過簡單的實踐,但從未系統(tǒng)地設計和研究過這種策略在處理擁擠場景方面的實際效果。
Consensus Learning:
通過Copy-Paste工具包,使用專門的策略來抵抗ICD問題,從而增強檢測器訓練。考慮到上圖所示的觀察結果,預測分數(shù)的不穩(wěn)定性來源于擁擠,一種新的解決方案是將擁擠環(huán)境中的一個目標的分數(shù)(被其他目標覆蓋)與未覆蓋時的分數(shù)對齊。由于Copy-Paste方法可以很容易地生成這種類型的目標對,其中兩個相同的目標位于不同的環(huán)境中。下圖說明了研究者的想法。
在前面的數(shù)據(jù)擴充之后,研究者選擇了一組由其他目標覆蓋的目標。然后,將與中的目標patch相同的目標patch重新粘貼到圖像上,而不進行覆蓋,從而構建另一組。在訓練期間,強制執(zhí)行每個目標的預測分數(shù)分布與其對應的保持一致。將這一過程稱為共識學習,通過對每一對中的“達成共識”進行類比。具體來說,具體來說,讓是與匹配的建議集,是匹配的建議集,首先計算每個目標得分的平均值和標準差:
Analyze the IoU-Confidence Disturbances:
現(xiàn)在,分析了方法在減輕上述ICD問題上的有效性。為了重新審視提出的原始動機,在下圖中繪制了分數(shù)的標準差(STD)。
清楚地表明,用提出的Crowdedness-oriented Copy-Paste(CCP)訓練的模型的 STDs明顯低于基線模型(BL),并且通過提高擁擠程度(從圖(a)到(d))。其次,雖然CCP和CCP+CL的曲線似乎沒有明顯的區(qū)別,但通過計算它們的平均std(圖中的4個直方圖),研究者發(fā)現(xiàn)后者的值實際上低于前者。
Alleviate the Confused De-Duplications:
增強策略有一個自然的副產(chǎn)品:對于粘貼的這些重疊目標,相對的“深度順序”是先驗的。換句話說,我們知道哪個在前面,哪個在后面。
基本上,2D空間中的歧義是由真實(3D)世界中缺少一維造成的。從這個角度來看,深度順序可以被視為額外第三維度的一些薄弱知識,這有助于減輕模糊性。作為一種可行的實踐,在這項工作中利用深度順序信息來解決混淆的重復數(shù)據(jù)消除(CDD)問題。
引入一個名為“overlay depth”(OD)的變量,該變量描述了目標在視覺上被其他目標覆蓋的程度。上圖顯示了計算OD的過程。首先假設一個目標的覆蓋深度等于1.0,如果沒有其他目標覆蓋它。設是由目標覆蓋的目標的區(qū)域,表示區(qū)域的大小。
04
實驗及可視化
Results on CrowdHuman val setOD prediction可視化
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。