旋轉(zhuǎn)角度目標檢測的重要性!?。?/h1>
論文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9521517
任意方向的目標檢測是一項具有挑戰(zhàn)性的任務。
一、背景
目標檢測是計算機視覺中的一項基本任務,許多研究人員已經(jīng)應用水平邊界框來定位圖像中的物體。 水平邊界框的使用可以使候選區(qū)域的表示更加簡潔直觀。 在許多基于深度學習的方法中,往往需要大量標記樣本來訓練目標檢測器模型,使用軸平行標記框可以大大提高標記效率,快速獲取大量標記樣本。 此外,水平邊界框涉及的參數(shù)較少,簡化了檢測模型的訓練過程。 因此,在大多數(shù)目標檢測方法中,使用水平邊界框來表示遙感圖像中目標的大致范圍,如下圖所示。
然而,航拍圖像中的物體通常是任意方向的。因此,使用水平邊界框來檢測目標會引起幾個問題。首先,這種類型的物體檢測框通常包含許多背景區(qū)域。如上圖(a)所示,圖中大約60%的區(qū)域?qū)儆诒尘皡^(qū)域。檢測框內(nèi)存在過多的背景區(qū)域,不僅增加了分類任務的難度,而且會導致目標范圍表示不準確的問題。其次,水平邊界框會導致檢測框之間出現(xiàn)強烈重疊,如上圖(b)所示,降低檢測精度。最后,由于飛機、船舶、車輛等圖像中的物體包含運動方向信息,如果使用水平邊界框,則無法獲得目標運動方向的信息。
上述三個問題可以通過使用帶有角度信息的旋轉(zhuǎn)檢測框有效解決,如上圖所示。首先,旋轉(zhuǎn)檢測可以精確定位圖像中的物體,并且邊界框幾乎不包含背景區(qū)域,從而減少背景對物體分類的影響。其次,旋轉(zhuǎn)檢測框之間幾乎沒有重疊,從而可以更清晰地識別框內(nèi)包含的物體。最后,可以從旋轉(zhuǎn)檢測框粗略得到物體的運動方向信息,從而判斷物體的運動軌跡。綜上所述,在遙感圖像目標檢測任務中使用帶有角度信息的旋轉(zhuǎn)檢測框獲得了優(yōu)越的性能。
二、前言
任意方向的目標檢測是一項具有挑戰(zhàn)性的任務。由于遙感圖像中的物體方向是任意的,使用水平邊界框會導致檢測精度低。現(xiàn)有的基于回歸的旋轉(zhuǎn)檢測器會導致邊界不連續(xù)的問題。
在今天的分享中,研究者提出了一種基于角度分類的遙感圖像目標檢測方法,該方法使用帶有角度信息的旋轉(zhuǎn)檢測邊界框來檢測對象。具體來說,研究者將神經(jīng)架構(gòu)搜索框架與特征金字塔網(wǎng)絡 (NAS-FPN) 模塊結(jié)合到密集檢測器 (RetinaNet) 中,并在角度分類中使用二進制編碼方法。這種方法減少了背景影響,使得檢測框之間幾乎沒有重疊。根據(jù)檢測框的角度,我們可以推斷出目標的運動方向信息,進一步確定目標的運動軌跡。
研究者對一個可用于航空影像 (DOTA) 中的目標檢測的大型公共數(shù)據(jù)進行了消融實驗,以驗證該方法中每個模塊的有效性,并將該方法與其他幾種檢測方法進行比較。實驗結(jié)果證明了新提出方法的有效性。
三、新框架
新提出的旋轉(zhuǎn)檢測器框架如上圖所示。網(wǎng)絡基于RetinaNet框架。圖中標記為C2、C3、C4的特征圖是由深度卷積神經(jīng)網(wǎng)絡提取的。該方法的總體步驟如下:首先利用特征提取網(wǎng)絡對遙感圖像中的特征進行提取,利用NAS-FPN對提取的特征進行融合,得到不同尺度的特征圖。然后,使用長邊定義方法來表示旋轉(zhuǎn)檢測框,并在框回歸任務中使用二進制編碼標記技術將角度回歸問題轉(zhuǎn)化為角度分類問題。下面詳細描述該方法中的一些重要結(jié)構(gòu)。
NAS-FPN
在NAS-FPN中,最重要的結(jié)構(gòu)是由特征圖節(jié)點集合、操作池和搜索終止條件組成的合并單元結(jié)構(gòu)。下圖簡要描述了特征圖的搜索過程。
1)從特征圖節(jié)點集中隨機選擇一個特征圖作為輸入之一。初始特征圖節(jié)點集包含五個尺度的特征圖,表示為 {C1,C2, C3, C4, C5}。
2)從特征圖節(jié)點集中隨機選擇另一個特征圖作為另一個輸入。
3)選擇輸出特征圖的分辨率。
4)在操作池中選擇一個操作對(1)(2)中選擇的特征圖節(jié)點進行操作,產(chǎn)生與輸出特征圖分辨率相同的特征圖,并將該特征圖加入到特征圖節(jié)點集合中選擇。
5) 循環(huán)重復上述步驟。搜索的終止條件是生成五個與初始特征圖分辨率相同的特征金字塔網(wǎng)絡,記為{P1, P2, P3, P4, P5}。
ROTATION DETECTION FRAME
典型的角度編碼方法有三種,包括兩種不同角度范圍的五參數(shù)方法和一種八參數(shù)方法。詳細情況如下:
角度范圍為90°的五參數(shù)法(OpenCV定義法):其示意圖如上圖所示。該定義法包含五個參數(shù)[x,y,w,h,θ]。其中,x和y為旋轉(zhuǎn)坐標系的中心坐標,θ為旋轉(zhuǎn)坐標系與x軸的銳角,逆時針方向指定為負角,因此角度范圍為[?90° , 0); 旋轉(zhuǎn)框的寬度w為旋轉(zhuǎn)框所在的邊角,旋轉(zhuǎn)框的高度h為另一邊。
180°角范圍的五參數(shù)法
八參數(shù)法
八參數(shù)法:該定義方法示意圖如上圖所示,該定義方法包含8個參數(shù)[a1,a2,b1,b2,c1,c2,d1,d2], 定義的左上角為起點,其余點按逆時針順序排列。旋轉(zhuǎn)坐標系的表示不限于上述三種方法,旋轉(zhuǎn)坐標系其余部分的表示可以通過上述三種方法的變換得到。
ANGLE CODING METHOD
90°范圍的五參數(shù)定義方法的問題
八參數(shù)四邊形定義方法的問題
角度編碼方法:
四、實驗及可視化
實驗環(huán)境
DOTA數(shù)據(jù)集上的性能比較
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
論文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9521517
任意方向的目標檢測是一項具有挑戰(zhàn)性的任務。
一、背景
目標檢測是計算機視覺中的一項基本任務,許多研究人員已經(jīng)應用水平邊界框來定位圖像中的物體。 水平邊界框的使用可以使候選區(qū)域的表示更加簡潔直觀。 在許多基于深度學習的方法中,往往需要大量標記樣本來訓練目標檢測器模型,使用軸平行標記框可以大大提高標記效率,快速獲取大量標記樣本。 此外,水平邊界框涉及的參數(shù)較少,簡化了檢測模型的訓練過程。 因此,在大多數(shù)目標檢測方法中,使用水平邊界框來表示遙感圖像中目標的大致范圍,如下圖所示。
然而,航拍圖像中的物體通常是任意方向的。因此,使用水平邊界框來檢測目標會引起幾個問題。首先,這種類型的物體檢測框通常包含許多背景區(qū)域。如上圖(a)所示,圖中大約60%的區(qū)域?qū)儆诒尘皡^(qū)域。檢測框內(nèi)存在過多的背景區(qū)域,不僅增加了分類任務的難度,而且會導致目標范圍表示不準確的問題。其次,水平邊界框會導致檢測框之間出現(xiàn)強烈重疊,如上圖(b)所示,降低檢測精度。最后,由于飛機、船舶、車輛等圖像中的物體包含運動方向信息,如果使用水平邊界框,則無法獲得目標運動方向的信息。
上述三個問題可以通過使用帶有角度信息的旋轉(zhuǎn)檢測框有效解決,如上圖所示。首先,旋轉(zhuǎn)檢測可以精確定位圖像中的物體,并且邊界框幾乎不包含背景區(qū)域,從而減少背景對物體分類的影響。其次,旋轉(zhuǎn)檢測框之間幾乎沒有重疊,從而可以更清晰地識別框內(nèi)包含的物體。最后,可以從旋轉(zhuǎn)檢測框粗略得到物體的運動方向信息,從而判斷物體的運動軌跡。綜上所述,在遙感圖像目標檢測任務中使用帶有角度信息的旋轉(zhuǎn)檢測框獲得了優(yōu)越的性能。
二、前言
任意方向的目標檢測是一項具有挑戰(zhàn)性的任務。由于遙感圖像中的物體方向是任意的,使用水平邊界框會導致檢測精度低。現(xiàn)有的基于回歸的旋轉(zhuǎn)檢測器會導致邊界不連續(xù)的問題。
在今天的分享中,研究者提出了一種基于角度分類的遙感圖像目標檢測方法,該方法使用帶有角度信息的旋轉(zhuǎn)檢測邊界框來檢測對象。具體來說,研究者將神經(jīng)架構(gòu)搜索框架與特征金字塔網(wǎng)絡 (NAS-FPN) 模塊結(jié)合到密集檢測器 (RetinaNet) 中,并在角度分類中使用二進制編碼方法。這種方法減少了背景影響,使得檢測框之間幾乎沒有重疊。根據(jù)檢測框的角度,我們可以推斷出目標的運動方向信息,進一步確定目標的運動軌跡。
研究者對一個可用于航空影像 (DOTA) 中的目標檢測的大型公共數(shù)據(jù)進行了消融實驗,以驗證該方法中每個模塊的有效性,并將該方法與其他幾種檢測方法進行比較。實驗結(jié)果證明了新提出方法的有效性。
三、新框架
新提出的旋轉(zhuǎn)檢測器框架如上圖所示。網(wǎng)絡基于RetinaNet框架。圖中標記為C2、C3、C4的特征圖是由深度卷積神經(jīng)網(wǎng)絡提取的。該方法的總體步驟如下:首先利用特征提取網(wǎng)絡對遙感圖像中的特征進行提取,利用NAS-FPN對提取的特征進行融合,得到不同尺度的特征圖。然后,使用長邊定義方法來表示旋轉(zhuǎn)檢測框,并在框回歸任務中使用二進制編碼標記技術將角度回歸問題轉(zhuǎn)化為角度分類問題。下面詳細描述該方法中的一些重要結(jié)構(gòu)。
NAS-FPN
在NAS-FPN中,最重要的結(jié)構(gòu)是由特征圖節(jié)點集合、操作池和搜索終止條件組成的合并單元結(jié)構(gòu)。下圖簡要描述了特征圖的搜索過程。
1)從特征圖節(jié)點集中隨機選擇一個特征圖作為輸入之一。初始特征圖節(jié)點集包含五個尺度的特征圖,表示為 {C1,C2, C3, C4, C5}。
2)從特征圖節(jié)點集中隨機選擇另一個特征圖作為另一個輸入。
3)選擇輸出特征圖的分辨率。
4)在操作池中選擇一個操作對(1)(2)中選擇的特征圖節(jié)點進行操作,產(chǎn)生與輸出特征圖分辨率相同的特征圖,并將該特征圖加入到特征圖節(jié)點集合中選擇。
5) 循環(huán)重復上述步驟。搜索的終止條件是生成五個與初始特征圖分辨率相同的特征金字塔網(wǎng)絡,記為{P1, P2, P3, P4, P5}。
ROTATION DETECTION FRAME
典型的角度編碼方法有三種,包括兩種不同角度范圍的五參數(shù)方法和一種八參數(shù)方法。詳細情況如下:
角度范圍為90°的五參數(shù)法(OpenCV定義法):其示意圖如上圖所示。該定義法包含五個參數(shù)[x,y,w,h,θ]。其中,x和y為旋轉(zhuǎn)坐標系的中心坐標,θ為旋轉(zhuǎn)坐標系與x軸的銳角,逆時針方向指定為負角,因此角度范圍為[?90° , 0); 旋轉(zhuǎn)框的寬度w為旋轉(zhuǎn)框所在的邊角,旋轉(zhuǎn)框的高度h為另一邊。
180°角范圍的五參數(shù)法
八參數(shù)法
八參數(shù)法:該定義方法示意圖如上圖所示,該定義方法包含8個參數(shù)[a1,a2,b1,b2,c1,c2,d1,d2], 定義的左上角為起點,其余點按逆時針順序排列。旋轉(zhuǎn)坐標系的表示不限于上述三種方法,旋轉(zhuǎn)坐標系其余部分的表示可以通過上述三種方法的變換得到。
ANGLE CODING METHOD
90°范圍的五參數(shù)定義方法的問題
八參數(shù)四邊形定義方法的問題
角度編碼方法:
四、實驗及可視化
實驗環(huán)境
DOTA數(shù)據(jù)集上的性能比較
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。