RestoreDet:低分辨率圖像中目標(biāo)檢測
超分辨率(SR)等圖像恢復(fù)算法是退化圖像中目標(biāo)檢測不可或缺的預(yù)處理模塊。然而,這些算法中的大多數(shù)假設(shè)退化是固定的并且是先驗已知的。
一、前言
當(dāng)真正的退化未知或與假設(shè)不同時,預(yù)處理模塊和隨后的高級任務(wù)(如目標(biāo)檢測)都會失敗。在這里,研究者提出了一個新的框架,RestoreDet,來檢測退化的低分辨率圖像中的目標(biāo)。RestoreDet利用下采樣降級作為自監(jiān)督信號的一種轉(zhuǎn)換,以探索針對各種分辨率和其他降級條件的等變表示。
具體來說,通過編碼和解碼一對原始和隨機退化圖像的退化變換來學(xué)習(xí)這種內(nèi)在的視覺結(jié)構(gòu)。該框架可以進一步利用具有任意分辨率恢復(fù)****的高級SR架構(gòu)來從退化的輸入圖像重建原始對應(yīng)關(guān)系。表示學(xué)習(xí)和目標(biāo)檢測都以端到端的訓(xùn)練方式聯(lián)合優(yōu)化。RestoreDet是一個通用框架,可以在任何主流目標(biāo)檢測架構(gòu)上實現(xiàn)。廣泛的實驗表明,基于CenterNet的框架在面對變質(zhì)退化情況時與現(xiàn)有方法相比取得了卓越的性能。代碼很快就會發(fā)布。
二、背景
由于大規(guī)模數(shù)據(jù)集,高級視覺任務(wù)(即圖像分類、目標(biāo)檢測和語義分割)取得了巨大成功。這些數(shù)據(jù)集中的圖像主要由具有更高分辨率和信噪比(SNR)的商用相機捕獲。在這些高質(zhì)量圖像上進行訓(xùn)練和優(yōu)化后,高級視覺在低分辨率或低質(zhì)量圖像上的性能會下降。為了提高視覺算法在退化的低分辨率圖像上的性能,Dai等人[Is image super-resolution helpful for other vision tasks?]提出了第一個全面的研究,提倡使用超分辨率(SR)算法對圖像進行預(yù)處理。其他高級任務(wù),如人臉識別、人臉檢測、圖像分類和語義分割,也受益于恢復(fù)模塊以提取更多區(qū)分特征。
三、新框架分析
研究者不是在嚴格假設(shè)下使用恢復(fù)模塊顯式增強輸入圖像,而是利用針對各種分辨率和退化狀態(tài)的內(nèi)在等變表示。基于上圖所示的編碼表示,研究者提出了 RestoreDet,這是一種用于在退化的LR圖像中進行目標(biāo)對象檢測的端到端模型。為了捕捉視覺結(jié)構(gòu)的復(fù)雜模式,利用下采樣退化變換組作為自我監(jiān)督信號。在訓(xùn)練過程中,通過隨機退化變換t從原始HR圖像x生成退化的LR圖像t(x)。如上圖所示,這對圖像被送入編碼器E以獲取其潛在特征E(x)和E(t(x))。
為了訓(xùn)練編碼器E學(xué)習(xí)退化等變表示,研究者首先引入一個變換****Dt來表示E(x)和E(t(x))解碼應(yīng)用的退化變換t。如果可以重建轉(zhuǎn)換,則表示應(yīng)盡可能捕捉它們在不同轉(zhuǎn)換下如何變化的動態(tài)。
為了進一步利用快速增長的SR研究的優(yōu)勢,研究者引入了任意分辨率恢復(fù)**** (ARRD) Dr。ARRD從各種退化的LR圖像t(x)的表示E(t(x))重建原始HR數(shù)據(jù) x。ARRD Dr將監(jiān)督編碼器E對有助于后續(xù)任務(wù)的詳細圖像結(jié)構(gòu)進行編碼?;诰幋a表示E(t(x)),目標(biāo)檢測****Do然后執(zhí)行檢測以獲取對象的位置和類別。在推理過程中,目標(biāo)圖像直接通過上圖中的編碼器E和目標(biāo)檢測****Do進行檢測。與基于預(yù)處理模塊的方法相比,研究者的推理pipeline計算效率更高。
為了覆蓋實際場景中的各種退化,根據(jù)實際的下采樣退化模型,通過隨機抽樣變換 t來生成退化的t(x)。如上圖所示,變換t由下采樣率s、退化核k和如下等式中的噪聲水平n表征。
上圖(a)是anchor free框架的CenterNet。圖(b)說明了如何基于CenterNet實現(xiàn)的RestoreDet。詳細的訓(xùn)練過程在Algo.1中給出。在訓(xùn)練RestoreDet時,原始HR圖像x和變換后的退化LR圖像t(x)被發(fā)送到編碼器E以對退化等變表示進行編碼。在這里,直接使用CenterNet的編碼器E,但將其復(fù)制到共享權(quán)重Siamese結(jié)構(gòu)中,分別接收HR和LR圖像。
Algo.1
四、實驗及可視化
MS COCO 和KITTI數(shù)據(jù)集上性能比較
(a)/(b) is CenterNet trained on normal images and tested on normal/degraded down4 testset, (c)/(d)/(e) is CenterNet tested on the degraded image restored by individual SR algorithm RRDB/RealSR/BSRGan. (f) is the detection result of our RestoreDet and we use the output of ARRD Dr as background images.
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。