貝葉斯優(yōu)化與結(jié)構(gòu)化預(yù)測 | 大幅度提升目標(biāo)檢測精度

發(fā)布人：CV研究院時(shí)間：2022-04-14 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

節(jié)假日在家里整理資料，發(fā)現(xiàn)一篇很早之前閱讀過的一篇paper，主要用貝葉斯優(yōu)化器和結(jié)構(gòu)化預(yù)測來提升目標(biāo)檢測的精度，今天和大家分享下這框架，有興趣的同學(xué)可以在這條想法上繼續(xù)衍生，提出更好的新想法新框架！

一、前言&簡要

基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測系統(tǒng)最近在幾個目標(biāo)檢測基準(zhǔn)上取得了突破性的進(jìn)展。雖然這些high-capacity神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征可以區(qū)分類別，但不準(zhǔn)確的定位仍然是檢測錯誤的主要來源。在高容量CNN架構(gòu)的基礎(chǔ)上，研究者通過以下來解決定位問題。1)使用基于貝葉斯優(yōu)化的搜索算法，按順序提出目標(biāo)邊界框的候選區(qū)域；2)用結(jié)構(gòu)化損失訓(xùn)練CNN，明確地懲罰CNN的定位不準(zhǔn)確性。

在實(shí)驗(yàn)中，研究者證明了在VOC 2007年和2012年的數(shù)據(jù)集上，所提出的每種方法都比基線方法提高了檢測性能。此外，兩種方法是互補(bǔ)的，結(jié)合起來明顯優(yōu)于以前的先進(jìn)技術(shù)。

二、背景

DPM及其變體多年來一直是目標(biāo)檢測任務(wù)的主要方法。這些方法使用圖像描述符，如HOG、SIFT和LBP作為特征，并密集地掃描整個圖像，以找到最大的響應(yīng)區(qū)域。隨著CNN在大規(guī)模目標(biāo)識別上取得的顯著成功，提出了幾種基于CNNs的檢測方法。遵循傳統(tǒng)的區(qū)域候選滑動窗口方法，Sermanet等人[Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. OverFeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014 ]提出使用cnn對整個圖像進(jìn)行詳盡的搜索，但通過在多個尺度上同時(shí)對整個圖像進(jìn)行卷積，使其有效。除了滑動窗法，Szegedy等人[C. Szegedy, A. Toshev, and D. Erhan. Deep neural networks for object detection. In NIPS]使用CNNs返回圖像中目標(biāo)的邊界框，并使用另一個CNN分類器來驗(yàn)證預(yù)測的框是否包含對象。Girshick等人[R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR]根據(jù)“recognition using regions”范式提出了R-CNN，這也激發(fā)了之前幾種最先進(jìn)的方法。在該框架下，通過選擇性搜索算法為圖像提出了幾百或數(shù)千個區(qū)域，CNN確定這些候選區(qū)域。研究者的新方法是建立在使用[K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR]中提出的CNN的R-CNN框架上的，但是，1)一種新的方法在定位差的情況下提出額外的邊界框，2)一個具有提高定位靈敏度的分類器。

三、Fine-grained search for bounding box via Bayesian optimization

3.1 General Bayesian optimization framework

在貝葉斯優(yōu)化框架中，假設(shè)f=(x,y)是從概率模型中提取的：

貝葉斯優(yōu)化在函數(shù)計(jì)算的數(shù)量方面是有效的，當(dāng)f的計(jì)算成本昂貴時(shí)也特別有效。當(dāng)a(yN | DN)比f計(jì)算要簡便得多，而arg max yN+1(yN+1 | DN)的計(jì)算只需要一些函數(shù)計(jì)算時(shí)，可以有效地找到一個更接近GT的解決方案。

3.2 Efficient region proposal via GP regression

在這里，研究者使用常數(shù)平均函數(shù)m(y) = m0和SEard，確定如下：