?？笛芯吭撼銎罚壕哂袌?chǎng)景自適應(yīng)概念學(xué)習(xí)的無監(jiān)督目標(biāo)檢測(cè)

發(fā)布人：CV研究院時(shí)間：2022-06-17 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

論文地址：http://www.jzus.zju.edu.cn/article.php?doi=10.1631/FITEE.2000567

計(jì)算機(jī)視覺研究院專欄

作者：Edison_G

今天看了一篇自己研究院出品的文章，雖然21年中的paper，但是技術(shù)還是挺有趣，今天我就拿出來分享說一說。

技術(shù)簡(jiǎn)要

目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域最熱門的研究方向之一，已經(jīng)在學(xué)術(shù)界取得了令人矚目的進(jìn)展，并在業(yè)界有許多有價(jià)值的應(yīng)用。但是，主流的檢測(cè)方法仍然存在兩個(gè)缺點(diǎn)：

即使使用大量數(shù)據(jù)訓(xùn)練好的模型仍然不能普遍用于不同類型的場(chǎng)景；
一旦部署模型，它就不能隨著積累的未標(biāo)記場(chǎng)景數(shù)據(jù)自主進(jìn)化。

為了解決這些問題，在視覺知識(shí)理論的啟發(fā)下，研究者提出了一種新穎的場(chǎng)景自適應(yīng)進(jìn)化無監(jiān)督視頻目標(biāo)檢測(cè)算法，可以通過目標(biāo)組的概念減少場(chǎng)景變化的影響。

首先通過預(yù)訓(xùn)練的檢測(cè)模型從未標(biāo)記的數(shù)據(jù)中提取大量候選目標(biāo)。其次，通過對(duì)候選進(jìn)行聚類來構(gòu)建目標(biāo)概念的視覺知識(shí)字典，其中每個(gè)聚類中心代表一個(gè)目標(biāo)原型。第三，研究者們研究了不同簇之間的關(guān)系和不同組的目標(biāo)信息，并提出了一種基于圖的組信息傳播策略來確定目標(biāo)概念的類別，可以有效區(qū)分正負(fù)樣本。使用這些偽標(biāo)簽，就可以輕松地微調(diào)預(yù)訓(xùn)練模型。

最終通過不同的實(shí)驗(yàn)驗(yàn)證了所提方法的有效性，取得了顯著的改進(jìn)！

背景簡(jiǎn)述

最先進(jìn)的圖像目標(biāo)檢測(cè)方法主要分為兩組：兩階段方法和一階段方法。典型的兩階段算法有R-CNN、fast R-CNN、faster RCNN、R-FCN、FPN和Libra R-CNN，它們由區(qū)域候選、區(qū)域識(shí)別和位置組成。一階段方法將檢測(cè)轉(zhuǎn)換為回歸問題。SSD、YOLO、RetinaNet、CornerNet和FreeAnchor直接預(yù)測(cè)對(duì)象和對(duì)象類的位置或角點(diǎn)。

在這項(xiàng)研究中，YOLO-v2作為基礎(chǔ)檢測(cè)器。視頻目標(biāo)檢測(cè)類似于圖像目標(biāo)檢測(cè)。唯一的區(qū)別是目標(biāo)檢測(cè)任務(wù)中使用了時(shí)間信息?，F(xiàn)有的方法可以根據(jù)它們對(duì)時(shí)間信息的應(yīng)用分為兩類：特征級(jí)學(xué)習(xí)和后處理策略。

大多數(shù)視頻檢測(cè)方法不能直接檢測(cè)新場(chǎng)景中的目標(biāo)。這些檢測(cè)器應(yīng)該使用新的數(shù)據(jù)集進(jìn)行重新訓(xùn)練。在這種情況下，一些研究人員提出了無監(jiān)督視頻檢測(cè)算法。這些方法的主要策略是無監(jiān)督特征學(xué)習(xí)、目標(biāo)挖掘、匹配、跟蹤和域適應(yīng)。例如，Croitoru等人提出了一種基于視頻主成分分析（PCA）的無監(jiān)督目標(biāo)挖掘策略，以生成軟掩碼來訓(xùn)練檢測(cè)器。提出了一種跟蹤策略以獲得偽標(biāo)簽，用于在視頻流中訓(xùn)練基于CNN的目標(biāo)檢測(cè)器。還有研究者結(jié)合自定進(jìn)度的域適應(yīng)和分?jǐn)?shù)軌跡跟蹤策略來自動(dòng)挖掘目標(biāo)域樣本以進(jìn)行無監(jiān)督視頻目標(biāo)檢測(cè)。今天說的新方法是一種場(chǎng)景自適應(yīng)進(jìn)化無監(jiān)督視頻目標(biāo)檢測(cè)算法。

新框架分析

所提出方法的框架如上圖所示。它由PDG、G-GIP和檢測(cè)組成。

首先，原始數(shù)據(jù)用于訓(xùn)練初始檢測(cè)模型；其次，利用新的場(chǎng)景數(shù)據(jù)通過PDG策略建立目標(biāo)的視覺知識(shí)表示。每一幀新的場(chǎng)景數(shù)據(jù)被發(fā)送到初始檢測(cè)模型，用于提取目標(biāo)候選和相應(yīng)的特征。所有提取的特征與框尺度信息相結(jié)合，通過k-means算法進(jìn)行聚類，以構(gòu)建目標(biāo)原型字典。每個(gè)原型都是相應(yīng)目標(biāo)組的中心；第三，提出了基于圖的組信息傳播模型，創(chuàng)建正樣本類別，然后從新的場(chǎng)景數(shù)據(jù)集中挖掘具有偽標(biāo)簽的新訓(xùn)練樣本；最后，挖掘的數(shù)據(jù)集用于微調(diào)檢測(cè)模型以進(jìn)行新場(chǎng)景檢測(cè)。