騰訊優(yōu)圖出品：P2P網(wǎng)絡(luò)的人群檢測(cè)與計(jì)數(shù)

發(fā)布人：CV研究院時(shí)間：2022-02-10 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

1背景

人群計(jì)數(shù)是計(jì)算機(jī)視覺(jué)中的一項(xiàng)核心任務(wù)，旨在估計(jì)靜止圖像或視頻幀中的行人數(shù)量。在過(guò)去的幾十年中，研究人員在該領(lǐng)域投入了大量精力，并在提升現(xiàn)有主流基準(zhǔn)數(shù)據(jù)集的性能方面取得了顯著進(jìn)展。然而，訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)需要大規(guī)模和高質(zhì)量的標(biāo)記數(shù)據(jù)集，而注釋像素級(jí)行人位置的成本高得令人望而卻步。

此外，由于數(shù)據(jù)分布之間的域轉(zhuǎn)移，在標(biāo)簽豐富的數(shù)據(jù)域（源域）上訓(xùn)練的模型不能很好地泛化到另一個(gè)標(biāo)簽稀缺域（目標(biāo)域），這嚴(yán)重限制了現(xiàn)有方法的實(shí)際應(yīng)用。

2 引言

最近的ICCV2021，騰訊優(yōu)圖出品了一個(gè)人群基數(shù)相關(guān)論文《Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework》。

論文：https://arxiv.org/pdf/2107.12858.pdf

相比僅僅估計(jì)人群中的總?cè)藬?shù)，在人群中定位每個(gè)個(gè)體更為切合后續(xù)高階人群分析任務(wù)的實(shí)際需求。但是，已有的基于定位的解決方法依賴于某些中間表示（如密度圖或者偽目標(biāo)框）作為學(xué)習(xí)目標(biāo)，這不光容易引入誤差，而且是一種反直覺(jué)的做法。

優(yōu)圖團(tuán)隊(duì)提出了一種完全基于點(diǎn)的全新框架，可同時(shí)用于人群計(jì)數(shù)和個(gè)體定位。針對(duì)基于該全新框架的方法，我們不滿足于僅僅量化圖像級(jí)別的絕對(duì)計(jì)數(shù)誤差，因此研究者提出了一種全新的度量指標(biāo)即密度歸一化平均精度，來(lái)提供一個(gè)更全面且更精準(zhǔn)的性能評(píng)價(jià)方案。

此外，作為該框架一個(gè)直觀解法，研究者給出了一個(gè)示例模型，叫做點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)（P2PNet）。P2PNet忽略了所有冗余步驟，直接預(yù)測(cè)一系列人頭點(diǎn)的集合來(lái)定位圖像中的人群個(gè)體，這完全與真實(shí)人工標(biāo)注保持一致。通過(guò)深入分析，研究者發(fā)現(xiàn)實(shí)現(xiàn)該方法的一個(gè)核心策略是為預(yù)測(cè)候選點(diǎn)分配最優(yōu)的學(xué)習(xí)目標(biāo)，并通過(guò)基于匈牙利算法的一對(duì)一匹配策略來(lái)完成了這一關(guān)鍵步驟。實(shí)驗(yàn)證明，P2PNet不光在人群計(jì)數(shù)基準(zhǔn)上顯著超越了已有SOTA方法，還實(shí)現(xiàn)了非常高的定位精度。

今天我們“計(jì)算機(jī)視覺(jué)研究院”分享另一篇《計(jì)算機(jī)協(xié)會(huì)》收錄的一篇人群計(jì)數(shù)論文《Coarse to Fine: Domain Adaptive Crowd Counting via Adversarial Scoring Network》。

3 框架分析

目標(biāo)域（下圖頂部）和源域（下圖底部）之間存在的域相似性的圖示。左：一些擁擠區(qū)域在像素級(jí)別跨域相似。右圖：部分源樣本可能與目標(biāo)樣本共享相似的圖像分布。

最近的深度網(wǎng)絡(luò)令人信服地展示了人群計(jì)數(shù)的高能力，這是一項(xiàng)因其各種工業(yè)應(yīng)用而引起廣泛關(guān)注的關(guān)鍵任務(wù)。盡管取得了這樣的進(jìn)展，但由于固有的領(lǐng)域轉(zhuǎn)移，訓(xùn)練有素的依賴于數(shù)據(jù)的模型通常不能很好地推廣到看不見(jiàn)的場(chǎng)景。

為了解決這個(gè)問(wèn)題，有研究者提出了一種新穎的對(duì)抗性評(píng)分網(wǎng)絡(luò) (ASNet)，以逐步彌合域之間從粗粒度到細(xì)粒度的差距。具體來(lái)說(shuō)，在粗粒度階段，設(shè)計(jì)了一種雙鑒別器策略，通過(guò)對(duì)抗性學(xué)習(xí)，從全局和局部特征空間的角度使源域接近目標(biāo)。兩個(gè)域之間的分布因此可以大致對(duì)齊。在細(xì)粒度階段，通過(guò)基于粗階段得出的生成概率對(duì)源樣本與來(lái)自多個(gè)級(jí)別的目標(biāo)樣本的相似程度進(jìn)行評(píng)分來(lái)探索源特征的可轉(zhuǎn)移性。由這些分層分?jǐn)?shù)引導(dǎo)，正確選擇可轉(zhuǎn)移的源特征，以增強(qiáng)適應(yīng)過(guò)程中的知識(shí)傳輸。通過(guò)從粗到細(xì)的設(shè)計(jì)，可以有效緩解由域差異引起的泛化瓶頸。

生成器將輸入圖像編碼為密度圖。然后雙鑒別器將密度圖分類(lèi)為源域或目標(biāo)域。通過(guò)生成器和雙鑒別器之間的對(duì)抗訓(xùn)練，域分布接近。同時(shí)，雙鑒別器進(jìn)一步產(chǎn)生四種類(lèi)型的分?jǐn)?shù)作為信號(hào)來(lái)指導(dǎo)源數(shù)據(jù)的密度優(yōu)化，從而在適應(yīng)過(guò)程中實(shí)現(xiàn)細(xì)粒度轉(zhuǎn)移。

4實(shí)驗(yàn)及可視化

微信圖片_20220210173146.png

研究者考慮了從ShanghaiTech Part A到Trancos的實(shí)驗(yàn)，如上表所示。顯然，所提出的方法比現(xiàn)有的適應(yīng)方法提高了2.9%。

由雙重鑒別器生成的不同級(jí)別（分別為像素、補(bǔ)丁像素、補(bǔ)丁、圖像）級(jí)別分?jǐn)?shù)的可視化。圖中的正方形代表一個(gè)標(biāo)量。注意白色方塊代表1，黑色方塊代表0。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專(zhuān)欄

騰訊優(yōu)圖出品：P2P網(wǎng)絡(luò)的人群檢測(cè)與計(jì)數(shù)

相關(guān)推薦

技術(shù)專(zhuān)區(qū)