博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 騰訊優(yōu)圖出品:P2P網(wǎng)絡(luò)的人群檢測(cè)與計(jì)數(shù)

騰訊優(yōu)圖出品:P2P網(wǎng)絡(luò)的人群檢測(cè)與計(jì)數(shù)

發(fā)布人:CV研究院 時(shí)間:2022-02-10 來(lái)源:工程師 發(fā)布文章

人群計(jì)數(shù)是計(jì)算機(jī)視覺(jué)中的一項(xiàng)核心任務(wù),旨在估計(jì)靜止圖像或視頻幀中的行人數(shù)量。在過(guò)去的幾十年中,研究人員在該領(lǐng)域投入了大量精力,并在提升現(xiàn)有主流基準(zhǔn)數(shù)據(jù)集的性能方面取得了顯著進(jìn)展。

1背景

人群計(jì)數(shù)是計(jì)算機(jī)視覺(jué)中的一項(xiàng)核心任務(wù),旨在估計(jì)靜止圖像或視頻幀中的行人數(shù)量。 在過(guò)去的幾十年中,研究人員在該領(lǐng)域投入了大量精力,并在提升現(xiàn)有主流基準(zhǔn)數(shù)據(jù)集的性能方面取得了顯著進(jìn)展。然而,訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)需要大規(guī)模和高質(zhì)量的標(biāo)記數(shù)據(jù)集,而注釋像素級(jí)行人位置的成本高得令人望而卻步。

此外,由于數(shù)據(jù)分布之間的域轉(zhuǎn)移,在標(biāo)簽豐富的數(shù)據(jù)域(源域)上訓(xùn)練的模型不能很好地泛化到另一個(gè)標(biāo)簽稀缺域(目標(biāo)域),這嚴(yán)重限制了現(xiàn)有方法的實(shí)際應(yīng)用。

2 引言

最近的ICCV2021,騰訊優(yōu)圖出品了一個(gè)人群基數(shù)相關(guān)論文《Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework》。

論文:https://arxiv.org/pdf/2107.12858.pdf

image.png

相比僅僅估計(jì)人群中的總?cè)藬?shù),在人群中定位每個(gè)個(gè)體更為切合后續(xù)高階人群分析任務(wù)的實(shí)際需求。但是,已有的基于定位的解決方法依賴于某些中間表示(如密度圖或者偽目標(biāo)框)作為學(xué)習(xí)目標(biāo),這不光容易引入誤差,而且是一種反直覺(jué)的做法。

image.png

優(yōu)圖團(tuán)隊(duì)提出了一種完全基于點(diǎn)的全新框架,可同時(shí)用于人群計(jì)數(shù)和個(gè)體定位。針對(duì)基于該全新框架的方法,我們不滿足于僅僅量化圖像級(jí)別的絕對(duì)計(jì)數(shù)誤差,因此研究者提出了一種全新的度量指標(biāo)即密度歸一化平均精度,來(lái)提供一個(gè)更全面且更精準(zhǔn)的性能評(píng)價(jià)方案。

此外,作為該框架一個(gè)直觀解法,研究者給出了一個(gè)示例模型,叫做點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)(P2PNet)。P2PNet忽略了所有冗余步驟,直接預(yù)測(cè)一系列人頭點(diǎn)的集合來(lái)定位圖像中的人群個(gè)體,這完全與真實(shí)人工標(biāo)注保持一致。通過(guò)深入分析,研究者發(fā)現(xiàn)實(shí)現(xiàn)該方法的一個(gè)核心策略是為預(yù)測(cè)候選點(diǎn)分配最優(yōu)的學(xué)習(xí)目標(biāo),并通過(guò)基于匈牙利算法的一對(duì)一匹配策略來(lái)完成了這一關(guān)鍵步驟。實(shí)驗(yàn)證明,P2PNet不光在人群計(jì)數(shù)基準(zhǔn)上顯著超越了已有SOTA方法,還實(shí)現(xiàn)了非常高的定位精度。

今天我們“計(jì)算機(jī)視覺(jué)研究院”分享另一篇《計(jì)算機(jī)協(xié)會(huì)》收錄的一篇人群計(jì)數(shù)論文《Coarse to Fine: Domain Adaptive Crowd Counting via Adversarial Scoring Network》。

3 框架分析

目標(biāo)域(下圖頂部)和源域(下圖底部)之間存在的域相似性的圖示。左:一些擁擠區(qū)域在像素級(jí)別跨域相似。右圖:部分源樣本可能與目標(biāo)樣本共享相似的圖像分布。

image.png

最近的深度網(wǎng)絡(luò)令人信服地展示了人群計(jì)數(shù)的高能力,這是一項(xiàng)因其各種工業(yè)應(yīng)用而引起廣泛關(guān)注的關(guān)鍵任務(wù)。盡管取得了這樣的進(jìn)展,但由于固有的領(lǐng)域轉(zhuǎn)移,訓(xùn)練有素的依賴于數(shù)據(jù)的模型通常不能很好地推廣到看不見(jiàn)的場(chǎng)景。

為了解決這個(gè)問(wèn)題,有研究者提出了一種新穎的對(duì)抗性評(píng)分網(wǎng)絡(luò) (ASNet),以逐步彌合域之間從粗粒度到細(xì)粒度的差距。具體來(lái)說(shuō),在粗粒度階段,設(shè)計(jì)了一種雙鑒別器策略,通過(guò)對(duì)抗性學(xué)習(xí),從全局和局部特征空間的角度使源域接近目標(biāo)。兩個(gè)域之間的分布因此可以大致對(duì)齊。在細(xì)粒度階段,通過(guò)基于粗階段得出的生成概率對(duì)源樣本與來(lái)自多個(gè)級(jí)別的目標(biāo)樣本的相似程度進(jìn)行評(píng)分來(lái)探索源特征的可轉(zhuǎn)移性。由這些分層分?jǐn)?shù)引導(dǎo),正確選擇可轉(zhuǎn)移的源特征,以增強(qiáng)適應(yīng)過(guò)程中的知識(shí)傳輸。通過(guò)從粗到細(xì)的設(shè)計(jì),可以有效緩解由域差異引起的泛化瓶頸。

image.png

生成器將輸入圖像編碼為密度圖。然后雙鑒別器將密度圖分類(lèi)為源域或目標(biāo)域。通過(guò)生成器和雙鑒別器之間的對(duì)抗訓(xùn)練,域分布接近。同時(shí),雙鑒別器進(jìn)一步產(chǎn)生四種類(lèi)型的分?jǐn)?shù)作為信號(hào)來(lái)指導(dǎo)源數(shù)據(jù)的密度優(yōu)化,從而在適應(yīng)過(guò)程中實(shí)現(xiàn)細(xì)粒度轉(zhuǎn)移。

4實(shí)驗(yàn)及可視化

微信圖片_20220210173146.png

研究者考慮了從ShanghaiTech Part A到Trancos的實(shí)驗(yàn),如上表所示。顯然,所提出的方法比現(xiàn)有的適應(yīng)方法提高了2.9%。

image.png

由雙重鑒別器生成的不同級(jí)別(分別為像素、補(bǔ)丁像素、補(bǔ)丁、圖像)級(jí)別分?jǐn)?shù)的可視化。圖中的正方形代表一個(gè)標(biāo)量。注意白色方塊代表1,黑色方塊代表0。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉