基于全局引導(dǎo)的行人序列重識(shí)別

作者：張治軍，林敏強(qiáng)，蔣浩（深圳康佳電子科技有限公司，廣東深圳 518057）時(shí)間：2022-09-23 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

摘要：行人序列重識(shí)別是對(duì)同一個(gè)人進(jìn)行跨攝像頭識(shí)別，要實(shí)現(xiàn)跨攝像頭行人精確識(shí)別必須充分利用行人序列的時(shí)空線索。為了解決這個(gè)問(wèn)題，本文提出了一種基于全局引導(dǎo)的行人序列重識(shí)別，首先利用ResNet-50提取行人序列特征；然后用全局引導(dǎo)網(wǎng)絡(luò)將行人序列特征分解為全局特征和局部特征，并提取行人序列全局特征和局部特征的時(shí)間相關(guān)性；最后對(duì)行人序列特征PCA降維后用JS散度計(jì)算相似度。實(shí)驗(yàn)結(jié)果表明本文算法在跨攝像頭行人序列重識(shí)別中識(shí)不僅識(shí)別率高，而且效率高。

本文引用地址：http://butianyuan.cn/article/202209/438503.htm

關(guān)鍵詞：行人序列重識(shí)別；ResNet-50；全局引導(dǎo)；PCA

1 介紹

行人序列重新識(shí)別是跨攝像頭識(shí)別同一個(gè)人，是智能監(jiān)控和平安承受研究的熱門(mén)課題。與單張行人圖片相比，行人序列提供更全面的全局信息、運(yùn)動(dòng)線索和時(shí)間關(guān)系，如果充分利用行人序列的時(shí)空關(guān)系，行人序列重識(shí)別的識(shí)別率會(huì)高于單張圖片的行人重識(shí)別。行人序列重識(shí)別以前的方法是利用卷積神經(jīng)網(wǎng)絡(luò)提取行人序列的空間特征和時(shí)間特征，然后對(duì)特征向量進(jìn)行相似度計(jì)算，這種方法沒(méi)有充分利用行人序列的全局信息，因此識(shí)別率不高。因此本文提出了一種基于全局引導(dǎo)的行人序列重識(shí)別，首先利用 ResNet-50 提取行人序列特征；然后用全局引導(dǎo)網(wǎng)絡(luò)來(lái)增加行人序列幀特征之間的相關(guān)性；最后對(duì)行人序列特征 PCA 降維后用 JS 散度計(jì)算相似度。

2 本文算法

2.1 本文架構(gòu)

1）ResNet-50 提取特征，用 ResNet-50 網(wǎng)絡(luò)提取行人序列候選集和查詢集特征。

2）全局引導(dǎo)網(wǎng)絡(luò)，用全局引導(dǎo)網(wǎng)絡(luò)來(lái)增加行人序列幀特征之間的相關(guān)性。

3）PCA，用 PCA 對(duì)特征降維，減少計(jì)算量，提供識(shí)別速度。

4）JS 散度，對(duì)行人序列特征進(jìn)行相似性度量。

本文架構(gòu)如下圖 1 所示。

2.2 ResNet-50特征提取

ResNet-50網(wǎng)絡(luò)由49個(gè)卷積層和1個(gè)全連接層組成。 ResNet-50 網(wǎng)絡(luò)除了對(duì)輸入進(jìn)行卷積、正則化、激活函數(shù)、最大池化計(jì)算外，還增加了殘差塊。它對(duì)行人序列進(jìn)行時(shí)間和空間建模來(lái)表示行人序列的全局特征和局部特征，以及行人序列全局特征和局部特征之間的關(guān)系。也就是說(shuō)通過(guò) ResNet-50 網(wǎng)絡(luò)可以提取行人序列不同級(jí)別的特征。

2.3 全局引導(dǎo)網(wǎng)絡(luò)

全局引導(dǎo)網(wǎng)絡(luò)是用全局特征向量引導(dǎo)，用增加行人序列幀特征之間的相關(guān)性。首先通過(guò) ResNet-50 提取行人序列的全局特征和局部特征，然后用時(shí)間平均池化和全局平均池化對(duì)行人特征的全局特征和局部特征進(jìn)一步處理，生成全局特征向量來(lái)引導(dǎo) ResNet-50 提取的行人序列特征，形成行人序列幀特征之間強(qiáng)相關(guān)特征和低相關(guān)特征。全局引導(dǎo)網(wǎng)絡(luò)框圖如下：

2.4 PCA降維

PCA又叫主成分分析，是Principal components analysis 的簡(jiǎn)寫(xiě)，是機(jī)器學(xué)習(xí)中使用最廣泛的降維算法之一。圖像處理計(jì)算是矩陣相乘計(jì)算，維度高時(shí)計(jì)算量非常大，運(yùn)算速度非常慢，為了提升運(yùn)算速度，保持識(shí)別效率，我們通常使用 PCA 降維。PCA 降維的本質(zhì)就是把高維空間投影到低維空間，也就是說(shuō)在低維空間找一個(gè)新的正交坐標(biāo)系，把高維空間向量投影到低維坐標(biāo)系中，坐標(biāo)系選擇是原始數(shù)據(jù)方差最大的方向作為第一坐標(biāo)軸，以此類(lèi)推。因此 PCA 降維能保持高維空間最大的信息。本文在保證行人序列特征在 99% 的基礎(chǔ)上，行人序列的特征維度從 2048 維降低到 280 維，在確保識(shí)別率的情況下極大的提升了識(shí)別速率。

2.5 JS散度

KL 散度叫相對(duì)熵、信息散度或者信息增益。散度是兩個(gè)概率分布差別的非對(duì)稱性的度量。JS 散度解決了 KL 散度非對(duì)稱的問(wèn)題，因此本文采用 JS 散度進(jìn)行相似性度量。

3 實(shí)驗(yàn)結(jié)果

本文實(shí)驗(yàn)是在 MARS 和 iLIDS-VID 數(shù)據(jù)集上進(jìn)行的。MARS 數(shù)據(jù)庫(kù)是目前已公開(kāi)的最大視頻行人重識(shí)別數(shù)據(jù)集，包含 1 261 個(gè)行人，采集于 6 個(gè)不同的攝像頭，每個(gè)人被 2~3 個(gè)攝像頭捕捉到，每個(gè)行人平均含有 13.2 個(gè)視頻序列。iLIDS-VID 數(shù)據(jù)庫(kù)包含從兩個(gè)無(wú)交疊攝像頭采集的 300 個(gè)行人的 600 個(gè)視頻段，每個(gè)行人視頻段含有 23 到 192 幀圖像不止，平均含有 73 幀。

評(píng)測(cè)指標(biāo)：采用行人重識(shí)別領(lǐng)域廣泛使用的累計(jì)匹配特性曲線（cumulative matching characteristic，CMC） CMC@Rank-1、5、10，分別表示在一次查詢結(jié)果中，排序列表的前 1、5、10 個(gè)排序樣本中含有正確樣本的概率；同時(shí)還采用檢索任務(wù)中另一個(gè)常用的評(píng)測(cè)指標(biāo)精度平均值（mean average precision, mAP），表示檢索結(jié)果的精度平均值。

上表可以看出，本文算法在 MARS 和 iLIDS-VID 數(shù)據(jù)上識(shí)別率明顯高于其它算法，說(shuō)明本文基于全局引導(dǎo)的行人序列重識(shí)別算法充分利用了行人序列的信息。

4 結(jié)語(yǔ)

本文提出的基于全局引導(dǎo)的行人序列重識(shí)別算法，充分利用了行人序列的全局信息和局部信息，用全局引導(dǎo)網(wǎng)絡(luò)來(lái)增加行人序列幀特征之間的相關(guān)性。實(shí)驗(yàn)結(jié)果表明，本文算法識(shí)別率高，識(shí)別速度快。

參考文獻(xiàn)：

[1] CHEN G Y, RAO Y M, LU J W et al. Temporal coherence or temporal motion: Which is more critical for video-based person re-identification[C].ECCV,2020,(6):660-676.

[2] DAI J, ZHANG P P, WANG D, et al. Video person reidentification by temporal residual learning[J].TIP,2019,(3) 28:1366-1377.

[3] FU Y, WANG X Y, WEI Y C, et al. Sta: Spatial-temporal attention for large-scale video based person re-identification [R].AAAI,2019,(2):6.

[4] HOU R B, CHANG H, MA B P et al. Temporal complementary learning for video person re-identification[J].2020,(6).

[5] HOU R B, MA B P, CHANG H, et al. Vrstc: Occlusion-free video person re-identification[C].CVPR,2019,(6):7183-7192.

[6] LI J N, WANG J D, TIAN Q et al. Global-local temporal representations for video per son re-identification[C].ICCV, 2019,(6):3958-3967.

[7] LI S, BAK S, CARR P, et al. Diversity regularized spatiotemporal attention for video based person re-identification[C].CVPR,2018.

[8] YANG J R, ZHENG W S, YANG Q Z et al. Spatial-temporal graph convolutional network for video-based person reidentification[C].CVPR,2020,(6):3289-3299.

(注：本文轉(zhuǎn)載自《電子產(chǎn)品世界》雜志2022年9月期)