基于全局引導的行人序列重識別
摘要:行人序列重識別是對同一個人進行跨攝像頭識別,要實現(xiàn)跨攝像頭行人精確識別必須充分利用行人序列的時空線索。為了解決這個問題,本文提出了一種基于全局引導的行人序列重識別,首先利用ResNet-50提取行人序列特征;然后用全局引導網(wǎng)絡將行人序列特征分解為全局特征和局部特征,并提取行人序列全局特征和局部特征的時間相關(guān)性;最后對行人序列特征PCA降維后用JS散度計算相似度。實驗結(jié)果表明本文算法在跨攝像頭行人序列重識別中識不僅識別率高,而且效率高。
本文引用地址:http://butianyuan.cn/article/202209/438503.htm關(guān)鍵詞:行人序列重識別;ResNet-50;全局引導;PCA
1 介紹
行人序列重新識別是跨攝像頭識別同一個人,是智能監(jiān)控和平安承受研究的熱門課題。與單張行人圖片相比,行人序列提供更全面的全局信息、運動線索和時間關(guān)系,如果充分利用行人序列的時空關(guān)系,行人序列重識別的識別率會高于單張圖片的行人重識別。行人序列重識別以前的方法是利用卷積神經(jīng)網(wǎng)絡提取行人序列的空間特征和時間特征,然后對特征向量進行相似度計算,這種方法沒有充分利用行人序列的全局信息,因此識別率不高。因此本文提出了一種基于全局引導的行人序列重識別,首先利用 ResNet-50 提取行人序列特征;然后用全局引導網(wǎng)絡來增加行人序列幀特征之間的相關(guān)性;最后對行人序列特征 PCA 降維后用 JS 散度計算相似度。
2 本文算法
2.1 本文架構(gòu)
1)ResNet-50 提取特征,用 ResNet-50 網(wǎng)絡提取行人序列候選集和查詢集特征。
2)全局引導網(wǎng)絡,用全局引導網(wǎng)絡來增加行人序列幀特征之間的相關(guān)性。
3)PCA,用 PCA 對特征降維,減少計算量,提供識別速度。
4)JS 散度,對行人序列特征進行相似性度量。
本文架構(gòu)如下圖 1 所示。
2.2 ResNet-50特征提取
ResNet-50網(wǎng)絡由49個卷積層和1個全連接層組成。 ResNet-50 網(wǎng)絡除了對輸入進行卷積、正則化、激活函數(shù)、最大池化計算外,還增加了殘差塊。它對行人序列進行時間和空間建模來表示行人序列的全局特征和局部特征,以及行人序列全局特征和局部特征之間的關(guān)系。也就是說通過 ResNet-50 網(wǎng)絡可以提取行人序列不同級別的特征。
2.3 全局引導網(wǎng)絡
全局引導網(wǎng)絡是用全局特征向量引導,用增加行人序列幀特征之間的相關(guān)性。首先通過 ResNet-50 提取行人序列的全局特征和局部特征,然后用時間平均池化和全局平均池化對行人特征的全局特征和局部特征進一步處理,生成全局特征向量來引導 ResNet-50 提取的行人序列特征,形成行人序列幀特征之間強相關(guān)特征和低相關(guān)特征。全局引導網(wǎng)絡框圖如下:
2.4 PCA降維
PCA又叫主成分分析,是Principal components analysis 的簡寫,是機器學習中使用最廣泛的降維算法之一。圖像處理計算是矩陣相乘計算,維度高時計算量非常大,運算速度非常慢,為了提升運算速度,保持識別效率,我們通常使用 PCA 降維。PCA 降維的本質(zhì)就是把高維空間投影到低維空間,也就是說在低維空間找一個新的正交坐標系,把高維空間向量投影到低維坐標系中,坐標系選擇是原始數(shù)據(jù)方差最大的方向作為第一坐標軸,以此類推。因此 PCA 降維能保持高維空間最大的信息。本文在保證行人序列特征在 99% 的基礎上,行人序列的特征維度從 2048 維降低到 280 維,在確保識別率的情況下極大的提升了識別速率。
2.5 JS散度
KL 散度叫相對熵、信息散度或者信息增益。散度是兩個概率分布差別的非對稱性的度量。JS 散度解決了 KL 散度非對稱的問題,因此本文采用 JS 散度進行相似性度量。
3 實驗結(jié)果
本文實驗是在 MARS 和 iLIDS-VID 數(shù)據(jù)集上進行的。MARS 數(shù)據(jù)庫是目前已公開的最大視頻行人重識別數(shù)據(jù)集,包含 1 261 個行人,采集于 6 個不同的攝像頭,每個人被 2~3 個攝像頭捕捉到,每個行人平均含有 13.2 個視頻序列。iLIDS-VID 數(shù)據(jù)庫包含從兩個無交疊攝像頭采集的 300 個行人的 600 個視頻段,每個行人視頻段含有 23 到 192 幀圖像不止,平均含有 73 幀。
評測指標:采用行人重識別領域廣泛使用的累計匹配特性曲線(cumulative matching characteristic,CMC) CMC@Rank-1、5、10,分別表示在一次查詢結(jié)果中,排序列表的前 1、5、10 個排序樣本中含有正確樣本的概率;同時還采用檢索任務中另一個常用的評測指標精度平均值(mean average precision, mAP),表示檢索結(jié)果的精度平均值。
上表可以看出,本文算法在 MARS 和 iLIDS-VID 數(shù)據(jù)上識別率明顯高于其它算法,說明本文基于全局引導的行人序列重識別算法充分利用了行人序列的信息。
4 結(jié)語
本文提出的基于全局引導的行人序列重識別算法,充分利用了行人序列的全局信息和局部信息,用全局引導網(wǎng)絡來增加行人序列幀特征之間的相關(guān)性。實驗結(jié)果表明,本文算法識別率高,識別速度快。
參考文獻:
[1] CHEN G Y, RAO Y M, LU J W et al. Temporal coherence or temporal motion: Which is more critical for video-based person re-identification[C].ECCV,2020,(6):660-676.
[2] DAI J, ZHANG P P, WANG D, et al. Video person reidentification by temporal residual learning[J].TIP,2019,(3) 28:1366-1377.
[3] FU Y, WANG X Y, WEI Y C, et al. Sta: Spatial-temporal attention for large-scale video based person re-identification [R].AAAI,2019,(2):6.
[4] HOU R B, CHANG H, MA B P et al. Temporal complementary learning for video person re-identification[J].2020,(6).
[5] HOU R B, MA B P, CHANG H, et al. Vrstc: Occlusion-free video person re-identification[C].CVPR,2019,(6):7183-7192.
[6] LI J N, WANG J D, TIAN Q et al. Global-local temporal representations for video per son re-identification[C].ICCV, 2019,(6):3958-3967.
[7] LI S, BAK S, CARR P, et al. Diversity regularized spatiotemporal attention for video based person re-identification[C].CVPR,2018.
[8] YANG J R, ZHENG W S, YANG Q Z et al. Spatial-temporal graph convolutional network for video-based person reidentification[C].CVPR,2020,(6):3289-3299.
(注:本文轉(zhuǎn)載自《電子產(chǎn)品世界》雜志2022年9月期)
評論