基于偏移學(xué)習(xí)的低分辨率人體姿態(tài)估計(jì)*

作者：林敏強(qiáng)（康佳集團(tuán)股份有限公司，廣東深圳 518057）時(shí)間：2022-09-24 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

摘要：目前高分辨率人體姿態(tài)估計(jì)已經(jīng)非常準(zhǔn)確，但是低分辨率人體姿態(tài)估計(jì)效果并不理想，主要原因是低分辨率時(shí)模型性能嚴(yán)重下降，而偏移學(xué)習(xí)是解決模型性能下降的一種有效方法。實(shí)驗(yàn)表明，本文提出的基于偏移學(xué)習(xí)的低分辨率人體姿態(tài)估計(jì)算法量化誤差小，準(zhǔn)確率高。

本文引用地址：http://www.butianyuan.cn/article/202209/438527.htm

關(guān)鍵詞：人體姿態(tài)估計(jì)；低分辨率；偏移學(xué)習(xí)

*基金項(xiàng)目：深圳市科技創(chuàng)新委員會資助項(xiàng)目（項(xiàng)目編號：JSGG20191129143214333）

人體姿態(tài)估計(jì)是人體生成，動作識別，行人序列重識別，行人跟蹤和行人目標(biāo)檢測中最關(guān)鍵的技術(shù)之一。由于受人體的大尺度變換、人體遮擋和拍攝角度等因素干擾，人體姿態(tài)估計(jì)充滿挑戰(zhàn)?，F(xiàn)有的人體姿態(tài)估計(jì)算法大部分是基于高分辨率的，低分辨率人體姿態(tài)估計(jì)研究較少。高分辨率人體姿態(tài)估計(jì)計(jì)算量大，嚴(yán)重阻礙了人體姿態(tài)估計(jì)的應(yīng)用。城市監(jiān)控多采用遠(yuǎn)距離拍攝，獲取的圖像分辨率都比較低，因此低分辨率人體姿態(tài)估計(jì)更具有研究和應(yīng)用價(jià)值。

人體姿態(tài)估計(jì)算法主要分三類：基于坐標(biāo)的人體姿態(tài)估計(jì)算法；基于熱圖的人體姿態(tài)估計(jì)算法；基于偏移的人體姿態(tài)估計(jì)算法?；谧鴺?biāo)的人體姿態(tài)估計(jì)算法是以人體 2D 圖像作為輸入并學(xué)習(xí)人體部位的歸一化坐標(biāo)，為了提升模型的性能，主要采用級聯(lián)網(wǎng)絡(luò)來改進(jìn)預(yù)測效果，為了提高低分辨率人體姿態(tài)估計(jì)的性能，研究還采用了監(jiān)督學(xué)習(xí)和對比學(xué)習(xí)的方法，強(qiáng)制讓特征和輸出保持一致性；基于坐標(biāo)的方法的人體姿態(tài)估計(jì)算法模型簡單，但是模型容易過擬合，基于熱圖的人體姿態(tài)估計(jì)算法剛好可以緩解過擬合。基于熱圖的人體姿態(tài)估計(jì)算法采用隱士人體結(jié)構(gòu)，且用高斯分布對關(guān)鍵點(diǎn)坐標(biāo)進(jìn)行編碼，不僅可以防止模型過擬合，而且可以增加容錯能力；但是它容易受到下采樣算子的影響，導(dǎo)致量化誤差增大?；谄茖W(xué)習(xí)的人體姿態(tài)估計(jì)算法將人體姿態(tài)估計(jì)分為部分檢測和偏移回歸任務(wù)，明顯減少了量化誤差。本文采用基于偏移學(xué)習(xí)的人體姿態(tài)估計(jì)算法在低分辨率數(shù)據(jù)集上減少了量化誤差，提升了準(zhǔn)去率。

1 算法

基于偏移學(xué)習(xí)的人體姿態(tài)估計(jì)算法是從關(guān)鍵點(diǎn)坐標(biāo)偏移場中提取偏移向量，再將偏移向量反饋到關(guān)鍵點(diǎn)坐標(biāo)，通過熱圖回歸和偏移回歸方法來進(jìn)行最終預(yù)測。訓(xùn)練時(shí)，激活區(qū)被定義為真實(shí)關(guān)鍵點(diǎn)的中心，通過激活每個像素來實(shí)現(xiàn)正確預(yù)測，也就是說，每個像素是平等的。測試時(shí)，首先用熱圖識別峰值位置，然后檢索偏移量生成輸出。假設(shè)偏移損失符合高斯混合模型，為了進(jìn)一步用掩碼來權(quán)衡滅國像素的偏移損失，將偏移學(xué)習(xí)和粗略預(yù)測相結(jié)合。

現(xiàn)有基于偏移學(xué)習(xí)的人體姿態(tài)估計(jì)多采用二進(jìn)制熱圖來表示身體關(guān)節(jié)的激活區(qū)域，活圈區(qū)域內(nèi)的置信度值都是 1，這樣無法學(xué)習(xí)發(fā)哦真實(shí)數(shù)據(jù)位置和空間的關(guān)系，反應(yīng)不了較近像素的置信度應(yīng)該大于較遠(yuǎn)像素置信度關(guān)系，因此本文采用高斯分別縮放二進(jìn)制熱圖，并將需要的置信度編碼：

2 實(shí)驗(yàn)

本實(shí)驗(yàn)是 COCO 數(shù)據(jù)集上完成的。COCO 數(shù)據(jù)集是用于圖像檢測、語義分割、人體姿態(tài)估計(jì)最常用的數(shù)據(jù)集，它包含 220 張有標(biāo)注的圖像（COCO 數(shù)據(jù)集超過 330 張圖像），150 萬個目標(biāo)，80 個行人、汽車、動物等目標(biāo)類別，91 種草、墻、天空等材料類別，并且每張圖片還包含 5 句圖像描述，最重要的是它包含 250000 個帶關(guān)鍵點(diǎn)標(biāo)注的行人。實(shí)驗(yàn)用平均精度（mean average precision，mAP）和平均召回率（average recall, AR）來作為評價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果如表 1。

從上表可以看出，本文算法在 COCO 數(shù)據(jù)集上的平均精度和平均召回率明顯優(yōu)于其它算法，說明本文提出的基于偏移學(xué)習(xí)的低分辨率人體姿態(tài)估計(jì)算法在低分辨率人體姿態(tài)估計(jì)上是有效的。

3 結(jié)語

本文提出的基于偏移學(xué)習(xí)的低分辨率人體姿態(tài)估計(jì)算法，在低分辨率人體姿態(tài)估計(jì)時(shí)，將人體姿態(tài)估計(jì)分為部分檢測和偏移回歸任務(wù)，明顯減少了量化誤差，提升了準(zhǔn)確率。

參考文獻(xiàn)：

[1] ZHANG Y, HASSAN M, NEUMANN H, et al. Generating 3d people in scenes without people[C].2020 IEEE Conference on Computer Vision and Pattern Recognition,2020:6193-6203.

[2] HUANG J, ZHU Z, GUO F, et al. Delving into unbiased data processing for human pose estimation[C].2020 IEEE Conference on Computer Vision and Pattern Recognition,2020:5700-5709.

[3] MA C, RAO Y, CHENG Y, et al. Structure-preserving super resolution with gradient guidance [C].2020 IEEE Conference on Computer Vision and Pattern Recognition,2020:7766-7775.

[4] FENG Z, XIATIAN Z, HANBIN D, et al. Distributionaware coordinate representation for human pose estimation[C]. 2020 IEEE Conference on Computer Vision and Pattern Recognition,2020:7091-7100.

[5] QIAN X, FU Y, XIANG T, et al. Pose normalized image generation for person re-identification[C].2018 European Conference on Computer Vision,2018:661-678.

[6] CHEN Y, WANG Z, PENG Y, et al. Cascaded pyramid network for multi-person pose estimation[C].2018 IEEE Conference on Computer Vision and Pattern Recognition,2018:7103-7112.

[7] SUN K, XIAO B, LIU D et al. Deep high-resolution representation learning for human pose estimation[C].2019 IEEE Conference on Computer Vision and Pattern Recognition,2019:5693-5703.

[8] XIAO B, WU H, WEI Y, et al. Simple baselines for human pose estimation and tracking[C].2018 European Conference on Computer Vision,2018:472-487.

(注：本文轉(zhuǎn)載自《電子產(chǎn)品世界》雜志2022年9月期)

新聞中心

基于偏移學(xué)習(xí)的低分辨率人體姿態(tài)估計(jì)*

評論

相關(guān)推薦

技術(shù)專區(qū)