博客專欄

EEPW首頁 > 博客 > 全身追蹤、不怕遮擋,CMU兩位華人做了個基于WiFi信號的DensePose

全身追蹤、不怕遮擋,CMU兩位華人做了個基于WiFi信號的DensePose

發(fā)布人:機器之心 時間:2023-01-17 來源:工程師 發(fā)布文章

用 WiFi 信號進行人體姿態(tài)估計并不新鮮,2018 年 MIT CSAIL 的研究者結(jié)合使用 WiFi 信號和深度學習,實現(xiàn)了隔墻人體姿態(tài)估計。近日,CMU 的研究者僅用 WiFi 信號搞定了遮擋、多人場景中的密集人體姿態(tài)估計。


過去幾年,在自動駕駛和 VR 等應(yīng)用的推動下,使用 2D 和 3D 傳感器(如 RGB 傳感器、LiDARs 或雷達)進行人體姿態(tài)估計取得了很大進展。但是,這些傳感器在技術(shù)上和實際使用中都存在一些限制。首先成本高,普通家庭或小企業(yè)往往承擔不起 LiDAR 和雷達傳感器的費用。其次,這些傳感器對于日常和家用而言太過耗電。
至于 RGB 相機,狹窄的視野和惡劣的照明條件會對基于相機的方法造成嚴重影響。遮擋成為阻礙基于相機的模型在圖像中生成合理姿態(tài)預測的另一個障礙。室內(nèi)場景尤其難搞,家具通常會擋住人。更重要的是,隱私問題阻礙了在非公共場所使用這些技術(shù),很多人不愿意在家中安裝攝像頭記錄自己的行為。但在醫(yī)療領(lǐng)域,出于安全、健康等原因,很多老年人有時不得不在攝像頭和其他傳感器的幫助下進行實時監(jiān)控。
近日,CMU 的三位研究者在論文《DensePose From WiFi》中提出,在某些情況下,WiFi 信號可以作為 RGB 圖像的替代來進行人體感知。照明和遮擋對用于室內(nèi)監(jiān)控的 WiFi 解決方案影響不大。WiFi 信號有助于保護個人隱私,所需的相關(guān)設(shè)備也能以合理的價格買到。關(guān)鍵的一點是,很多家庭都安裝了 WiFi,因此這項技術(shù)有可能擴展到監(jiān)控老年人的健康狀況或者識別家中的可疑行為。
圖片
論文地址:https://arxiv.org/pdf/2301.00250.pdf
研究者想要解決的問題如下圖 1 第一行所示。給定 3 個 WiFi ****和 3 個對應(yīng)的接收器,能否在多人的雜亂環(huán)境中檢測和復原密集人體姿態(tài)對應(yīng)關(guān)系(圖 1 第四行)?需要注意的是,很多 WiFi 路由器(如 TP-Link AC1750)都有 3 根天線,因此本文方法中只需要 2 個這樣的路由器。每個路由器的價格大約是 30 美元,意味著整個設(shè)置依然比 LiDAR 和雷達系統(tǒng)便宜得多。
為了實現(xiàn)如圖 1 第四行的效果,研究者從計算機視覺的深度學習架構(gòu)中獲得靈感,提出了一種可以基于 WiFi 執(zhí)行密集姿態(tài)估計的神經(jīng)網(wǎng)絡(luò)架構(gòu),并實現(xiàn)了在有遮擋和多人的場景中僅利用 WiFi 信號來估計密集姿態(tài)。
圖片
下圖左為基于圖像的 DensePose,圖右為基于 WiFi 的 DensePose。
圖片圖源:推特 @AiBreakfast
另外,值得一提的是,論文一二作均為華人。論文一作 Jiaqi Geng 在去年 8 月取得了 CMU 機器人專業(yè)碩士學位,二作 Dong Huang 現(xiàn)為 CMU 高級項目科學家。
方法介紹
想要利用 WiFi 生成人體表面的 UV 坐標需要三個組件:首先通過振幅和相位步驟對原始 CSI( Channel-state-information,表示****信號波與接收信號波之間的比值 )信號進行清理處理;然后,將處理過的 CSI 樣本通過雙分支編碼器 - ****網(wǎng)絡(luò)轉(zhuǎn)換為 2D 特征圖;接著將 2D 特征圖饋送到一個叫做 DensePose-RCNN 架構(gòu)中(主要是把 2D 圖像轉(zhuǎn)換為 3D 人體模型),以估計 UV 圖。
原始 CSI 樣本帶有噪聲(見圖 3 (b)),不僅如此,大多數(shù)基于 WiFi 的解決方案都忽略了 CSI 信號相位,而專注于信號的幅度(見圖 3 (a))。然而丟棄相位信息會對模型性能產(chǎn)生負面影響。因此,該研究執(zhí)行清理(sanitization)處理以獲得穩(wěn)定的相位值,從而更好的利用 CSI 信息。
圖片
為了從一維 CSI 信號中估計出空間域中的 UV 映射,首先需要將網(wǎng)絡(luò)輸入從 CSI 域轉(zhuǎn)換到空間域。本文采用 Modality Translation Network 完成(如圖 4)。經(jīng)過一番操作,就可以得到由 WiFi 信號生成的圖像域中的 3×720×1280 場景表示。
圖片
在圖像域中獲得 3×720×1280 場景表示后,該研究采用類似于 DensePose-RCNN 的網(wǎng)絡(luò)架構(gòu) WiFi-DensePose RCNN 來預測人體 UV 圖。具體而言,在 WiFi-DensePose RCNN(圖 5)中,該研究使用 ResNet-FPN 作為主干,并從獲得的 3 × 720 × 1280 圖像特征圖中提取空間特征。然后將輸出輸送到區(qū)域提議網(wǎng)絡(luò)。為了更好地利用不同來源的互補信息,WiFi-DensePose RCNN 還包含兩個分支,DensePose head 和 Keypoint head,之后處理結(jié)果被合并輸入到 refinement 單元。
圖片
然而從隨機初始化訓練 Modality Translation Network 和 WiFi-DensePose RCNN 網(wǎng)絡(luò)需要大量時間(大約 80 小時)。為了提高訓練效率,該研究將一個基于圖像的 DensPose 網(wǎng)絡(luò)遷移到基于 WiFi 的網(wǎng)絡(luò)中(詳見圖 6)。
圖片

直接初始化基于 WiFi 的網(wǎng)絡(luò)與基于圖像的網(wǎng)絡(luò)權(quán)重無法工作,因此,該研究首先訓練了一個基于圖像的 DensePose-RCNN 模型作為教師網(wǎng)絡(luò),學生網(wǎng)絡(luò)由 modality translation 網(wǎng)絡(luò)和 WiFi-DensePose RCNN 組成。這樣做的目的是最小化學生模型與教師模型生成的多層特征圖之間的差異。
實驗
表 1 結(jié)果顯示,基于 WiFi 的方法得到了很高的 AP@50 值,為 87.2,這表明該模型可以有效地檢測出人體 bounding boxes 的大致位置。AP@75 相對較低,值為 35.6,這表明人體細節(jié)沒有得到完美估計。
圖片
表 2 結(jié)果顯示 dpAP?GPS@50 和 dpAP?GPSm@50 值較高,但 dpAP?GPS@75 和 dpAP?GPSm@75 值較低。這表明本文模型在估計人體軀干的姿勢方面表現(xiàn)良好,但在檢測四肢等細節(jié)方面仍然存在困難。
圖片
表 3 和表 4 的定量結(jié)果顯示,基于圖像的方法比基于 WiFi 的方法產(chǎn)生了非常高的 AP?;?WiFi 的模型 AP-m 值與 AP-l 值的差異相對較小。該研究認為這是因為離相機遠的人在圖像中占據(jù)的空間更少,這導致關(guān)于這些對象的信息更少。相反,WiFi 信號包含了整個場景中的所有信息,而不管拍攝對象的位置。
圖片


圖片


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉