博客專欄

EEPW首頁 > 博客 > 無需人臉檢測和關鍵點定位,F(xiàn)acebook等提出實時3D人臉姿態(tài)估計新方法

無需人臉檢測和關鍵點定位,F(xiàn)acebook等提出實時3D人臉姿態(tài)估計新方法

發(fā)布人:CV研究院 時間:2021-07-16 來源:工程師 發(fā)布文章

來自 Facebook AI 和美國圣母大學的研究者提出了一種 6 自由度的實時 3D 人臉姿態(tài)估計技術,可以不依賴人臉檢測和人臉關鍵點定位獨立運行。

人臉檢測是給照片中的每個人臉指定一個邊界框,人臉關鍵點檢測則需要定位特殊的人臉特征,如眼睛中心、鼻尖等?;诙叩膬刹阶叻椒ㄊ呛芏嗳四樛评砣蝿盏年P鍵所在,如 3D 重建。

這種方法的處理過程通??梢员硎鰹椋菏紫葓?zhí)行人臉檢測,然后在每個檢測到的人臉邊界框中執(zhí)行關鍵點檢測。接下來,將檢測到的關鍵點與參考 2D 圖像或 3D 模型上對應的理想位置進行匹配,然后使用標準方法求解對齊變換。因此,「人臉對齊」和「關鍵點檢測」這兩個術語有時可以互換使用。

這種方法應用起來非常成功,但計算成本很高,尤其是那些 SOTA 模型。而且,關鍵點檢測器通常針對由特定人臉檢測器生成的邊界框特性進行優(yōu)化,因此一旦人臉檢測器更新,關鍵點檢測器就需要重新進行優(yōu)化。最后,在下圖 1 所示的密集人臉圖像場景中,準確定位標準的 68 個人臉關鍵點會變得非常困難,進而加大了估計其姿態(tài)和人臉對齊的難度。

1.png

為了解決這些問題,來自 Facebook AI 和圣母大學的研究者提出了以下重要觀察結果:

首先,估計人臉的 6 自由度(6DoF)剛性變換比人臉關鍵點檢測要簡單。6DoF 指的是在人體在 3D 空間里的活動情況,在 3 自由度(上下俯仰、左右搖擺和滾動)的基礎上增加了前 / 后、上 / 下、左 / 右三種移動方式。這一觀察結果啟發(fā)了很多研究者,促使他們提出「跳過關鍵點檢測,直接進行姿態(tài)估計」的想法,但這些方法還是要為檢測到的人臉估計姿態(tài)。相比之下,F(xiàn)acebook AI 和圣母大學的研究者的目標是在不假設人臉已經(jīng)被檢測到的情況下估計姿態(tài)。

其次,6DoF 姿態(tài)標簽捕獲的不僅僅是邊界框位置信息。與一些研究者提出的 3DoF 姿態(tài)估計不同,6DoF 姿態(tài)可以轉換為一個 3D-to-2D 的投影矩陣。假設有一個已知的內在相機,姿態(tài)可以使 3D 人臉與它在照片中的位置一致。因此,姿態(tài)已經(jīng)捕捉了照片中人臉的位置。然而,雖然增加了兩個額外的標量(6D 姿態(tài) vs. 每個框的四個值),6DoF 姿態(tài)還可以提供人臉的 3D 位置和方向信息。最近,有些研究用上了這一觀察結果,通過提出邊界框和人臉關鍵點的多任務學習來提高檢測準確率。而本文的研究者則將兩者結合在單個目標中——直接 regress 6DoF 人臉姿態(tài)。

他們提出了一個易于訓練的新型實時 6DoF 3D 人臉姿態(tài)估計解決方案,可以跳過人臉檢測步驟,即使在非常擁擠的圖片中也不例外(如圖 1)。該方法在一個基于 Faster R-CNN 的框架中 regress 6DoF 姿態(tài)。

這項研究的創(chuàng)新之處在于,它真正擺脫了人臉對齊和關鍵點檢測。「我們觀察到,估計人臉的 6DoF 剛性變換比人臉目標點檢測要簡單。此外,6DoF 提供的信息要比人臉邊界框標簽豐富,」研究者解釋道。

新方法的 pipeline 可以描述為:給定一張包含多張人臉的圖像,首先估計每張人臉的 6DoF 姿態(tài)。由于 6DoF 人臉姿態(tài)可以轉換為一個外在相機矩陣,進而將 3D 人臉映射到 2D 圖像平面,因此預測得到的 3D 人臉姿態(tài)也可用于獲取準確的 2D 人臉邊界框。因此,人臉檢測將成為這個過程的副產(chǎn)品,計算開銷達到最小。

2.png

利用 6DoF 姿態(tài)估計替代人臉邊界框檢測之后,輸入圖像中所有的 3D 人臉形狀都可以得到對齊。而且,由于該姿態(tài)將具有已知幾何形狀的 3D 形狀與圖像中的面部區(qū)域對齊,因此我們可以根據(jù)大小和形狀調整生成的面部邊界框,匹配特定的研究需求。

研究者使用小而快的 ResNet-18 骨干網(wǎng)絡構建 img2pose 模型,并在 WIDER FACE 訓練集上進行訓練(該數(shù)據(jù)集包含弱監(jiān)督標簽和人工標注的真值姿態(tài)標簽)。他們在兩個領先的基準數(shù)據(jù)集( AFLW2000-3D 和 BIWI )上測試了 img2pose 的實時推斷能力,發(fā)現(xiàn)該模型在實時運行時性能超越當前最優(yōu)的人臉姿態(tài)估計器,還在關鍵點檢測方面超越了具備類似復雜度的模型,盡管新模型并沒有在邊界框標簽上進行優(yōu)化。

以下是論文中的一些實驗結果:

3.png4.png

論文鏈接:https://arxiv.org/pdf/2012.07791.pdf

項目鏈接:https://github.com/vitoralbiero/img2pos

*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: 深度學習

相關推薦

技術專區(qū)

關閉