新聞中心

EEPW首頁 > 消費(fèi)電子 > 設(shè)計(jì)應(yīng)用 > 3D手勢(shì)識(shí)別背后的技術(shù)

3D手勢(shì)識(shí)別背后的技術(shù)

作者: 時(shí)間:2016-10-15 來源:網(wǎng)絡(luò) 收藏

隨著觸摸屏技術(shù)的不斷推廣,用戶已經(jīng)適應(yīng)并逐漸熟悉了與機(jī)器的互動(dòng)。現(xiàn)在,人機(jī)互動(dòng)技術(shù)已邁上了更高的臺(tái)階,進(jìn)入了時(shí)代,不過這也并不是一帆風(fēng)順的。現(xiàn)已在娛樂及游戲市場(chǎng)出現(xiàn),然而這種技術(shù)將對(duì)我們的日常生活產(chǎn)生怎樣的影響呢?不妨假想一下,有人坐在沙發(fā)上,只需一揮手就能操控?zé)艄夂碗娨暎蛘咂囎詣?dòng)檢測(cè)附近是否有行人。隨著技術(shù)支持人機(jī)互動(dòng)的不斷深入發(fā)展,這些及其它功能將很快得以實(shí)現(xiàn)。手勢(shì)識(shí)別技術(shù)長(zhǎng)期以來一直采用 2D 視覺進(jìn)行研究,但隨著 3D 傳感器技術(shù)的出現(xiàn),其應(yīng)用將日益廣泛并多樣化。

本文引用地址:http://butianyuan.cn/article/201610/307147.htm

2D視覺的局限

計(jì)算機(jī)視覺技術(shù)一直在努力向堪比人類智慧的智能方向發(fā)展,以更好地了解場(chǎng)景。如果不能解釋周圍的世界,計(jì)算機(jī)就無法與人實(shí)現(xiàn)自然交流對(duì)接。計(jì)算機(jī)在了解周圍場(chǎng)景方面面臨的主要問題包括細(xì)分、對(duì)象表征、機(jī)器學(xué)習(xí)與識(shí)別等。由于 2D 場(chǎng)景表征本身存在局限性,手勢(shì)識(shí)別系統(tǒng)必須應(yīng)用其它各種提示信息才能得到包含更有用信息的更好結(jié)果。在可能性信息包含整個(gè)身體跟蹤時(shí),盡管將多種提示信息整合在一起,單靠 2D 表征也很難獲得超越手勢(shì)識(shí)別的任何信息。

z”(深度)創(chuàng)新

向 3D 視覺及手勢(shì)識(shí)別發(fā)展過程中的挑戰(zhàn)一直都是第三坐標(biāo) —z 軸坐標(biāo)的獲取。人眼能看到 3D 對(duì)象,能自然識(shí)別 (x,y,z) 坐標(biāo)軸,從而能夠看到一切事物,而后大腦能夠以 3D 影像的形式表達(dá)這些坐標(biāo)軸。機(jī)器無法獲得 3D 視覺的一大挑戰(zhàn)就在于影像分析技術(shù)。目前有 3 種應(yīng)對(duì) 3D 采集問題的常見解決方案,每種方案都有其獨(dú)特的功能與特定的用途。這三種方案分別為:立體視覺、結(jié)構(gòu)光模式以及渡越時(shí)間 (TOF)。有了這些技術(shù)提供的 3D 影像輸出,就可實(shí)現(xiàn)手勢(shì)識(shí)別技術(shù)。

立體視覺

立體視覺系統(tǒng)可能是最為人所熟知的 3D 采集系統(tǒng)。該系統(tǒng)使用 2 個(gè)攝像機(jī)獲得左右立體影像,該影像有些輕微偏移,與人眼同序。計(jì)算機(jī)通過比較這兩個(gè)影像,就可獲得對(duì)應(yīng)于影像中物體位移的不同影像。該不同影像或地圖可以是彩色的,也可以為灰階,具體取決于特定系統(tǒng)的需求。立體視覺系統(tǒng)目前通常用于 3D 電影,能帶來低成本而又震撼人心的娛樂體驗(yàn)。

結(jié)構(gòu)光模式

結(jié)構(gòu)光模式可用來測(cè)量或掃描 3D 對(duì)象。在該類系統(tǒng)中,可在整個(gè)對(duì)象上照射結(jié)構(gòu)光模式,光模式可使用激光照明干擾創(chuàng)建,也可使用投影影像創(chuàng)建。使用類似于立體視覺系統(tǒng)的攝像機(jī),有助于結(jié)構(gòu)光模式系統(tǒng)獲得對(duì)象的 3D 坐標(biāo)。此外,單個(gè) 2D 攝像機(jī)系統(tǒng)也可用來測(cè)量任何單條的移位,然后通過軟件分析獲得坐標(biāo)。無論使用什么系統(tǒng),都可使用坐標(biāo)來創(chuàng)建對(duì)象外形的數(shù)字 3D 圖形。

3D手勢(shì)識(shí)別背后的技術(shù)

渡越時(shí)間 (TOF)

渡越時(shí)間 (TOF) 傳感器是一種相對(duì)較新的深度信息系統(tǒng)。TOF 系統(tǒng)是一種光雷達(dá) (LIDAR) 系統(tǒng),同樣可從發(fā)射極向?qū)ο蟀l(fā)射光脈沖。接收器則可通過計(jì)算光脈沖從發(fā)射器到對(duì)象,再以像素格式返回到接收器的運(yùn)行時(shí)間來確定被測(cè)量對(duì)象的距離。

TOF 系統(tǒng)不是掃描儀,因?yàn)槠洳恢С贮c(diǎn)對(duì)點(diǎn)測(cè)量。TOF 系統(tǒng)可同時(shí)獲得整個(gè)場(chǎng)景,確定 3D 范圍影像。利用測(cè)量得到的對(duì)象坐標(biāo)可創(chuàng)建 3D 影像,并可用于機(jī)器人、制造、醫(yī)療技術(shù)以及數(shù)碼攝影等領(lǐng)域的設(shè)備控制。

實(shí)施 TOF 系統(tǒng)所需的半導(dǎo)體器件現(xiàn)已開始供貨。目前的器件支持實(shí)現(xiàn) TOF 系統(tǒng)所需的處理性能、速度與帶寬。

3D 視覺技術(shù)的比較

不同的應(yīng)用或市場(chǎng)適用于不同的 3D 視覺技術(shù)。圖 1 顯示了不同 3D 視覺技術(shù)的比較及其相關(guān)響應(yīng)時(shí)間、軟件復(fù)雜性、成本及準(zhǔn)確性的相對(duì)優(yōu)缺點(diǎn)。

立體視覺技術(shù)需要極高的軟件復(fù)雜性才能獲得高精度 3D 深度數(shù)據(jù),其通??赏ㄟ^數(shù)字信號(hào)處理器 (DSP) 或多內(nèi)核標(biāo)量處理器進(jìn)行處理。立體視覺系統(tǒng)支持小巧的外形與低成本,是移動(dòng)電話等消費(fèi)類設(shè)備的良好選擇。不過,立體視覺系統(tǒng)的精確度與響應(yīng)時(shí)間不及其它技術(shù),因此對(duì)于制造質(zhì)量控制系統(tǒng)等要求高精度的系統(tǒng)來說不太理想。

結(jié)構(gòu)光技術(shù)是包括 3D 計(jì)算機(jī)輔助設(shè)計(jì) (CAD) 系統(tǒng)在內(nèi)的 3D 對(duì)象掃描的良好解決方案。這些系統(tǒng)的相關(guān)軟件復(fù)雜性可通過硬接線邏輯解決(如 ASIC 與 FPGA 等),其需要高昂的開發(fā)及材料成本。此外,該計(jì)算復(fù)雜性還可導(dǎo)致較慢的響應(yīng)時(shí)間。在實(shí)現(xiàn)微觀層面上的高精度方面,結(jié)構(gòu)光模式技術(shù)優(yōu)于其它 3D 視覺技術(shù)。

TOF 系統(tǒng)取得了性能與成本的平衡,非常適用于需要快速響應(yīng)時(shí)間的制造與消費(fèi)類電子設(shè)備等應(yīng)用領(lǐng)域的設(shè)備控制。TOF 系統(tǒng)軟件復(fù)雜程度通常較低,不過這些系統(tǒng)需要昂貴的照明部件(LED、激光二極管)以及高速接口相關(guān)部件(快速 ADC、快速串行/并行接口、快速 PWM 驅(qū)動(dòng)器),這將提升材料成本。圖 1 顯示了這三種 3D 傳感器技術(shù)的對(duì)比情況。

“z”(深度)如何影響人機(jī)界面

隨著“z”坐標(biāo)的加入,顯示與影像更接近自然,更貼近人類。人們?cè)陲@示屏上能看到人眼從周邊環(huán)境所看到的逼真事物。增加這第三維坐標(biāo)改變了可使用的顯示與應(yīng)用類型。

顯示

立體顯示屏

立體顯示屏通常需要用戶佩戴 3D 眼鏡。這種顯示屏為左右眼提供不同的影像,兩眼看到的影像不同,讓大腦誤以為看到了 3D 影像。這種顯示屏目前廣泛用于眾多 3D 電視與 3D 電影院。

多視點(diǎn)顯示屏

多視點(diǎn)顯視屏不同于立體顯示屏,無需佩戴特殊眼鏡。這些顯示屏可同時(shí)投射多個(gè)影像,每個(gè)影像稍微有些位移,形成適當(dāng)?shù)慕嵌龋層脩艨稍诿總€(gè)視點(diǎn)角度看到相同對(duì)象的不同投射影像。這些顯示屏支持全息攝影效果,在不久的將來將實(shí)現(xiàn)全新的 3D 體驗(yàn)。

檢測(cè)與應(yīng)用

處理并顯示“z”坐標(biāo)的功能將實(shí)現(xiàn)全新的應(yīng)用,其中包括游戲、制造控制、安全、互動(dòng)數(shù)字標(biāo)牌、遠(yuǎn)程醫(yī)療、汽車以及機(jī)器人視覺等。圖 2 是身體骨架與深度映射傳感技術(shù)所支持的某些應(yīng)用領(lǐng)域視圖。

人類手勢(shì)識(shí)別(消費(fèi)類)

人類手勢(shì)識(shí)別是一項(xiàng)深受歡迎的新技術(shù),可為游戲、消費(fèi)類以及移動(dòng)產(chǎn)品帶來新的輸入方式。用戶能夠以極其自然、直觀的方法與設(shè)備進(jìn)行互動(dòng),從而可促進(jìn)產(chǎn)品推廣。這些人類手勢(shì)識(shí)別產(chǎn)品包括從 160 x 120 像素到 640 x 480 像素,30 到 60 fps 的各種分辨率的 3D 數(shù)據(jù)。原始數(shù)據(jù)到z深度解析、雙手跟蹤以及全身跟蹤等軟件模塊需要數(shù)字信號(hào)處理器 (DSP) 對(duì) 3D 數(shù)據(jù)進(jìn)行高效快速處理,才能實(shí)現(xiàn)實(shí)時(shí)游戲與跟蹤。

工業(yè)

工業(yè)與制造傳感器等大多數(shù) 3D 視覺工業(yè)應(yīng)用都采用至少 1 像素至數(shù) 100k 像素的影像系統(tǒng)。3D 影像可使用 DSP 技術(shù)進(jìn)行控制分析,確定制造瑕疵或者從部件集中選擇正確的部件。

互動(dòng)數(shù)字標(biāo)牌(精確定位的市場(chǎng)營(yíng)銷工具)

每天我們都在遭受廣告的轟炸,無論是看電視、開車還是在機(jī)場(chǎng)登機(jī)都是如此。有了互動(dòng)數(shù)字標(biāo)牌,企業(yè)就可通過精確定位的市場(chǎng)營(yíng)銷工具提供適合每位消費(fèi)者的內(nèi)容。例如,有人走過一個(gè)數(shù)字標(biāo)牌,標(biāo)牌上可能就會(huì)馬上顯示額外的消息確認(rèn)該客戶。如果客戶停下來閱讀信息,該標(biāo)牌可能會(huì)理解為客戶對(duì)產(chǎn)品感興趣,并提供更有針對(duì)性的消息。麥克風(fēng)則將讓廣告牌檢測(cè)并識(shí)別關(guān)鍵短語,進(jìn)一步精確定位所提供的消息。

這些互動(dòng)數(shù)字標(biāo)牌系統(tǒng)將需要 3D 傳感器進(jìn)行全面的身體跟蹤,2D 傳感器進(jìn)行面部識(shí)別,并需要麥克風(fēng)進(jìn)行語音識(shí)別。這些系統(tǒng)的軟件將運(yùn)行在更高級(jí)的 DSP 及通用處理器 (GPP) 上,不但可實(shí)現(xiàn)面部識(shí)別、全面的身體跟蹤以及 Flash 媒體播放器等應(yīng)用,而且還可提供諸如 MPEG4 視頻解碼等功能。

醫(yī)療(無故障虛擬/遠(yuǎn)程護(hù)理)

3D 視覺將為醫(yī)療領(lǐng)域帶來前所未有的全新應(yīng)用。醫(yī)生無需跟患者共處一室就可問診。遠(yuǎn)程虛擬護(hù)理采用高精度 3D 傳感器支持的醫(yī)學(xué)機(jī)器人視覺系統(tǒng),可確保為每一位患者提供最優(yōu)質(zhì)的醫(yī)療護(hù)理,無論他們身處何方。

汽車(安全)

近期,汽車應(yīng)用在交通信號(hào)、車道以及障礙檢測(cè)方面使用 2D 傳感器技術(shù)取得了長(zhǎng)足發(fā)展。隨著 3D 傳感技術(shù)的到來,3D 傳感器的“z”數(shù)據(jù)將大幅提升場(chǎng)景分析的可靠性。汽車通過使用 3D 視覺系統(tǒng),現(xiàn)已有了預(yù)防事故的新途徑,無論白天還是夜間都非常適用。采用 3D 傳感器,車輛能可靠檢測(cè)并解讀周邊環(huán)境,確定對(duì)象是否對(duì)車輛及車內(nèi)乘客構(gòu)成安全威脅。這些系統(tǒng)要求軟硬件支持 3D 視覺系統(tǒng),并需要密集型 DSP 及 GPP 處理性能在極短時(shí)間內(nèi)解讀 3D 圖形,避免事故。

視頻會(huì)議

視覺會(huì)議技術(shù)經(jīng)過多年發(fā)展,已經(jīng)從間斷脫節(jié)傳輸影像發(fā)展成當(dāng)前的高清系統(tǒng)。未來增強(qiáng)型視頻會(huì)議將充分發(fā)揮 3D 傳感器的優(yōu)勢(shì),提供更真實(shí)、更具互動(dòng)性的視頻會(huì)議體驗(yàn)。該增強(qiáng)型視頻會(huì)議系統(tǒng)具有集成型 2D 傳感器以及 3D 傳感器及麥克風(fēng)組合,將能夠與其它增強(qiáng)型系統(tǒng)連接,實(shí)現(xiàn)高質(zhì)量的視頻處理、面部識(shí)別、3D 影像、噪聲消除以及內(nèi)容播放器(Flash 等)等應(yīng)用。隨著這種密集型音視頻處理需求的出現(xiàn),需要具備最佳性能及外設(shè)組合的 DSP。

3D手勢(shì)識(shí)別背后的技術(shù)

技術(shù)處理步驟

對(duì)許多應(yīng)用而言,需要同時(shí)具備 2D 和 3D 攝像機(jī)系統(tǒng)才能充分實(shí)現(xiàn)應(yīng)用技術(shù)。圖 3 顯示了這些系統(tǒng)的基本數(shù)據(jù)路徑。從傳感器獲取數(shù)據(jù),然后進(jìn)行視覺分析,這并不像數(shù)據(jù)路徑示意圖看上去那么簡(jiǎn)單。具體而言,TOF 傳感器需要的帶寬相當(dāng)于 2D 傳感器的 16 倍之多,這可導(dǎo)致高輸入/輸出 (I/O) 問題。另一個(gè)瓶頸則存在于原始 3D 數(shù)據(jù)向 3D 點(diǎn)云轉(zhuǎn)換的處理過程中。通過正確的軟硬件組合解決這些問題,對(duì)于手勢(shì)識(shí)別及 3D 的成功應(yīng)用至關(guān)重要。當(dāng)前數(shù)據(jù)路徑可通過DSP/GPP 處理器組合加上分立式模擬組件及軟件庫(kù)實(shí)現(xiàn)。

3D 視覺嵌入式系統(tǒng)的挑戰(zhàn)

輸入挑戰(zhàn)

如前所述,輸入帶寬限制對(duì) 3D 視覺嵌入式系統(tǒng)提出了極大的挑戰(zhàn)。此外,輸入接口也沒有標(biāo)準(zhǔn)化。設(shè)計(jì)人員可為 2D 傳感器與通用外部存儲(chǔ)器接口選擇采用不同的輸入選項(xiàng),其中包括串行與并行接口。在支持最佳帶寬的標(biāo)準(zhǔn)輸入接口出現(xiàn)之前,設(shè)計(jì)人員只能使用現(xiàn)有的接口。

兩種不同的處理器架構(gòu)

圖 3 所示的 3D 深度映射處理可分為兩類:一是以數(shù)據(jù)為中心的視覺專用處理,二是應(yīng)用上層處理。以數(shù)據(jù)為中心的視覺專用處理需要處理器架構(gòu)能夠執(zhí)行單指令多數(shù)據(jù) (SIMD) 快速浮點(diǎn)乘法及加法運(yùn)算,以及快速搜索算法。DSP 是快速可靠執(zhí)行這種處理功能的完美選擇。對(duì)于應(yīng)用上層處理而言,高級(jí)操作系統(tǒng) (OS) 及協(xié)議棧則可提供任何應(yīng)用上層所需的必要特性集。

根據(jù)兩種處理器架構(gòu)要求,提供高數(shù)據(jù)速率 I/O GPP+DSP+SIMD 處理器的片上系統(tǒng) (SoC) 非常適合 3D 視覺處理,其可支持必要的數(shù)據(jù)及應(yīng)用上層處理。

缺乏標(biāo)準(zhǔn)中間件

3D 視覺處理領(lǐng)域的中間件是多種來源的眾多不同組件的整合,包括開源(如 OpenCV)與專有商業(yè)源等。商業(yè)庫(kù)主要針對(duì)身體跟蹤應(yīng)用,這是一種特定的 3D 視覺應(yīng)用。目前尚未開發(fā)出針對(duì)所有不同 3D 視覺應(yīng)用標(biāo)準(zhǔn)化的中間件接口。

“z”(深度)之后會(huì)有什么精彩?

沒有人質(zhì)疑 3D 視覺的誘人因素。工程師早已在期待未來的應(yīng)用發(fā)展。那么不久的將來會(huì)出現(xiàn)哪些最新技術(shù)?研究人員已經(jīng)在開發(fā)針對(duì)人和對(duì)象的各種視覺技術(shù)了。全球研究人員正在使用多路徑光分析技術(shù),探索實(shí)現(xiàn)轉(zhuǎn)角視覺或繞開對(duì)象的視覺途徑。透明研究將帶來可透視對(duì)象和材料的系統(tǒng),而運(yùn)動(dòng)檢測(cè)系統(tǒng)則將帶來查看人類大腦內(nèi)部的應(yīng)用,從而可檢驗(yàn)一個(gè)人是否在撒謊。

3D 視覺與手勢(shì)識(shí)別技術(shù)的發(fā)展會(huì)帶來無盡的可能性。不過,如果沒有支持這些振奮人心的新技術(shù)所必須的硬件及中間件,該研究將沒有任務(wù)意義。提供 GPP+DSP+SIMD(通用處理器+數(shù)字信號(hào)處理器+單指令多數(shù)據(jù)流)架構(gòu)的 SoC(系統(tǒng)芯片)不斷發(fā)展,將提供處理性能、外設(shè)支持以及必要帶寬的完美組合,從而可實(shí)現(xiàn)這種振奮人心的技術(shù)與應(yīng)用。



關(guān)鍵詞: 手勢(shì)識(shí)別

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉