博客專欄

EEPW首頁 > 博客 > 不用雙手就能打字的黑科技——視覺追蹤技術(shù)

不用雙手就能打字的黑科技——視覺追蹤技術(shù)

發(fā)布人:傳感器技術(shù) 時間:2024-02-02 來源:工程師 發(fā)布文章

著名科學(xué)家霍金教授生前因患有肌肉萎縮疾病,幾乎完全癱瘓,既不能通過雙手,也不能通過語言與外界溝通。因特爾研究院的技術(shù)專家經(jīng)過長期努力,研發(fā)出一款環(huán)境感知輔助系統(tǒng),最終有效改善了這位科學(xué)天才與世界的溝通方式?;艚鹗褂玫闹悄茌斎敕ǎ淅锩婢秃醒矍蜃粉櫼约懊娌考∪庾R別等技術(shù),正是由于這項的技術(shù)的實現(xiàn),讓霍金打字或者演講的效率提高了好幾倍。


圖片


視覺追蹤技術(shù)也稱為眼動追蹤技術(shù),就是追蹤眼睛的運動。準(zhǔn)確來講就是通過圖像處理技術(shù),定位瞳孔位置,獲取瞳孔中心坐標(biāo),并通過某種方法,計算人的注視點,讓電腦知道你正在看什么。 

 

眼睛是心靈的窗口,透過這個窗口我們可以探究人的許多心理活動的規(guī)律。人類的信息加工在很大程度上依賴于視覺,來自外界的信息約有 80 %~ 90 %是通過人的眼睛獲得的。因此對于 "人是如何看事物" 的科學(xué)研究一直沒有間斷過。關(guān)于這一點,對于眼球運動 ( 以下稱眼動 ) 的研究 被認(rèn)為是視覺信息加工研究中最有效的手段。


圖片


眼動追蹤技術(shù)屬于機器視覺的一種技術(shù),通過對眼動軌跡的記錄從中提取諸如注視點,注視時間和次數(shù),眼跳距離,瞳孔大小等數(shù)據(jù),從而研究個體的內(nèi)在認(rèn)知過程。它利用軟件算法、機械、電子、光學(xué)等各種檢測手段獲取受試者當(dāng)前視覺注意方向的技術(shù),通過圖像傳感器來捕捉到眼球的圖像,根據(jù)圖像的處理來識別每個人的眼球瞳孔里的特征,通過這些特征實時地反算出看屏幕的注視點。


眼動追蹤技術(shù)的歷史



早在19世紀(jì)就有人通過考察人的眼球運動來研究人的心理活動,通過分析記錄到的眼動數(shù)據(jù)來探討眼動與人的心理活動的關(guān)系。眼動儀的問世為心理學(xué)家利用眼動技術(shù)探索人在各種不同條件下的視覺信息加工機制,觀察其與心理活動直接或間接奇妙而有趣的關(guān)系,提供了新的有效工具。

 

眼動技術(shù)先后經(jīng)歷了觀察法,后像法,機械記錄法,光學(xué)記錄法,影像記錄法等多種方法的演變。眼動技術(shù)就是通過對眼動軌跡的記錄從中提取諸如注視點,注視時間和次數(shù),眼跳距離,瞳孔大小等數(shù)據(jù),從而研究個體的內(nèi)在認(rèn)知過程。

 

20世紀(jì)60年代以來,隨著攝像技術(shù),紅外技術(shù)和微電子技術(shù)的飛速發(fā)展,特別是計算機技術(shù)的運用,推動了高精度眼動儀的研發(fā),極大地促進了眼動研究在國際心理學(xué)及相關(guān)學(xué)科中的應(yīng)用。


眼動追蹤技術(shù)的發(fā)展



眼動追蹤技術(shù)經(jīng)歷了從干擾式到非干擾式的發(fā)展過程。

 

干擾式眼動追蹤技術(shù)

 

干擾式眼動追蹤技術(shù)主要分為觀察法、機械記錄法、電流記錄法和一電磁感應(yīng)法等。它是在計算機處理能力比較低下的時代產(chǎn)生的。

 

觀察法是通過人眼利用比較簡單的記錄設(shè)備直接觀察受試者眼睛運動情況的方法。觀察法裝置簡單,操作方便,但是由于是通過人眼進行觀察,所以實驗結(jié)果準(zhǔn)確性很低。

 

機械記錄法是指通過機械裝置將人眼和記錄設(shè)備連接起來從而完成對眼睛運動的跟蹤。機械記錄法裝置比較復(fù)雜,操作很不方便,準(zhǔn)確性低,而且對受試者的干擾比較大。

 

電流記錄法的原理是基于眼球運動時角膜和視網(wǎng)膜之間存在的電位差。通過向在眼睛附近皮膚放置的裝置導(dǎo)入電流,記錄眼球運動引起的電流變化。眼睛的運動情況可以通過電流計或者示波器顯示、電流記錄法在當(dāng)時的視線跟蹤技術(shù)中精度比較高,但是與機械記錄法一幾樣,電流記錄法對受試者的影響比較大。

 

接觸鏡法是在眼睛上吸附一個專用線圈的****鏡片,根據(jù)眼睛運動產(chǎn)生的感應(yīng)電壓,測量眼睛的運動。接觸鏡法精度在干擾式眼動儀中最高,但是需要麻醉人的眼睛,將實驗用的設(shè)備吸附在眼球上,所以這種方法對受試者眼睛的影響最大,有一定的生理傷害。

 

非干擾式眼動追蹤技術(shù)

 

非干擾式眼動技術(shù)主要采用的追蹤方法主要有角膜反射法、鞏膜一虹膜邊緣法、瞳孔一角膜反射向量法等。


圖片


角膜反射法

 

角膜反射光就是角膜反射照射在其表面上的光線。光線在經(jīng)過角膜反射后會形成一個亮點,即角膜反射光斑。在人眼中,角膜凸出于眼球表面,因此當(dāng)人眼運動時,光線從各個角度射到角膜,得到不同方向的反射光,角膜反射光斑的位置也就隨之在角膜上改變,利用眼攝像機拍攝眼睛運動的圖像,記錄角膜****光斑位置的改變,利用圖像處理技術(shù)實時的得到虛像位置,完成視線的跟蹤。這種方法主要用于眼動力學(xué)和注視點標(biāo)定方面,但是頭部誤差較大。

 

鞏膜一虹膜邊緣法

 

此方法首先利用紅外光照射人眼,在眼睛附近安裝的兩只紅外光敏管用來接收鞏膜和虹膜邊緣處兩部分反射的紅外光。接收到的紅外光會隨著眼睛的運動而變化,當(dāng)眼球向一側(cè)運動時,虹膜就轉(zhuǎn)向這邊,這一側(cè)的光敏管所接受的紅外線就會減少;而另一側(cè)的鞏膜反射部分增加,導(dǎo)致這邊的光敏管所接受的紅外線增加。利用這個差分信號就能無接觸的測出眼動。這種方法應(yīng)用于眼動力學(xué)、注視點標(biāo)定方面,它的水平精度較高,垂直精度較低、干擾大、頭部誤差大。

 

瞳孔一角膜反射向量法

 

首先利用眼攝像機拍攝眼睛圖像,接著通過圖像處理得到瞳孔中心位置。然后把角膜反射點作為眼攝像機和眼球的相對位置的基點,根據(jù)圖像處理得到的瞳孔中心即可以得到視線向量坐標(biāo),從而確定人眼注視點。這種方法基本上應(yīng)用于注視點標(biāo)定方面,精度較高,干擾也比較小,頭部誤差也較小,這個方法也是現(xiàn)在眼動追蹤技術(shù)中使用最廣泛的方法。


基于數(shù)字視頻并結(jié)合瞳孔/角膜反射的眼動測量法



由于計算機處理器速度的增加和計算機視覺技術(shù)的改進,眼動跟蹤制造商已經(jīng)開發(fā)出了第四代設(shè)備。


通常情況下,最理想的眼動跟蹤輸出類型(例如,人機交互可用性研究)是對觀察者注視點投影的估計,即用戶視線在計算機顯示器上的(x,y)坐標(biāo)。第一代和第二代眼動儀一般不提供這種類型的數(shù)據(jù)。(對于第二代系統(tǒng),眼動分析依賴于人對圖像或視頻幀離線的、一幀一幀地肉眼觀察,因此,很難輕易地完成POR的計算)。


基于視頻瞳孔/角膜反射原理實現(xiàn)的眼動儀在經(jīng)過標(biāo)定之后,很容易提供POR坐標(biāo),這已成為當(dāng)代眼動儀基本功能。由于快速模擬數(shù)字視頻處理器的使用,第三代眼跟蹤儀能夠提供實時完成POR計算。

 

近年上市的第四代眼動追蹤設(shè)備使用了數(shù)字光學(xué)器件,由于使用了集成的數(shù)字信號處理器(DSPs),眼動跟蹤技術(shù)在降低成本的同時,其易用性、精確性和處理速度獲得了顯著地提高。


圖片


基于瞳孔角膜向量反射技術(shù)基于3D眼球模型的視覺跟蹤,實時追蹤用戶的視線;當(dāng)用戶坐在電腦前盯著屏幕時,系統(tǒng)應(yīng)能實時檢測出用戶正在凝視著屏幕上的哪一點,從而可判斷出用戶當(dāng)前的興趣或目的。

 

瞳孔角膜反射技術(shù) (PCCR)

 

首先,通過一些校準(zhǔn)程序,找出瞳孔與耀點組成的向量與屏幕注視點之間的映射函數(shù),然后通過檢測瞳孔耀點向量的變化量,實時跟蹤出人在屏幕中所凝視的興趣點。遺憾的是這個映射函數(shù)對于頭的位置是非常敏感的,如果在觀測期間頭的位置發(fā)生大的變化,精度就會急劇下降。不過,可以采用一種頭部動態(tài)補償模型,通過兩個相機對頭部的三維定位,然后采用算法實時更新這個映射函數(shù),這樣就能保證在頭部自由移動的情況下仍能達到較好的跟蹤效果。

 

3d視覺跟蹤系統(tǒng)

 

首先將眼睛看成一個眼球模型,通過相機拍攝獲得的眼睛圖像中的瞳孔和耀點信息重構(gòu)出人的視線軸(即人所注視的方向),然后用此軸與3D屏幕相交,得到正在關(guān)注的注視點。


由于這個視線軸的方向與頭部的位置變化是相對獨立的,因而能很好的解決2D模型中頭部位置不能變化的限制,保證了在自由頭動的情況下仍能達到很好的跟蹤精度。

 

使用瞳孔和角膜反光圖像來估計視線的方向是常用的比較精確的方法 ,在已經(jīng)開發(fā)出的視線跟蹤儀原型或者商品中很常見。使用合適的標(biāo)定程序 ,這些眼睛跟蹤器可以測量空間中一定


位置處三維表面上的觀察著的“注意點”。目前 ,研究的方向集中于精確的、魯棒的檢測和方便容易的標(biāo)定。

 

眼動追蹤技術(shù)的主要模塊


 

校準(zhǔn)模塊

 

由于視網(wǎng)膜中心不完全在眼球幾何軸線上,所以視線方向與眼球光軸存在一定的夾角。視線方向與眼球光軸在水平方向夾角大約為5度,左眼為5度,右眼為-5度,豎直方向夾角大約為1.5度,不同的使用者之間最大存在3度的差異,所以使用時需要標(biāo)定其kappa角:具體步驟如下:

 

1)使用者注視屏幕上固定點Pe,同時根據(jù)上一過程計算出光軸方向OP0。

2)連接眼球中心O和固定點Pe,得出視線方向OPe

3)分別求出視線和光軸兩直線的方位角

 

當(dāng)眼睛注視各點時,測量相應(yīng)的瞳孔與光斑間位置相對偏移量,然后確定眼睛轉(zhuǎn)動引起的注視點變化與偏移量間存在的映射關(guān)系。

 

由于人眼形狀,大小,結(jié)構(gòu),存在個體差異,眼睛球面上的點在攝像機參照系中的投影點位置和眼睛轉(zhuǎn)動角度之間存在非線性關(guān)系,并且視線估計方向與真實視線方向有模型誤差,所以視線跟蹤系統(tǒng)需要校準(zhǔn)環(huán)節(jié)。

 

在開始記錄眼動數(shù)據(jù)前,用戶將首先進行校準(zhǔn)過程。在此過程中,眼動軟件系統(tǒng)會測量用戶眼睛的特征并利用這些與內(nèi)部的眼球模型結(jié)合計算凝視數(shù)據(jù)。此模型包含了眼睛不同部分(如角膜,中央窩位置等)的形狀,光線折射與反射信息。在校準(zhǔn)過程中,用戶需要觀察屏幕上特定位置出現(xiàn)的點,此點被稱為校準(zhǔn)點。在此期間,眼動儀會對采集到的幾幅眼睛的圖像進行分析。然后分析的結(jié)果信息會與眼球模型結(jié)合并計算出每幅圖像的凝視點。在校準(zhǔn)過程中用戶不需要將頭部完全保持靜止,只要令視線的焦點跟隨移動的校準(zhǔn)點移動即可。在校準(zhǔn)時眼動儀會使用明瞳和暗瞳兩種方式進行測試以識別最適合當(dāng)前光線條件和用戶眼睛特征的追蹤方式。

 

在標(biāo)定過程中 , 用戶被要求將自己的注意點凝視在屏幕上一些已知的目標(biāo)上 , 從而獲得一個對應(yīng)點的集合。

 

圖像采集

 

圖像采集模塊將來自一個或者多個傳感器的輸入信號轉(zhuǎn)換成某種適合的信號模式。通常 ,使用紅外照相機拍攝一副眼睛的圖像 , 并抓取適當(dāng)解析度 ,比如 640 ×480的圖像。為了減少噪聲和處理代價 , 也可以選擇生成更小的圖像。

 

另外 ,對于特殊硬件的系統(tǒng) ,圖像采集模塊負(fù)責(zé)將視頻信號拆解開 ,分別生成亮瞳孔和暗瞳孔圖像。

 

明瞳追蹤,即光源與成像設(shè)備在同一條光學(xué)路徑上,使瞳孔出現(xiàn)發(fā)亮的效果(這與相片中出現(xiàn)的紅眼現(xiàn)象相同);

 

暗瞳追蹤,即光源放置在成像設(shè)備較遠的位置(不在同一條光學(xué)路徑上),產(chǎn)生瞳孔比虹膜暗的效果(明顯的對比)。

 

通常 ,紅外光源的軸線和照相機鏡頭同軸時會產(chǎn)生亮瞳孔效應(yīng) ; 反之 , 在兩者不同軸時 , 瞳孔比眼睛的其他部分更暗一些。

 

紅外光源

 

瞳孔和虹膜之間的分界線并沒那么清晰,為了提高這一步的精準(zhǔn)度,交替用不同方位的光源向人眼發(fā)出近紅外線,然后在每兩幀相鄰的圖像中,獲取用戶暗淡的瞳孔,從而更清晰地“摳”出瞳孔,再計算瞳孔的質(zhì)心和形狀等參數(shù)。

 

之所以要用近紅外線,是因為人眼無法察覺到,不至于晃眼,影響用戶。這些光束很弱,只要研究者按照眼動儀說明書上指示的距離安排用戶就坐(比如離眼動儀60cm以上),用戶即便在工作的眼動儀前待8個小時也不會有放射性危險。

 

眼圖處理

 

該模塊基于數(shù)字眼動視頻對眼球圖像進行處理。從采集到的眼圖中提取瞳孔中心坐標(biāo)和角膜反射光斑中心坐標(biāo)。首先,探測瞳孔輪廓以及獲得特征點,然后驗證擬合瞳孔輪廓,確定瞳孔中心坐標(biāo)。由于瞳孔中心坐標(biāo)是后續(xù)工作的基礎(chǔ),因此在該系統(tǒng)中,尤其是瞳孔中心坐標(biāo)的提取環(huán)節(jié),定位算法的優(yōu)劣將直接并嚴(yán)重影響整個眼動跟蹤系統(tǒng)的精確度。同時還要對眨眼或眼瞼遮蔽瞳孔的情況作處理。

 

瞳孔定位

 

為了確定瞳孔和角膜高光的位置 , 首先使用紅外照相機拍攝眼睛的圖像 ,然后對紅外圖像進行分割 , 并對得到的眼睛各部分進行分析參數(shù)化。通常 , 先對眼睛圖像進行灰度化處理 , 然后使用閾值的方法或者搜索眼睛圖像中的連通區(qū)域的方法實現(xiàn)對瞳孔的檢測。

 

在檢測到候選瞳孔后 , 使用人體測量學(xué)的方法對瞳孔進行確認(rèn)。然后對瞳孔進行參數(shù)化處理,以消除睫毛、下眼皮和普金野圖像等對瞳孔區(qū)域的覆蓋而產(chǎn)生的影響。雙橢圓擬和方法可以很好地消除這些噪聲。

 

首先要大致確定出瞳孔中心點的位置和瞳孔半徑,進行瞳孔粗定位,為下一步精確計算瞳孔中心坐標(biāo)提供基礎(chǔ)。在粗定位瞳孔的基礎(chǔ)上,檢測瞳孔邊緣,然后擬合瞳孔輪廓,最終確定瞳孔中心的精確位置。

 

眼動追蹤技術(shù)對VR的作用


 

我們很容易看到眼動追蹤對VR頭顯的作用。顯而易見的是,它可以大幅度提高頭顯性能,支持頭顯自動化調(diào)整,并且提供更詳細的分析。不太明顯的是,它可以改善用戶界面并實現(xiàn)新的交互水平。


圖片


提高頭顯性能

 

眼動追蹤最為直接和最有前景的作用是,通過注視點渲染來提高設(shè)備的性能。盡管我們無法感知這一點,但實際上人眼只在注視點區(qū)域以高分辨率渲染真實世界影像。其余部分只是模糊的輪廓,紋理和顏色,而我們的大腦則以更清晰的細節(jié)進行“填充”。

 

注視點渲染依靠這個概念來減少VR體驗的整體像素數(shù)量。系統(tǒng)只會以全分辨率呈現(xiàn)用戶注視點區(qū)域內(nèi)的內(nèi)容,并略微降低外圍視覺的內(nèi)容質(zhì)量,同時在你轉(zhuǎn)移注視點時迅速重新調(diào)整。


盡管這項技術(shù)不僅只是可以作用于配備眼動追蹤的頭顯,但眼動追蹤技術(shù)確實可以令注視點渲染變得更加高效和準(zhǔn)確。

 

注視點渲染的真正價值在于它可以將GPU負(fù)載降低30%到50%。這意味著低端頭顯也能夠運行對性能要求十分苛刻的VR內(nèi)容。這同時意味著頭顯可以設(shè)計成更小更便攜,提高續(xù)航能力,以及在更低帶寬下實現(xiàn)更高的保真度和幀速率。這對內(nèi)容創(chuàng)作者而言都是好消息。

 

頭顯自動調(diào)整

 

眼動追蹤也可以用來自動調(diào)整頭顯的設(shè)置。掃描用戶眼睛并立即加載他們的虛擬角色,更重要的還有調(diào)整瞳孔間距離(某人眼睛之間的距離)。

 

自動調(diào)節(jié)意味著用戶可以減少調(diào)節(jié)IPD時的猜測,并且可以為用戶眼睛提供優(yōu)化的圖像。換句話說,創(chuàng)作者無需付出太大努力畫面就會變得越來越好。

 

精確的分析


圖片


今天,沉浸式內(nèi)容的熱圖分析依賴于你所面向的方向,而不是說你的注視點位置。除了準(zhǔn)確了解用戶的位置外,你還可以通過追蹤瞳孔來測量用戶的參與度。當(dāng)我們看到自己喜歡的東西時,瞳孔就會擴張。這種微小的變化也可以用來檢測情緒和精神壓力。


這種洞察力可以幫助我們制作更好,更有吸引力的故事,甚至根據(jù)用戶行為提供個性化的敘述。

 

更自然的用戶界面

 

今天我們主要是通過不自然的行為來控制體驗。轉(zhuǎn)動頭部,令光標(biāo)指向我們想要前往的位置,然后點擊控制器進行傳送。我們的頭部成為了一個導(dǎo)航體驗的笨重光標(biāo)。對于大多數(shù)曾經(jīng)用這種方式進行游戲的人來說,你應(yīng)該都明白這種不自然的方式是多么地令人感到沮喪。


眼動追蹤可以將這個四步過程分為兩步:看,點擊。這意味著VR中的每一次交互都會更加自然,更加流暢,速度更快,學(xué)習(xí)曲線更短。

 

全新的交互水平

 

在敘事VR中,沉浸感的其中一個規(guī)則就是眼神交流。

 

一般會經(jīng)常要求受訪者在采訪時直接看著攝像頭,從而與觀眾進行“眼神交流”,就如同一位好的對話者會與聽眾建立眼神交流那樣。即使是預(yù)定的,但這仍然有助于建立一種臨場感。眼動追蹤可以令這一點變得更具交互性和逼真。這有可能以數(shù)種形式出現(xiàn),包括注視激活的體驗和注視敏感的體驗。

 

注視激活的體驗意味著觀眾可以通過盯著某件事物來觸發(fā)行為。只有當(dāng)你看著他們的時候,他們才會開始說話。這可以更容易地確保觀眾不會錯過重要的時刻,并為他們提供更好的控制。

 

除了注視激活的體驗外,眼動追蹤還可以通過更自然的社交互動來實現(xiàn)基于注視敏感的交互度。我看著別人,他們也看著我。我轉(zhuǎn)身走開,他們也轉(zhuǎn)身離去。

 

眼動追蹤還可以使VR體驗中的角色帶來更逼真的面部表情:眨眼,揚眉。根據(jù)用戶的眼睛活動,這甚至可以觸發(fā)不同的劇情。

 

眼動追蹤技術(shù)的其它應(yīng)用領(lǐng)域


 

眼動跟蹤技術(shù)可提供人與機器更加方便、快捷、自然的交互方式。在航空飛行中,飛行員通常使用儀表、平面顯示器以及更為先進的頭盔顯示器來接收信息,實現(xiàn)對目標(biāo)的動態(tài)鎖定。當(dāng)飛行員頭部轉(zhuǎn)動時,光電設(shè)備或電磁設(shè)備能實時記錄并計算出飛行員頭盔的角度來調(diào)整視野范圍,并自主跟蹤目標(biāo),實現(xiàn)視景顯示與目標(biāo)跟蹤的隨動。但在高過載條件下,轉(zhuǎn)動頭部十分困難,還易損傷頸部。使用眼動跟蹤技術(shù)的頭盔,能夠用眼睛轉(zhuǎn)動代替頭部轉(zhuǎn)動,通過實時測定飛行員眼睛瞄準(zhǔn)線的方向,觀瞄系統(tǒng)能更加快捷地跟蹤、鎖定目標(biāo),從而提高飛行員的反應(yīng)速度。目前,眼動跟蹤技術(shù)作為頭盔瞄準(zhǔn)具的重要功能模塊,已經(jīng)在新一代戰(zhàn)斗機、新型飛行員頭盔中投入使用。


圖片


飛行員或航天員需要操作和管理復(fù)雜的控制系統(tǒng),在執(zhí)行重要任務(wù)時,既要用眼睛觀察周圍環(huán)境,又需要細致地注視控制系統(tǒng)完成精確的控制動作。利用眼動跟蹤技術(shù)能夠評估飛行員或宇航員在操作時如何分配注意力,讀懂人與機器互動的“習(xí)慣”,可以更加科學(xué)地設(shè)置儀表、屏幕、按鈕等顯示和控制系統(tǒng),實現(xiàn)最佳的人機交互效果。

 

此外,眼動跟蹤技術(shù)還可應(yīng)用于心理學(xué)、醫(yī)學(xué)、產(chǎn)品測試、體育運動、汽車駕駛等多個領(lǐng)域。例如:利用眼動跟蹤技術(shù)探索人在信息獲取過程中的心理活動和心理現(xiàn)象;監(jiān)控汽車駕駛員的眼睛運動情況,防止疲勞駕駛;通過跟蹤眼睛視線向計算機輸入對應(yīng)的數(shù)據(jù)或發(fā)送指令,從而控制電腦的操作系統(tǒng),幫助只能控制眼睛肌肉的重度殘疾者進行控制、通信、 娛樂等。

 

另外,在智能手機、計算機、具有人機交互功能的家用電器、游戲等領(lǐng)域,眼動跟蹤技術(shù)能夠解放雙手,通過“眼神”來操作相應(yīng)的系統(tǒng)和設(shè)備。


- END -


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 視覺追蹤技術(shù)

技術(shù)專區(qū)

關(guān)閉