基于小波包變換和壓縮感知的人臉識別算法
引言
本文引用地址:http://butianyuan.cn/article/235426.htm人臉識別是一個經典的模式識別問題。壓縮感知理論的出現(xiàn)和發(fā)展,給人臉識別帶來了新的啟發(fā),使得基于稀疏表示的人臉識別技術得到了廣泛研究。傳統(tǒng)的基于稀疏表示的人臉識別是利用壓縮感知超完備庫下的稀疏表示,將訓練圖片直接構造為冗余字典,再求解重構算法下的最優(yōu)稀疏線性組合系數(shù),然后根據(jù)這些系數(shù)來對人臉圖像進行分類。
鄭軼、蔡體健[1]針對人臉求解稀疏表示時正交匹配追蹤算法運算度高,提出了一種改進的算法,加快了逆矩陣和大矩陣乘積的求解,但在構成訓練字典時對光照[2]、表情[3]、姿態(tài)[4]等考慮較少。Allen Y. Yang[5]等針對壓縮感知基于最小一范數(shù)求解最優(yōu)稀疏表示時算法運算度高,提出了一種凸優(yōu)化算法,取得了不錯的識別率,但仍然是超完備庫下的稀疏表示。平強、莊連生[6]等針對人臉識別姿態(tài)問題提出了基于仿射變換的人臉分塊稀疏表示,提升了算法的識別性能,但仿射變換和分塊稀疏表示都增加了運算復雜度。
本文針對上述字典構成問題,提出基于基函數(shù)字典下的稀疏表示,尋找一個正交基,使得信號表示的稀疏系數(shù)盡可能的少,小波基符合這一要求,同時小波包變換能提取人臉低頻、高頻四個頻帶的特征,包括人臉的整體特征和局部紋理特征,小波包多層變換后還可以2n的速度對人臉圖像進行降維。本文在運用壓縮感知時,只利用壓縮感知對高維人臉圖片進行降維,不進行重構算法尋求最優(yōu)稀疏解,大大降低了算法的復雜度。實驗結果表明本算法與相關算法比較識別率較高,運算時間基本無劣勢,對訓練樣本的數(shù)目要求較低。
1 基本理論
1.1 小波變換的基本理論
小波變換是一種變換分析方法,它將原始圖像與小波基函數(shù)進行內積運算,圖像經小波分解后可得到一個近似分量和三個方向的細節(jié)分量,三個細節(jié)分量分別具有高度的局部相關性,而整體相關性能最大限度地消除。選擇小波基時具體要考慮小波基的正交性,使得各子帶間數(shù)據(jù)相關性最小;緊支性使應用精度較高,不需要人為截斷數(shù)據(jù);小波基的對稱性也是十分重要的,因為可以構造緊支的正則小波基,從而具有線性相位[7]。
小波包變換區(qū)別于小波變換,它不僅對信號的低頻分量進行連續(xù)分解,而且對高頻分量也進行連續(xù)分解,不僅可得到許多分辨率較低的低頻分量,而且也可得到許多分辨率較低的高頻分量,如圖1所示,這種變換稱之為小波包變換 [8]。
圖1中,箭頭向左表示當前層低通濾波變換,箭頭向右表示當前層高通濾波變換。
1.2 壓縮感知理論
壓縮感知理論[9]指出,只要信號是可壓縮的或在某個變換域是稀疏的,那么就可以用一個與變換基不相關的觀測矩陣將變換所得高維信號投影到一個低維空間上。壓縮感知信號稀疏表示主要有兩個方向[10],一是基函數(shù)字典下的稀疏表示,二是超完備庫下的稀疏表示。稀疏信號通過觀測矩陣投影如公式(1)所示:
其中為觀測矩陣,為稀疏信號,為信號經觀測矩陣投影后所得列向量。
將壓縮感知作為特征提取的方法,必須保證觀測矩陣不會把兩個不同的稀疏信號映射到同一個采樣集合中,這就要求從觀測矩陣中抽取的每M個列向量構成的矩陣是非奇異的,同時需要保證觀測矩陣和稀疏基不相干。
2 本文稀疏表示的人臉識別算法
本文將小波包變換和壓縮感知結合應用于人臉識別,具體識別過程如圖2所示。
2.1 二層小波包分解構成基函數(shù)字典
根據(jù)前文描述小波包變換,2D-WPT 是一維離散小波變換的擴展,其實質是將二維信號在不同尺度上進行分解,得到原始信號的近似分量和細節(jié)分量。原始圖像經過1層2D-DWT分解后圖像被分成4個部分:近似部分,水平細節(jié),垂直細節(jié)以及對角細節(jié)。
近似部分是對人臉的全局描述,主要受光照、姿態(tài)和位置影響,三個細節(jié)分量是對人臉的局部細節(jié)描述,主要受表情和遮擋飾物(如眼鏡,胡須等)的影響[11]。每部分圖像大小為原始圖像的四分之一大小,對圖像起到了降維的作用。
圖3是對一幅大小為100×100的人臉圖像進行小波變換的結果。
圖3(a)為原始人臉圖像,圖(b)為對原始圖像進行的一層小波分解,分別為原始圖像的低頻分量(左上)垂直高頻分量(右上)、水平高頻分量(左下)和對角高頻分量(右下),圖(c)為低頻分量進行兩層分解。上述小波變換選取的小波基為db1,考慮了小波基的緊支撐、高階消失矩和對稱性,db1是比較適合對人臉圖像進行小波變換的小波基,大量實驗也證明了db1在進行人臉重構時,平均重構誤差是最小的,即db1更適合提取人臉特征,證明了分析的正確性。
本文進行了小波包的分解,既完成了基于基函數(shù)字典下的稀疏表示,也提取了人臉識別的整體信息和局部細節(jié)信息。在構成基函數(shù)字典時,需將低頻、高頻分量分別構成列向量,最后組成一個大的列向量,保留其中的結構信息。
小波包變換采用兩層分解,取第二層分解結果作為特征,使得圖像維數(shù)得到降低,進而也使得降維時壓縮感知的運算量大大減少。如果小波包分解層數(shù)過多,會造成計算耗時,同時圖像信息也會因為多次分解而部分丟失。
2.2 壓縮感知降維
人臉圖像經小波包變換構成基函數(shù)字典后,信息具有稀疏性,同時包含人臉表情、姿態(tài)等細節(jié)信息,從而用壓縮感知進行進一步的有效信息的提取和降維,將基函數(shù)字典矩陣與觀測矩陣運算后得到一個維數(shù)較低的向量,作為人臉的最終特征向量。最后本文用訓練圖像和測試圖像特征向量之差二范數(shù)分類器進行分類,得到了良好的識別效果。
本文選用的觀測矩陣為哈達瑪矩陣,它是由+1和-1元素構成的正交方陣,它的任意兩行(或兩列)都是正交的,即保證了觀測矩陣是非奇異的,符合壓縮感知對觀測矩陣的要求,同時哈達瑪矩陣也便于硬件實現(xiàn)。
本文算法應用于人臉識別具體做法描述如下:
(1)輸入c類N個訓練樣本,進行二層小波包分解將訓練樣本投映到小波域,進而構成基函數(shù)字典訓練空間A;
(2)給定一個測試圖像,用二層小波包分解將其投映到小波域空間,進而構成測試空間x;
(3)將訓練樣本的字典空間按結構排成列向量,運用壓縮感知計算 (i=1,2…N)將Yi的每一列作為最終進行比較的特征向量;
(4)將測試圖像小波域的測試空間按結構排成列向量,運用壓縮感知計算:;
(5)在每個最終特征向量上用 (i=1,2…N)計算特征向量之差的二范數(shù);
(6)若,則x與第i個訓練樣本為同一類。
3 實驗結果
選用Yale人臉數(shù)據(jù)庫和ORL人臉數(shù)據(jù)庫[12]作為實驗素材,其中Yale A人臉總數(shù)165,15類,大小為,影響識別因素為光照、表情、姿態(tài)、飾物。訓練樣本為每類4幅圖片,測試圖像為每類其他7幅人臉。ORL人臉總數(shù)為400,40類,大小為,影響識別的因素為姿態(tài)。訓練樣本為每類3幅圖片,測試圖片為每類其他7幅人臉。實驗環(huán)境為Intel Core2 Duo CPU--E7500 2.93GHz,2.00GB RAM,matlab7.0(R2009a)。
為驗證本文算法的識別率和運行時間的有效性進行了實驗,并與基于壓縮感知的FOMP人臉識別算法[1]進行了比較。如表1所示為Yale A 人臉識別結果,其中運行時間為105幅測試圖像運行總時間。如表2所示為ORL人臉識別結果,其中運行時間為240幅測試圖像運行總時間。
(1)由表1實驗結果,本文算法因進行了小波包變換構成基函數(shù)字典,提取了整體特征和局部細節(jié)特征,對表情、姿態(tài)的變化魯棒性高一些,進而識別率有一定優(yōu)勢。雖然本文未進行運算量高的正交匹配算法尋找最優(yōu)稀疏解,小波包變換也能起到降維作用,但由于進行小波包變換占用時間,使得本算法時間上仍有一定劣勢。
(2)由表2實驗結果,得知兩個算法的識別率都有提升,說明壓縮感知對姿態(tài)有一定的魯棒性,而本文算法識別率上仍然有一定優(yōu)勢,說明小波包變換構成基函數(shù)字典,增強了算法的姿態(tài)魯棒性。
(3)通過對表1實驗結果分析,發(fā)現(xiàn)本算法錯誤識別的人臉圖像大多光照較弱或光照不均勻,說明本文算法對光照的魯棒性能較差。分析其原因,在光照較差的情況下,圖像是人臉的概貌,紋理信息較弱,使得小波包變換不能有效的提取細節(jié)特征,影響了識別率。
4 結束語
本文提出了一種基于小波包變換和壓縮感知的人臉識別算法,與傳統(tǒng)方法相比,本文采用基函數(shù)字典表示,將小波包變換和壓縮感知相結合,充分利用了小波包變換和壓縮感知的優(yōu)勢,克服其缺點,使得識別率得到了提升,時間復雜度也得到了有效的控制。同時本算法不需要對圖片進行預處理,對遮擋物、表情有很好的魯棒性。但本文算法對光照的魯棒性能較差,還需要進一步研究加以改善。
參考文獻:
[1]鄭軼,蔡體健.稀疏表示的人臉識別及其優(yōu)化算法[J].華東交通大學學報,2012,29(1):10-14
[2]Wagner A,Wright J.Toward a practical face recognition system: robust alignment and illumination by sparse representation[J]. IEEE Transactions on Pattern Analysis and Mac-hine Intelligence,2012,34(2):372-386
[3]Hsieh C K,Lai S H.Expression-invariant face recognition with Constrained optical flow warping[J].IEEE Transactions on Multimedia,2009,11(4):600-610
[4]Huang J,Yuen P C.Choosing Parameters of kernel subspace LDA for recognition of face images under pose and illumination variations[J].IEEE Transactions on Cybernetics,2007,37(4):847-862
[5]Yang A Y,Zhou Z H.Fast L1-Minimization Algorithms for Robust Face Recognition[J].IEEE TRANSACTIONS ON IMAGE PROCESSING,2013,22(8):3234-3246
[6]平強,莊連生,等.姿態(tài)魯棒的分塊稀疏表示人臉識別算法[J].中國科學技術大學學報,2011,41(11):975-981
[7]李月琴,栗蘋,等.無線電引信信號去噪的最優(yōu)小波基選擇[J].北京理工大學學報,2008,28(8):723-726
[8]Chan W L,Choi H,Baraniuk R G.Coherent multiscale image processing using dual-tree quaternion wavelets[J].IEEE Transactions on Image,2008,17(7):1069-1082
[9]Inoue K,Kuroki Y.Illumination-robust face recognition via sparse representation[C].IEEE of Visual Communications and Image Processing, 2011:1-4
[10]Donoho D.Compressed sensing[J].IEEE Transactions on Information Theory,2006,52(4):1289-1306
[11]Soulard R,Carre P. Quaternionic wavelets for texture classification[J]. Pattern Recognition Letters,2011,32(13)1669-1678
[12]Oliver research laboratory[DB/OL].http//www.uk.research.att.Com/data/att_faces.Zip.Cambridge
全息投影相關文章:全息投影原理
評論