一種脫機(jī)手寫(xiě)簽名認(rèn)證方法
1 引言
手寫(xiě)簽名認(rèn)證方法屬于生物測(cè)定技術(shù)。簽名認(rèn)證與其他生物測(cè)定技術(shù)相比,具有難以模仿、區(qū)分性較高、尊重隱私權(quán)、信息獲取高效等優(yōu)點(diǎn),在特征的可搜集性、人體傷害可接受性和魯棒性方面都很突出,具有廣闊的應(yīng)用前景。但與其他生物測(cè)定方法相比,手寫(xiě)簽名認(rèn)證的識(shí)別率并不是很高,尤其是脫機(jī)中文手寫(xiě)簽名認(rèn)證。因?yàn)樵?a class="contentlabel" href="http://butianyuan.cn/news/listbylabel/label/脫機(jī)">脫機(jī)簽名認(rèn)證中,丟失了書(shū)寫(xiě)過(guò)程中的動(dòng)態(tài)信息,使可利用的信息減少,增加了鑒別的難度。另外,有些高超的偽造簽名模仿得惟妙惟肖,有時(shí)即使是人類專家進(jìn)行鑒定,識(shí)別率也可能會(huì)很低。這里針對(duì)脫機(jī)中文簽名,提出一種主成分特征提取和徑向基神經(jīng)網(wǎng)絡(luò)相結(jié)合的脫機(jī)手寫(xiě)簽名認(rèn)證方法。
2 主成分特征提取
假設(shè)x是一個(gè)N×1的隨機(jī)向量,即x的每個(gè)元素xi都是一個(gè)隨機(jī)變量。x的均值可用L個(gè)樣本向量估計(jì):
而其協(xié)方差矩陣可由式(2)估計(jì):
協(xié)方差矩陣是N×N的實(shí)對(duì)稱矩陣。對(duì)角元素是各個(gè)隨機(jī)變量的方差,非對(duì)角元素是它們的協(xié)方差。用矩陣A定義一個(gè)線性變換,它可由任意向量x通過(guò)式(3)得一個(gè)新向量y:
式中,A的行向量就是Cx的特征向量。
這里為了方便,對(duì)這些行向量按使得其對(duì)應(yīng)的特征值遞減的順序排列。變換后的向量y是具有零均值的隨機(jī)向量,其協(xié)方差矩陣與x的協(xié)方差矩陣的關(guān)系為:
由于A的行向量是Cx的特征向量,所以Cy是對(duì)角陣且其對(duì)角元素為Cx的特征值。于是:
從而λk也是Cy的特征值。因?yàn)镃y的非對(duì)角元素都是零,所以y個(gè)元素之間都是不相關(guān)的。于是線性變換A去掉了變量間的相關(guān)性。此外,λk是第k個(gè)變換后的變量yk的方差??赏ㄟ^(guò)略去對(duì)應(yīng)于較小特征值的一個(gè)或多個(gè)特征向量給y降維。令B為M×N的矩陣(MN),B是通過(guò)丟棄A的下面N-M行,并假定m=0構(gòu)成的,這樣,變換向量變小(即成為M×1維):
MSE只是與被舍棄的特征向量對(duì)應(yīng)的特征值之和。通常,特征值幅度差別很大,可忽略其中一些較小值而不會(huì)引起很大誤差。
進(jìn)行模式分類時(shí).理論上可將一幅MxN圖像的M×N個(gè)灰度特征作為分類依據(jù),但這樣會(huì)引起算法運(yùn)算時(shí)間過(guò)長(zhǎng)而失去意義,系統(tǒng)也因此崩潰。如何對(duì)這M×N個(gè)灰度特征進(jìn)行主要特征提取,用提取出的k個(gè)灰度特征表征該圖像而使算法不會(huì)引起很大誤差。根據(jù)以上論述得知,這樣做可行。
對(duì)一幅M×N的簽名罔像,首先將圖像進(jìn)行局部區(qū)域劃分,即將圖像劃分成4×4或者8×8的小塊,這樣一幅圖像就被劃分成L個(gè)小塊,即:
然后將每一個(gè)小塊的16(或64)個(gè)灰度值看成一個(gè)N×1的隨機(jī)變量.假設(shè)x是一個(gè)N×1的隨機(jī)向量,x的每一個(gè)元素都是用上面的一個(gè)小塊的16(或64)個(gè)灰度值構(gòu)成的隨機(jī)變量。實(shí)際x是一個(gè)16(或64)×L的矩陣,x的協(xié)方差矩陣由式(10)估計(jì):
通過(guò)求得Cx的特征值來(lái)表征圖像的灰度主成分特征。將求得的特征值與先前的M×N個(gè)灰度特征相比,已明顯減少。這里取前10個(gè)最大的特征值作為特征分類依據(jù),由于后面的特征值很小,對(duì)其忽略不會(huì)引起太大誤差。
3 徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)及其分類器設(shè)計(jì)
徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)RBFNN(Radial Basis FunctionNeural Network)起源于數(shù)值分析中的多變量插值的徑向基函數(shù),它不僅具有任意精度的泛函逼近能力和最優(yōu)泛函逼近特性,而且具有較快的收斂速度。這里利用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)構(gòu)成一個(gè)分類器實(shí)現(xiàn)簽名真?zhèn)蔚恼J(rèn)證采用高斯核函數(shù)作為徑向基函數(shù),形式為:
式中,Zi是核函數(shù)的中心,δi為核函數(shù)的寬度,可控制基函數(shù)的徑向作用范圍,即方差。
而第i個(gè)隱結(jié)點(diǎn)的輸出定義為:
式中,wi是第i個(gè)隱結(jié)點(diǎn)到輸出層結(jié)點(diǎn)的權(quán)值,θ是輸出層結(jié)點(diǎn)的閾值。
一般常利用K均值聚類算法確定各基函數(shù)中心及相應(yīng)的方差,網(wǎng)絡(luò)權(quán)值的確定用局部梯度下降法修正。由于K均值聚類方法要事先給出聚類個(gè)數(shù)K,且聚類結(jié)果對(duì)K 值大小都很敏感,不同K值的聚類學(xué)習(xí)結(jié)果往往大相徑庭,因此,如何確定K值是一個(gè)難題。這里不采用上述的K均值聚類方法,而采用文獻(xiàn)[4]中的一種根據(jù)相似性閾值和最小距離原則的簡(jiǎn)單聚類方法確定RBF網(wǎng)絡(luò)的中心。其主要步驟為:
(1)設(shè)待分類的模式集為{x1,x2…xn},選定類內(nèi)距離門(mén)限T;
(2)seed=RandomSelect(x);∥從對(duì)象集合x(chóng)中,任選一對(duì)象Seed;
(3)Dist1,2=Compute Distance(seed,x2);∥計(jì)算下一模式特征矢量x2到Seed的距離;
(4)若Dist1,2>T,則建立新的一類ω2,其中心Z2=x2,若Dist1,2≤T,則x2∈ω1;
(5)假設(shè)已有聚類中心Z1?Z2…Zk,計(jì)算尚未確定類別的特征矢量xi到各聚類中心Zj(j=1,2…,k)的距離dij。如果dij>T,則 xi作為新的一類ωk+1的中心,Zk+1=xi,否則,如果dij=mindij,則判斷xi∈ωg,檢查是否所有的模式都劃分完類別,如都劃分完則結(jié)束,否則返同(5),
上述算法采用規(guī)格化的Euclidean計(jì)算公式度量?jī)蓚€(gè)對(duì)象間的距離。具體公式定義如下:
在包含有N個(gè)對(duì)象的m維單位空間(各屬性取值均采用規(guī)格化處理)中,對(duì)象間的平均距離為
。對(duì)象間的平均距離與對(duì)象的個(gè)數(shù)及維數(shù)有關(guān)。在一定空間內(nèi),待分類的對(duì)象個(gè)數(shù)越少,各對(duì)象的維數(shù)越大,各對(duì)象間的距離就越大;反之,對(duì)象數(shù)量越大,各對(duì)象的維數(shù)越小,則各對(duì)象間的距離就越小。
在包含有N個(gè)對(duì)象的m維單位空間(各屬性取值均采用規(guī)格化處理)中,對(duì)象間的平均距離為以此為標(biāo)準(zhǔn),并按照“各聚類中對(duì)象問(wèn)的距離不應(yīng)超過(guò)此標(biāo)準(zhǔn),各聚類間距離不應(yīng)低于此標(biāo)準(zhǔn)”的規(guī)則進(jìn)行聚類學(xué)習(xí)。采用此方法得到的聚類類別數(shù)即為將要確定的隱層神經(jīng)元數(shù)。
整個(gè)RBF網(wǎng)絡(luò)的學(xué)習(xí)步驟為:
(1)設(shè)由上述聚類算法得到的RBF網(wǎng)絡(luò)隱層單元數(shù)為K,最大允許誤差ε,置所有可調(diào)參數(shù)(權(quán))為均勻分布的較小數(shù)(0~1或-1~1之間的隨機(jī)數(shù))。置初始誤差E為0,學(xué)習(xí)率η為0~1之間的小數(shù)。網(wǎng)絡(luò)訓(xùn)練后達(dá)到的精度Emin為一個(gè)正小數(shù)。
(2)采用上面根據(jù)相似性閾值和最小距離原則的簡(jiǎn)單聚類方法確定基函數(shù)的中心Zi及δi方差,
(3)按梯度下降法調(diào)整網(wǎng)絡(luò)權(quán)值W直至誤差Eε,才結(jié)束。
4 實(shí)驗(yàn)結(jié)果
徑向基神經(jīng)網(wǎng)絡(luò)由主成分特征提取出的10特征值作為輸入節(jié)點(diǎn),而隱含層節(jié)點(diǎn)個(gè)數(shù)則根據(jù)每組訓(xùn)練樣本的不同(參見(jiàn)上述算法)確定,輸出層只有一個(gè)神經(jīng)元,該神經(jīng)元的輸出就是簽名圖像的對(duì)應(yīng)分類(真假兩類)。
實(shí)驗(yàn)中共采集11個(gè)人的660個(gè)簽名。每人有30個(gè)真簽名和其他人模仿的30個(gè)假簽名。圖1和圖2是部分訓(xùn)練和測(cè)試樣本,圖1和圖2的前兩個(gè)簽名為作者簽名,其他為假冒簽名。
在每個(gè)人的60個(gè)簽名中,42個(gè)簽名(其中真簽名21個(gè),假簽名21個(gè))作為訓(xùn)練樣本,剩下的18個(gè)真假簽名作為測(cè)試樣本,因?yàn)橛?1個(gè)人的11組簽名,所以認(rèn)證工作也分成11次,即1次進(jìn)行1個(gè)人訓(xùn)練簽名樣本的訓(xùn)練和測(cè)試樣本的測(cè)試。把這些樣本送入RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行分類驗(yàn)證,實(shí)驗(yàn)結(jié)果見(jiàn)表1:
5 結(jié)論
提出一種基于主成分特征提取和徑向基神經(jīng)網(wǎng)絡(luò)相結(jié)合的脫機(jī)手寫(xiě)簽名認(rèn)證方法。首先為了減少運(yùn)算量,對(duì)經(jīng)過(guò)預(yù)處理的簽名灰度圖像進(jìn)行降維,即采用主成分特征提取的方法降低圖像維數(shù),同時(shí)過(guò)濾掉高頻干擾信號(hào),突出簽名的主要特征,得到適合計(jì)算機(jī)識(shí)別的低維圖像,然后在簽名的分類認(rèn)證中,基于徑向基神經(jīng)網(wǎng)絡(luò)的驗(yàn)證方法可以在合理的時(shí)間內(nèi),以較少的主成分個(gè)數(shù)得到較好的識(shí)別效果。因?yàn)閲?guó)內(nèi)尚未出現(xiàn)統(tǒng)一的簽名數(shù)據(jù)庫(kù),實(shí)驗(yàn)在自行采集的小型簽名數(shù)據(jù)樣本進(jìn)行,對(duì)更大型的數(shù)據(jù)庫(kù)的認(rèn)證識(shí)別是今后需做的工作。
評(píng)論