新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 一種文檔圖像檢索算法設(shè)計(jì)和實(shí)現(xiàn)

一種文檔圖像檢索算法設(shè)計(jì)和實(shí)現(xiàn)

作者: 時(shí)間:2011-07-04 來源:網(wǎng)絡(luò) 收藏

  1.3 行線標(biāo)記

  通過對得到的二值的行跳變的填補(bǔ),文本行的變化相對比較平滑,這有利于行線的標(biāo)記。本方法取每個(gè)文本行的下邊緣來作為行線。因?yàn)楸尘皡^(qū)域?yàn)楹谏淖謪^(qū)域?yàn)榘咨?,所以?a class="contentlabel" href="http://www.butianyuan.cn/news/listbylabel/label/文檔">文檔進(jìn)行掃描,從黑色區(qū)域進(jìn)入白色區(qū)域時(shí)所遇到的第一個(gè)像素進(jìn)行標(biāo)記,這樣就把每一行的行線標(biāo)記出來了,所得到的行線是單像素的。這種方法的優(yōu)點(diǎn)是可以抗傾斜。

  圖5(a)為對圖1中的中的行用直線的方式標(biāo)記出來。為了驗(yàn)證提取出的行線與原圖是否一致,將它與原圖(如圖5(b)所示)進(jìn)行了匹配,可以看出,所得結(jié)果是比較滿意的。

  2 匹配

  本文所采用的方法是將行線抽象為空間中的一個(gè)點(diǎn),點(diǎn)的灰度值定義為行線的長度。全局匹配模式考慮版面的加權(quán)平均,用于全局位置進(jìn)行匹配,這個(gè)過程相當(dāng)于文本區(qū)定位過程。局部匹配模式是定義兩個(gè)行在位置、尺寸上的變化情況,通過位置優(yōu)先(版面)得到匹配模式,進(jìn)而對匹配誤差能量進(jìn)行計(jì)算。

  匹配方法轉(zhuǎn)化為兩組點(diǎn)之間的匹配定義問題,點(diǎn)模式簡化了問題的復(fù)雜性,只包含了版面結(jié)構(gòu)信息、長度信息和尺寸信息。

  中心點(diǎn)加權(quán)匹配方式不能完全解決問題,圖像在兩個(gè)尺度上的縮放對這種方式影響極大。使用歸一化的尺寸可部分解決這個(gè)問題,但歸一化后仍需計(jì)算中心點(diǎn)的位置,通過中心點(diǎn)進(jìn)行坐標(biāo)轉(zhuǎn)換,使用坐標(biāo)轉(zhuǎn)換后的新的點(diǎn)模式對差異性進(jìn)行度量。

  每一行起始坐標(biāo)的相對坐標(biāo)是(xi′,yi′),xi′=xi-x0,yi′=yi-y0。圖6為將行線抽象為空間中的點(diǎn)的圖像,其中亮度代表該行的長度,位置為起點(diǎn)坐標(biāo)。

 ?。?)距離匹配模式計(jì)算

  將兩個(gè)頁面的中心點(diǎn)對齊,從第一個(gè)頁面的第一行開始,與另一個(gè)頁面每行進(jìn)行比較。假如另一個(gè)頁面的相對坐標(biāo)是(uj′,vj′),j=0,…,n-1,每行長度為wj。計(jì)算兩個(gè)待比較頁面的坐標(biāo)及長度的差Δxi、Δyi、Δzi,其中:Δxi=xi′-uj′,Δyi=yi′-vj′,Δzi=zi-wj。則定義差異能量為:

  dEnerge(i)=Δxi+Δyi+Δzi

  將第一個(gè)頁面的第一行與第二個(gè)頁面的每一行進(jìn)行比較,得到n個(gè)差異能量,求這n個(gè)差異能量的最小值min(dEnerge(i))。第一個(gè)頁面共有m行,將得到m個(gè)值,對其求和:

  不匹配的情況經(jīng)常發(fā)生,例如一個(gè)圖像中含有4個(gè)點(diǎn)模式,另一個(gè)圖像中含有10個(gè)點(diǎn)模式,內(nèi)部點(diǎn)模式之間具有結(jié)構(gòu)相關(guān)性,結(jié)構(gòu)上的相關(guān)性定義為點(diǎn)模式位置掩模距離,該距離用來度量點(diǎn)模式全局匹配能力。如果一個(gè)點(diǎn)模式為另一個(gè)點(diǎn)模式的子模式,則該方法子圖功能,模式距離最小時(shí),產(chǎn)生最佳匹配。最佳匹配時(shí),產(chǎn)生更為細(xì)致的行線能力。使用掩模方法是為了產(chǎn)生更好的查準(zhǔn)率。

絕對值編碼器相關(guān)文章:絕對值編碼器原理
三維掃描儀相關(guān)文章:三維掃描儀原理


評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉