基于圖像識(shí)別的閱卷系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
高校學(xué)生的期末考試是普通高等學(xué)校管理的一項(xiàng)重要工作,它是根據(jù)國(guó)家對(duì)高等學(xué)校學(xué)生德智體全面發(fā)展的要求,按照統(tǒng)一的原則、方法和程序,對(duì)學(xué)生學(xué)習(xí)和行為的表現(xiàn)進(jìn)行階段和全程的質(zhì)量考核、記載、評(píng)價(jià)和處理。目前客觀題型較多的英語(yǔ)考試或計(jì)算機(jī)基礎(chǔ)考試均實(shí)現(xiàn)了閱卷自動(dòng)化,無(wú)需教師干預(yù),既能加快試卷反饋的速度,又能保證公平公正。傳統(tǒng)的閱卷系統(tǒng)利用光學(xué)標(biāo)記閱讀機(jī)的光電變換原理,對(duì)填涂在答題卡上的內(nèi)容進(jìn)行高速采集,然后進(jìn)入計(jì)算機(jī)處理[1]。但是它對(duì)答題卡紙張和印刷質(zhì)量要求太高,如套印誤差和剪切誤差必須分別控制在0.1 mm和0.2 mm以內(nèi);對(duì)使用者涂寫要求太高,限制太多,如需要用專用鉛筆涂滿長(zhǎng)方條,不得涂出長(zhǎng)方條外,整張答題卡涂寫要深淺一致等;機(jī)械傳動(dòng)機(jī)構(gòu)復(fù)雜、使用壽命短、維護(hù)量大、設(shè)備一致性差[2]。
本文提出一種基于圖像識(shí)別的閱卷系統(tǒng),允許使用者使用任何顏色的圓珠筆、鋼筆或鉛筆在一般紙張的固定位置上涂寫如“√”、“w”、“○”等手寫符號(hào)完成答題,由閱卷系統(tǒng)采用圖像識(shí)別技術(shù)自動(dòng)識(shí)別答題卡信息,實(shí)現(xiàn)閱卷自動(dòng)化。本系統(tǒng)與傳統(tǒng)的光學(xué)標(biāo)記閱讀機(jī)閱卷系統(tǒng)的不同之處在于,本閱卷系統(tǒng)對(duì)答題卡紙張和填涂符號(hào)均無(wú)特殊要求,無(wú)需特制答題卡,無(wú)特殊涂寫要求[3]。
1 系統(tǒng)實(shí)現(xiàn)流程及模塊組成
(1)設(shè)計(jì)和定義答題卡,將允許用戶填寫的手寫符號(hào)限定在一定的矩形區(qū)域內(nèi);
(2)通過(guò)CCD采像設(shè)備采集答題卡圖像,經(jīng)掃描、采樣、量化等過(guò)程,同時(shí)將答題卡圖像以JPG格式保存在主機(jī)內(nèi)存和硬盤里;
(3)對(duì)答題卡圖像進(jìn)行預(yù)處理,包括粘連字符分割、灰度變換、二值化、圖像偏斜糾正、平滑和細(xì)化等過(guò)程,以將答題卡固有的紙張問(wèn)題、書寫不規(guī)范、答題卡傳動(dòng)機(jī)械定位精度所帶來(lái)的干擾因素排除掉,并為后續(xù)的識(shí)別工作做好準(zhǔn)備[4];
(4)對(duì)答題卡信息進(jìn)行識(shí)別。通過(guò)圖像分析抽取圖像,并經(jīng)過(guò)綜合特征提取,結(jié)合答題卡表格的邏輯結(jié)構(gòu)和幾何結(jié)構(gòu),準(zhǔn)確識(shí)別填涂在矩形塊位置上的“√”、“w”、“○”等手寫符號(hào)得到答題信息。答題卡識(shí)別算法的優(yōu)劣決定了整個(gè)系統(tǒng)的性能(如識(shí)別的精度、可靠性等),是整個(gè)軟件系統(tǒng)中最重要的部分;
(5)對(duì)識(shí)別的答題信息進(jìn)行加工、整理、分析和統(tǒng)計(jì),結(jié)合軟件的設(shè)置對(duì)答題卡信息進(jìn)行判分。
綜上所述,系統(tǒng)實(shí)現(xiàn)流程如圖1所示。
為了便于學(xué)生和教師查詢和分析閱卷結(jié)果,本閱卷系統(tǒng)還設(shè)置了用戶登錄模塊、學(xué)生信息管理模塊、課程基本信息管理模塊、試卷分析模塊、成績(jī)查詢模塊、答題卡圖像查詢模塊、報(bào)表打印模塊和補(bǔ)考管理模塊。其中試卷分析模塊對(duì)試卷的各項(xiàng)數(shù)據(jù)進(jìn)行分析和統(tǒng)計(jì),包括最高分、最低分、平均數(shù)、及格率方差、標(biāo)準(zhǔn)差等,完成試卷分析功能;答題卡圖像查詢模塊允許學(xué)生通過(guò)姓名查詢存儲(chǔ)在硬盤中的答題卡圖片;補(bǔ)考管理模塊統(tǒng)計(jì)不及格、缺考或舞弊學(xué)生信息,生成補(bǔ)考表;報(bào)表打印模塊完成答題卡圖片、成績(jī)報(bào)告單、試卷分析報(bào)告和補(bǔ)考表等的打印功能。系統(tǒng)模塊組成如圖2所示。
2 系統(tǒng)主要實(shí)現(xiàn)技術(shù)
2.1答題卡設(shè)計(jì)
答題卡設(shè)計(jì)成表格的形式,由試卷答題卡基本信息、考生基本信息、答題卡填寫說(shuō)明及題目選項(xiàng)列表組成,考生用“√”、“w”、“○”等手寫符號(hào)在相應(yīng)的矩形框中選擇答案。答題卡示例如圖3所示。
答題卡版面與普通表格一樣具有幾何結(jié)構(gòu)和邏輯結(jié)構(gòu),幾何結(jié)構(gòu)反映了所填寫的信息區(qū)域的位置和大小,邏輯結(jié)構(gòu)則表示答題卡中所填寫信息的實(shí)際意義以及填寫信息與填寫項(xiàng)之間的對(duì)應(yīng)關(guān)系。
在傳統(tǒng)的光學(xué)標(biāo)記閱讀機(jī)閱卷系統(tǒng)中,答題卡的幾何結(jié)構(gòu)大部分都是采用定位標(biāo)記塊進(jìn)行描述,這種描述方法具有很多缺點(diǎn),如浪費(fèi)版面空間、缺乏靈活性、版面設(shè)計(jì)比較復(fù)雜、對(duì)印刷質(zhì)量要求高、不便于修改等,而且定位標(biāo)記塊看起來(lái)也不美觀。在本系統(tǒng)答題卡版面中,填寫信息在幾何結(jié)構(gòu)上可以看成由若干個(gè)互不相交的矩形塊組成,它們組成了答題卡版面的最小單位[5],可以以答題卡的邊框線建立二維坐標(biāo)系,以矩形的對(duì)角頂點(diǎn)坐標(biāo)來(lái)描述矩形塊的位置和大小,完成對(duì)答題卡的幾何結(jié)構(gòu)描述,該方法簡(jiǎn)潔、靈活,便于識(shí)別。
答題卡的邏輯結(jié)構(gòu)描述是定義矩形塊的屬性。矩形塊的屬性包括對(duì)填寫項(xiàng)以“√”、“w”、“○”表示的選擇或者不選擇。
本系統(tǒng)采用文檔結(jié)構(gòu)描述語(yǔ)言同時(shí)對(duì)幾何結(jié)構(gòu)和邏輯結(jié)構(gòu)進(jìn)行描述。設(shè)一張答題卡包含n個(gè)填寫有信息的矩形塊B1,B2,...,Bn, 矩形塊之間存在著上下結(jié)構(gòu)和左右結(jié)構(gòu)的幾何位置關(guān)系,其邏輯順序一般是從上到下、從左到右,在描述文檔結(jié)構(gòu)時(shí)也采用這種順序,則文檔結(jié)構(gòu)描述語(yǔ)言DDL 表示如下:
其中i 是答題卡的序號(hào);n是矩形塊的總數(shù);xi為矩形塊在水平方向的位置;yi為矩形塊在垂直方向的位置;li為矩形塊的長(zhǎng)度;wi為矩形塊的寬度;attri表示矩形塊的屬性,當(dāng)attri為0時(shí),表示該矩形塊的填寫內(nèi)容為待識(shí)別的字符,attri為1時(shí),矩形塊作為圖像保存。
將答題卡設(shè)計(jì)成常見的表格形式,一方面它和一般考試用到的答題卡的形式類似,符合人們的使用習(xí)慣和書寫習(xí)慣;另一方面可以利用文檔描述語(yǔ)言對(duì)它的幾何結(jié)構(gòu)和邏輯結(jié)構(gòu)進(jìn)行描述,以便更好地對(duì)矩形框內(nèi)的字符特征進(jìn)行提取與識(shí)別,辨別矩形框中的字符,與標(biāo)準(zhǔn)答案比對(duì),對(duì)考生客觀題進(jìn)行判分。
2.2 答題卡信息識(shí)別
本系統(tǒng)采用漢字識(shí)別方法中的統(tǒng)計(jì)決策方法對(duì)手寫字符進(jìn)行識(shí)別,如圖4所示,首先提取字符特征,對(duì)字符進(jìn)行分類判別,經(jīng)過(guò)訓(xùn)練和識(shí)別兩個(gè)階段,最后識(shí)別出字符[6]。訓(xùn)練階段,收集日常人們習(xí)慣的手寫符號(hào)為樣本,經(jīng)過(guò)篩選分類建立樣本庫(kù),以便對(duì)待識(shí)別字符進(jìn)行分類和識(shí)別。識(shí)別階段,將待識(shí)別符號(hào)的特征與訓(xùn)練階段中所建立的標(biāo)準(zhǔn)樣本特征比較,計(jì)算最大相似度以判別該手寫符號(hào)所屬的類別[7]。
2.2.1 字符特征提取
學(xué)生在答題過(guò)程中由于緊張和個(gè)人原因,寫出的√、w、○等答題符號(hào)往往千變?nèi)f化。為準(zhǔn)確識(shí)別這些手寫符號(hào),需要進(jìn)行字符結(jié)構(gòu)特征提取,將最能體現(xiàn)這個(gè)字符特點(diǎn)和字符間差異的結(jié)構(gòu)特征提取出來(lái)。本系統(tǒng)提取的特征是以下特征的組合。
(1)點(diǎn)特征
點(diǎn)特征是一種重要的結(jié)構(gòu)特征,是指字符筆畫中的端點(diǎn)。端點(diǎn)反映了字符中筆畫的起點(diǎn)和終點(diǎn)信息,與該點(diǎn)相連的點(diǎn)數(shù)為 1。
(2)筆畫密度特征
筆畫密度特征是取得符號(hào)水平方向筆畫密度函數(shù)d(x)和垂直方向的筆畫密度函數(shù)d(y),然后進(jìn)行相同項(xiàng)合并[1]。如圖5所示,符號(hào)“○”水平方向筆劃密度函數(shù)d(x)和垂直方向的筆劃密度函數(shù)d(y)分別是: d(x)=(1,...,1,2,...,2,1,...,1),d(y)=(1,...,1,2,...,2,1,...,1),則合并后筆畫密度可表示為d(x)=d(y)=(1,2,1)。
評(píng)論