新聞中心

EEPW首頁 > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 蘋果推高精度手寫識(shí)別系統(tǒng),可準(zhǔn)確識(shí)別3萬字符集

蘋果推高精度手寫識(shí)別系統(tǒng),可準(zhǔn)確識(shí)別3萬字符集

作者: 時(shí)間:2017-09-28 來源:量子位 收藏

  在手機(jī)、平板和可穿戴設(shè)備不斷普及的今天,比以往任何時(shí)候都重要。但這并非易事,拿漢字來說,讓移動(dòng)設(shè)備識(shí)別大量手寫漢字字符還是個(gè)挑戰(zhàn)。

本文引用地址:http://butianyuan.cn/article/201709/364988.htm

  今天,機(jī)器學(xué)習(xí)博客發(fā)表文章《Real-Time Recognition of Handwritten Chinese Characters Spanning a Large Inventory of 30,000 Characters》,介紹了如何在iPhone、iPad和Apple Watch的Scribble模式中解決上述問題。

  這套基于深度學(xué)習(xí)的識(shí)別系統(tǒng),能準(zhǔn)確處理多達(dá)3萬個(gè)字符。為了提高準(zhǔn)確性,研究人員還特別注意了數(shù)據(jù)的收集環(huán)境、典型字體和訓(xùn)練方案。他們發(fā)現(xiàn),這套系統(tǒng)還能支持更大的字符庫。

  蘋果研究人員的實(shí)驗(yàn)表明,只要訓(xùn)練數(shù)據(jù)集的數(shù)量夠大質(zhì)量夠好,準(zhǔn)確率只會(huì)隨著字符量的增加緩慢下降。量子位將這篇博客中的要點(diǎn)翻譯整理,與大家分享——

  

蘋果推出高精度手寫識(shí)別系統(tǒng),可準(zhǔn)確識(shí)別3萬字符集

 

  簡(jiǎn)介

  能夠提高用戶在移動(dòng)設(shè)備上的體驗(yàn),尤其適用于漢字這種相對(duì)復(fù)雜文字的使用者。由于漢字?jǐn)?shù)量和書寫樣式多,確實(shí)是個(gè)大挑戰(zhàn)。

  字母類的語言也就涉及到100多個(gè)字母的排列順序,但在中國(guó)國(guó)家標(biāo)準(zhǔn)GB 18030-2005《信息技術(shù)中文編碼字符集》中就收錄了27533個(gè)字符。

  日常生活中,人們只用得到最具代表性的一小部分。因此,國(guó)標(biāo)GB2312-80《信息交換用字符編碼字符集·基本集》中僅包含6763個(gè)字符。中科院自動(dòng)化研究所創(chuàng)建的CASIA數(shù)據(jù)庫中所用字符有6763個(gè),其中一級(jí)字符(常用字)3755個(gè),二級(jí)字符(非常用字)3008個(gè)。

  然而,早期識(shí)別算法主要依賴分析筆畫的構(gòu)造。后來,研究人員對(duì)研究漢字整體結(jié)構(gòu)的方法產(chǎn)生了興趣。由于眾多漢字具有相似性,漢字識(shí)別的難度加大,研究人員通過分類降低錯(cuò)誤識(shí)別。

  在MNIST數(shù)據(jù)集的拉丁文任務(wù)中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)嶄露頭角。因?yàn)橛?xùn)練數(shù)據(jù)足夠大,根據(jù)需要補(bǔ)充合成樣例,CNN無疑是最好的方法。美中不足的是,這些研究中分的類別很少。

  當(dāng)我們開始研究漢字的大規(guī)模識(shí)別時(shí),CNN似乎是個(gè)不錯(cuò)的選擇。但這種方法需要將CNN擴(kuò)展至約3萬個(gè)字符,并且在嵌入設(shè)備上實(shí)時(shí)保持性能。

  

蘋果推出高精度手寫識(shí)別系統(tǒng),可準(zhǔn)確識(shí)別3萬字符集

 

  系統(tǒng)結(jié)構(gòu)

  我們采用的是CNN通用架構(gòu),類似于之前在MNIST上手寫識(shí)別實(shí)驗(yàn)中的架構(gòu)。系統(tǒng)結(jié)構(gòu)如圖所示:

  

蘋果推出高精度手寫識(shí)別系統(tǒng),可準(zhǔn)確識(shí)別3萬字符集

  △典型的CNN架構(gòu)

  出于性能原因,我們將輸入設(shè)定為一個(gè)中等分辨率的圖像(48x48像素),這是普通手寫漢字的大小。之后我們將它輸入至特征提取層,交替進(jìn)行卷積和子采樣。最后一個(gè)特征提取層通過全連接層輸出。

  從一個(gè)卷積層到下一個(gè)卷積層,我們選擇了kernel的大小和特征映射的數(shù)量得出粗粒度特征。通過用2x2 kernel,我們對(duì)最大池化層進(jìn)行了采樣,每個(gè)輸出層都有一個(gè)節(jié)點(diǎn)。

  下圖展示了使用CNN的運(yùn)行結(jié)果,其中“Hz-1”指的是一級(jí)字符庫(3755個(gè)字符),“CR(n)”表示輸入法界面排序?yàn)閚的可能字符的準(zhǔn)確度。除了常見的“最可能字”(top-1)和top-10的準(zhǔn)確性外,我們也特意提到了top-4的準(zhǔn)確性,因?yàn)檩斎敕ń缑嬉婚_始會(huì)顯示4個(gè)可能漢字,而top-4的準(zhǔn)確性是用戶體驗(yàn)提升的重要指標(biāo)。

  

蘋果推出高精度手寫識(shí)別系統(tǒng),可準(zhǔn)確識(shí)別3萬字符集

  △在CASIA在線數(shù)據(jù)庫3755個(gè)字符上的運(yùn)行結(jié)果

  除此以外,我們對(duì)在iOS設(shè)備內(nèi)部收集的額外訓(xùn)練數(shù)據(jù)感興趣。此數(shù)據(jù)涵蓋了更多字體樣式,并包含每個(gè)字符大量的訓(xùn)練實(shí)例。在同一個(gè)有3775個(gè)字符測(cè)試集的訓(xùn)練結(jié)果如下:

  

蘋果推出高精度手寫識(shí)別系統(tǒng),可準(zhǔn)確識(shí)別3萬字符集

 

  這次訓(xùn)練準(zhǔn)確度有些許提高,總體來說,在測(cè)試集中出現(xiàn)的大多數(shù)漢字書寫風(fēng)格已經(jīng)在CASIA訓(xùn)練集中得到了很好覆蓋,也表明折疊訓(xùn)練數(shù)據(jù)不會(huì)使準(zhǔn)確性下降,附加樣式在對(duì)底層模型沒有負(fù)影響。

  擴(kuò)展至3萬字

  我們想為用戶提供從印刷體到草書等各種可能的輸入字體。為了盡可能多涵蓋不同的漢字書寫風(fēng)格,我們從中國(guó)幾個(gè)地區(qū)找到了一些書法家的數(shù)據(jù)。讓我們驚訝的是,大多數(shù)用戶表示沒有見過這些罕見的漢字。

  因此,我們又收集了不同年齡段、性別和不同教育背景的用戶數(shù)據(jù),發(fā)現(xiàn)了各種各樣的書寫風(fēng)格。下圖顯示了樣例中“花”字在楷書、草書和“隨便畫幾筆”風(fēng)格下的樣本。

  

蘋果推出高精度手寫識(shí)別系統(tǒng),可準(zhǔn)確識(shí)別3萬字符集

 

  事實(shí)上,在日常生活中,用戶輸入經(jīng)常是“隨便畫幾筆”,出現(xiàn)一種非常不相似的曲線變化。有時(shí)也會(huì)讓系統(tǒng)混淆成其他字符。下圖展示了我們?cè)跀?shù)據(jù)中觀察到的一些具體例子。需要注意的是,有足夠的訓(xùn)練數(shù)據(jù)能區(qū)分像Figure 7這樣的草書變化很重要。

  

蘋果推出高精度手寫識(shí)別系統(tǒng),可準(zhǔn)確識(shí)別3萬字符集

 

  用這種方法,我們收集了大量漢字,將可識(shí)別字符從3755增加到大約3萬。

  

蘋果推出高精度手寫識(shí)別系統(tǒng),可準(zhǔn)確識(shí)別3萬字符集

  △30000個(gè)字符在CASIA在線數(shù)據(jù)庫的結(jié)果

  為了解系統(tǒng)如何支持30000個(gè)手寫字符識(shí)別,我們還在許多不同測(cè)試集上對(duì)其進(jìn)行評(píng)估,這些測(cè)試集支持所有字體的字符。平均測(cè)試結(jié)果如下:

  

蘋果推出高精度手寫識(shí)別系統(tǒng),可準(zhǔn)確識(shí)別3萬字符集

  △不同字體的30000個(gè)字符在多個(gè)內(nèi)部測(cè)試集的平均結(jié)果

  當(dāng)然,上面兩張圖的結(jié)果不能直接比較,因?yàn)樗鼈儗儆诓煌臏y(cè)試集上。但我們能發(fā)現(xiàn),top-1和top-4的準(zhǔn)確性相當(dāng),top-4達(dá)到了95.1%的準(zhǔn)確率,結(jié)果尚好。

  綜上所述,我們?cè)谇度胧皆O(shè)備上構(gòu)建了覆蓋3萬個(gè)字符的高精度手寫識(shí)別系統(tǒng)。只要有足夠數(shù)量和質(zhì)量的訓(xùn)練數(shù)據(jù),識(shí)別準(zhǔn)確度就不會(huì)大幅降低。未來,我們能精確識(shí)別的漢字字符還會(huì)更多。



關(guān)鍵詞: 蘋果 手寫識(shí)別

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉