基于ATMEGAl28的語音識(shí)別系統(tǒng)設(shè)計(jì)

作者：時(shí)間：2013-09-13 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

0 引言

傳統(tǒng)的人機(jī)交互依靠復(fù)雜的鍵盤或按鈕來實(shí)現(xiàn)，隨著科技的發(fā)展，一些新型的人機(jī)交互方式也隨之誕生，帶給人們?nèi)碌捏w驗(yàn)。基于語音識(shí)別的人機(jī)交互方式是目前熱門的技術(shù)之一。但是語音識(shí)別功能算法復(fù)雜、計(jì)算量大，一般在計(jì)算機(jī)上實(shí)現(xiàn)，即使是嵌入式方面，多數(shù)方案也需要運(yùn)算能力強(qiáng)的ARM或DSP，并且外擴(kuò)RAM、FLASH等資源，增加了硬件成本，這些特點(diǎn)無疑限制了語音識(shí)別技術(shù)的應(yīng)用，尤其是嵌入式領(lǐng)域。
本系統(tǒng)采用的主控MCU為Atmel公司的ATMEGA128，語音識(shí)別功能則采用ICRoute公司的單芯片LD3320。LD3320內(nèi)部集成優(yōu)化過的語音識(shí)別算法，無需外部FLASH，RAM資源，可以很好地完成非特定人的語音識(shí)別任務(wù)。

1 整體方案設(shè)計(jì)

1．1 語音識(shí)別原理

在計(jì)算機(jī)系統(tǒng)中，語音信號(hào)本身的不確定性、動(dòng)態(tài)性和連續(xù)性是語音識(shí)別的難點(diǎn)。主流的語音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論，原理如圖1所示。

語音識(shí)別通常需要兩個(gè)階段完成。第一階段是訓(xùn)練，主要是提取語音特征，用戶往往需要進(jìn)行幾次語音訓(xùn)練，經(jīng)過預(yù)處理和特征提取后獲得相應(yīng)特征參數(shù)。第二階段是識(shí)別，識(shí)別過程就是將輸入的語音特征參數(shù)和模型庫(kù)中的參數(shù)進(jìn)行相似性比較，最后輸出匹配度最高的特征參數(shù)完成識(shí)別過程。

2 硬件電路設(shè)計(jì)

硬件框架如圖2所示，電路主要由主控制器電路和語音識(shí)別電路組成。ATMEGA128控制LD3320語音識(shí)別電路，輸出結(jié)果由ATMEGA128處理，然后通過總線來控制不同的設(shè)備。

2．1 控制器電路

控制器選用Atmel公司生產(chǎn)的ATMEGA128芯片，采用先進(jìn)的RISC結(jié)構(gòu)，內(nèi)置128 KB FLASH，4 KB SRAM，4 KB E2PROM等豐富資源。該芯片是業(yè)界高性能、低功耗的8位微處理器，并在8位單片機(jī)市場(chǎng)有著廣泛應(yīng)用。

2．2 LD3320語音識(shí)別電路

LD3320芯片是一款“語音識(shí)別”專用芯片。該芯片集成了語音識(shí)別處理器和一些外部電路，包括A／D、D／A轉(zhuǎn)換器、麥克風(fēng)接口、聲音輸出接口等，而且可以播放MP3。不需要外接任何的輔助芯片如FLASH，RAM等，直接集成到產(chǎn)品中即可以實(shí)現(xiàn)語音識(shí)別、聲控、人機(jī)對(duì)話功能。

圖3為L(zhǎng)D3320電路原理圖，與MCU通信采用SPI總線方式，時(shí)鐘不能超過1．5MHz。

麥克風(fēng)工作電路如圖4所示，音頻輸出只需將揚(yáng)聲器連接到SPOP和SPON即可。使用SPI總線方式時(shí)，LD3320的MD要設(shè)為高電平，SPIS設(shè)為低電平。SPI總線的引腳有SDI，SDO，SDCK以及SCS。INTB為中斷端口，當(dāng)有識(shí)別結(jié)果或MP3數(shù)據(jù)不足時(shí)，會(huì)觸發(fā)中斷，通知MCU處理。RSTB引腳是LD3320復(fù)位端，低電平有效。LED1，LED2作為上電指示燈。

新聞中心

基于ATMEGAl28的語音識(shí)別系統(tǒng)設(shè)計(jì)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)