新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設計應用 > 基于SPCE061A的語音識別技術應用

基于SPCE061A的語音識別技術應用

作者: 時間:2012-10-25 來源:網絡 收藏

是凌陽公司設計的一種16位單片機,該款單片機資源豐富,具有極高的性價比,該單片機內置有2路DA轉換,8路AD轉換及在線仿真,并且有16×16位的乘法運算和內積運算的DSP功能,這為它進行復雜的數字信號的壓縮編碼與解碼提供了便利,還可以做數字濾波器。這些特點為我們進行在處理尤其是領域的應用提供了便利。

語音技術在各個層面均有廣泛的應用前景。電腦軟件領域,例如:語音命令、語音輸入,對話系統(tǒng)、查詢系統(tǒng)、教學軟件、游戲軟件等;消費性電子產品領域,例如:電子記事本、聲控玩具、語音拔號功能的手機等;工業(yè)產品領域,例如:車用移動電話、車用導航系統(tǒng)等;電話系統(tǒng)領域,例如:語音總機服務、語音拔號、語音訂票訂位等。

本文引用地址:http://butianyuan.cn/article/148312.htm

1 語音識別基本原理

語音識別就是讓機器聽得懂人們所講的話,基本框架如圖1和圖2所示。圖1是語音訓練模型的部分:將已知的語音信號經由端點偵測(End Point Detection)及特征參數求取(Feature Extraction)而產生標準的語音參考樣本。

圖2是語音識別的部分。將待測的語音信號,經與圖1同樣的處理步驟求得特征參數后再與前述的標準語音參考樣本對比,找出最相似的參考樣本作為辨識的結果。

2 語音識別分類

若依使用者的限制而言可分為特定人語音與非特定人語音識別。

2.1 特定人語音識別

使用特定人語音識別系統(tǒng)前,須先把使用者的語音參考樣本存入當成比對的資料庫,即特定人語音識別系統(tǒng)在使用前就必須先進行圖1的訓練學習步驟。

2.2 非特定人語音識別

使用本系統(tǒng)前根本不需要先學習,便能直接使用。一套最佳的語音識別系統(tǒng)是不須經過學習便能進行語音識別,但通常辯識率都比較低。

另外以說話方式的連續(xù)是否又可分為非連續(xù)語音識別和連續(xù)語音識別。對于非連續(xù)語音來說,識別所說的每一個字必須分開辨認;而連續(xù)語音識別可以一般自然流利的說話方式來進行人性化的語音識別,但由于關系到相連音的問題,很難達到好的辨認效果。

3 芯片特性簡介

是一款μ′nSP內核的16位單片機,其芯片特性如下:(1)工作電壓:內核工作電壓VDD為3.0~3.6V(CPU),I/O口工作電壓VDDH為2.4~5.5V(I/O);(2)CPU時鐘:0.32MHz~49.152MHz;(3)內置2K字SRAM和32K閃存ROM;(4)系統(tǒng)處于備用狀態(tài)下(時鐘處于停止狀態(tài)),耗電小于2μA@3.6V;(5)具備觸鍵喚醒的功能;(6)32位通用可編程輸入/輸出端口;(7)2個16位可編程定時器/計數器(可自動預置初始計數值);(8)7通道10位電壓模-數轉換器(ADC)和單通道聲音模-數轉換器;(9)2個10位DAC(數-模轉換)輸出通道;(10)14個中斷源可來自定時器A/B,時基,2個外部時鐘源輸入,鍵喚醒;(11)具備串行設備接口;(12)低電壓復位(LVR)功能和低電壓監(jiān)測(LVD)功能;(13)內置在線仿真(ICE,In-Circuit Emulator)接口。

SPCE061A的內部結構框圖如圖3所示。

4 SPCE061A的語音識別應用

4.1 硬件電路簡述

SPCE061A的D/A轉換通道的硬件實現大致有兩類,一類是直接采用數/模轉換器(DAC)方式,另一類是直接采用脈寬調制(PWM)驅動方式,SPCE061A音頻輸出的結構就是由兩個DAC通道或一個PWM驅動通道構成。兩類實現方式實質都為數/模轉換,都是將數字信號轉換成電流模擬信號輸出。SPCE061A的音頻輸出采用雙通道數/模轉換DAC方式,即數字信號通過10位DAC轉換成3mA驅動的電流模擬信號輸出。語音提示輸出直接采用DAC通道,經信號放大后,由揚聲器輸出。

語音識別電路比較簡單,MIC選用駐極體話筒。駐極體話筒具有結構簡單、重量輕、體積小、無方向性、頻率響應寬、保真度好等優(yōu)點,它的偏壓由SPCE061A的VMIC管腳提供。

4.2 系統(tǒng)軟件

語音識別分為語音樣板訓練和語音識別兩個過程。我們將標準模式的存儲空間稱之為“詞庫”,而把標準模式稱之為“樣板”。所謂語音樣板訓練,即將待識別的命令進行頻譜分析,提取特征參數作為識別的標準模式。語音識別的過程是提取語音命令的特征參數,與詞庫中的樣板比較,取相似度最好的樣板命令序號作為識別結果。凌陽科技公司提供語音樣板訓練工具和語音識別庫函數,每次可識別30條語音命令,命令較多可以分多組進行,語音識別流程見圖4所示。

其中,BSR-GetResult函數為啟動辯識,當無命令識別出來時,返回0;識別器停止、未初始化或識別未激活返回-1;當識別不合格時返回-2;當識別出來時返回命令的序號。部分程序源代碼如下。

以上程序代碼是SPCE061A在一種特定人智能語音識別電動小車上的應用。經大量實驗測試表明,將SPCE061A應用于語音識別領域,系統(tǒng)性能穩(wěn)定、聲音質量和識別效果較好。但在環(huán)境噪聲或干擾信號高于語音信號時,系統(tǒng)將無法進行正確的語音識別,在背景噪聲處理及其工程實際上還要進一步改進。



評論


相關推薦

技術專區(qū)

關閉