如何運用RSC-3x開發(fā)出高性能的語音識別產(chǎn)品
摘要:本文給出了在運用RSC-3x設(shè)計高性能的語音識別產(chǎn)品時應(yīng)考慮的與硬件有關(guān)的若干問題:噪音降除、電路設(shè)計、PCB設(shè)計、麥克風(fēng)的選擇、麥克風(fēng)的安放、電源設(shè)計。
關(guān)鍵詞: RSC-3x, 識別率,噪音降除,電路設(shè)計,PCB設(shè)計,麥克風(fēng),電源
RSC-3x是美國Sensory公司出品的交互式語音產(chǎn)品。它同RSC其他系列的產(chǎn)品一樣運用神經(jīng)元算法實現(xiàn)了語音識別的功能,在理想環(huán)境下,其識別率可達97%以上。并具有語音合成、錄音回放、四聲道音樂合成等語音處理功能。由于內(nèi)含一個8位處理器,RSC-3x還可實現(xiàn)通用處理器的系統(tǒng)控制功能。RSC-3x的高性能和適中的價格使得它主要應(yīng)用在消費類電子產(chǎn)品和價格敏感的家電產(chǎn)品上。
但是,如何才能運用RSC-3x系列產(chǎn)品開發(fā)出性能良好的語音識別產(chǎn)品呢?本文給出了在設(shè)計語音識別產(chǎn)品時應(yīng)在硬件方面考慮的若干問題。
一、噪音降除
語音識別的準(zhǔn)確率(簡稱識別率)會受到諸多因素的干擾而下降。一個導(dǎo)致識別率下降最常見的因素就是噪音:來自系統(tǒng)內(nèi)部的電子噪音和麥克風(fēng)所拾取的聲頻噪音。RSC-3x的一個主要革新技術(shù)就是在其片內(nèi)加入了一個聲頻預(yù)放電路。來自典型的駐極體麥克風(fēng)的電壓信號只是毫伏級的,而能被RSC-3x使用的整個預(yù)放增益信號卻要放大到200倍以上。通過RSC-3x內(nèi)置的預(yù)放電路,只需外加少許的幾個被動元器件就可以達到這個放大作用。良好的接地措施和消除模擬電路中的交叉干擾會進一步確保良好的識別率。鼓勵用戶大聲說話和接近麥克風(fēng)可以輔助獲得良好的信噪比。
二、電路設(shè)計
圖一是RSC-3x聲頻預(yù)放部分的參考電路。阻值為1.5K的麥克風(fēng)電阻(Rx)對系統(tǒng)增益具有很大的影響,因此應(yīng)根據(jù)麥克風(fēng)的敏感度來決定其值的大小。圖中的1.5K是典型值。
下表所列為Rx和Cx的推薦值:
Rx | Cx |
1K | 0.01uF |
1.5K | 0.0068uF |
2.2K | 0.0047uF |
2.7K | 0.0033uF |
3.9K | 0.0027uF |
4.7K | 0.0022uF |
三、PCB設(shè)計
推薦使用帶地平面的雙面印制的PCB板。地平面應(yīng)覆蓋整個模擬電路區(qū)域而僅在RSC-3x附近接地。為減少交叉干擾,模擬地和數(shù)字地應(yīng)盡可能地從物理上分隔開來。特別要注意的是:將高速時鐘線(如地址線和數(shù)據(jù)線)遠(yuǎn)離麥克風(fēng)元器件和電路。
每個數(shù)字IC都要在緊挨著VDD的地方接一個0.1uF的旁路電容,RSC芯片的每對VDD腳和VSS腳間都要接一個。該旁路電容應(yīng)該是最大電壓為50V的陶瓷電容。如果使用了3端穩(wěn)壓器(如7805),應(yīng)在其輸入/輸出腳和地之間接近穩(wěn)壓器的地方接上鉭旁路電容。
在使用電池的產(chǎn)品中,串接一個二極管以避免電池裝反時損壞電路。
如果產(chǎn)品中除了RSC還有其他需要用到數(shù)字時鐘的模塊(如開關(guān)電源、LCD驅(qū)動器等),特別要注意防止這些信號進入到RSC的聲頻電路中去。
四、麥克風(fēng)的選擇
對絕大部分的產(chǎn)品來說,廉價的多向駐極體電容麥克風(fēng)(最小敏感度為-60dB)就足夠了。在有些應(yīng)用中,信號與音頻噪音來源于不同方向時,定向麥克風(fēng)可能更適合些。由于定向麥克風(fēng)的頻率反應(yīng)取決于麥克風(fēng)與聲源間的距離,這樣的麥克風(fēng)應(yīng)謹(jǐn)慎使用。為得到最佳性能,語音識別產(chǎn)品應(yīng)運用于安靜的環(huán)境,說話人的嘴應(yīng)與麥克風(fēng)極為接近。 如果產(chǎn)品是為在嘈雜環(huán)境中使用而設(shè)計的,設(shè)計時要充分考慮周圍環(huán)境的噪音。提高信噪比將有助于產(chǎn)品的成功。
五、 麥克風(fēng)的安放
設(shè)計恰當(dāng)?shù)柠溈孙L(fēng)嵌入方式和選擇性能一致的麥克風(fēng)是重要的。因為對麥克風(fēng)不當(dāng)?shù)穆晫W(xué)布置會降低RSC-3x的識別率。麥克風(fēng)元件有許多種可能的物理放置方式,但有的就會比別的性能更好效果更佳。為此,Sensory推薦了以下的麥克風(fēng)放置方案:
首先: 產(chǎn)品中,麥克風(fēng)元件應(yīng)盡可能地接近外殼,應(yīng)完全位于塑料外殼內(nèi)。麥克風(fēng)元件和外殼間不應(yīng)有任何空隙。只要有空隙就會產(chǎn)生回音,從而降低識別率。
其次:麥克風(fēng)元件的前部應(yīng)確保干凈無污,以免干擾識別。麥克風(fēng)前面的外殼上要保留直徑至少為5mm的孔。如果一定要在麥克風(fēng)的前面加塑料表面的話,塑料表面要盡可能地薄,最好不要超過0.7mm。
三:如果可能的話,麥克風(fēng)與外殼間應(yīng)聲音隔離??梢詫Ⅺ溈孙L(fēng)用橡皮或泡沫等海綿物質(zhì)包裹起來。這樣做的目的在于防止由搬運或震動產(chǎn)品時產(chǎn)生的聽覺噪音被麥克風(fēng)采集。這種外來的噪音會降低識別率。
如果麥克風(fēng)從距離說話人的嘴15cm的地方移到距離為30cm的地方,信號功率就降低了1/4。高音和低音間的差別也大于1/4。RSC-3x提供了一個AGC(自動增益調(diào)節(jié))來補償太大或太小的聲音信號。AGC在麥克風(fēng)的預(yù)放內(nèi)工作。如果超過了AGC的調(diào)節(jié)范圍,軟件會給說話人提供一個聲音回饋,如提示“請說大聲點”或“請說小聲點”來提醒說話人。
六、電源設(shè)計
由于 RSC-3x工作時其語音識別電路要消耗約10mA 的電流,電源的設(shè)計在這里顯得尤為重要。如果系統(tǒng)連續(xù)聆聽尋找一個給定的詞匯,那么在幾小時內(nèi)就能消耗完一個紐扣電池的電能,幾天內(nèi)消耗掉一個大容量的堿性電池的電能。因此如果產(chǎn)品需要識別器一直處于工作狀態(tài)的話,系統(tǒng)應(yīng)該采用市電供電。相反的,如果電源采用電池供電的話,那么產(chǎn)品大部分時間應(yīng)工作于低功耗的“睡眠”狀態(tài),只在需要識別時被喚醒就行了。RSC-3x的喚醒可以通過按鍵或其他IO口事件或震蕩器二的時鐘倒計時來實現(xiàn),但無法被麥克風(fēng)采集到的語音信號喚醒。
使用市電供電時,在 VDD和GND間測得的市電電源波紋不應(yīng)超過5mV。因此,需要在電源部分增加直流電源穩(wěn)壓器(如7805)來穩(wěn)定電壓。
綜上所述,只要在硬件設(shè)計方面多加注意,就可以得到很好的信噪比,開發(fā)出高性能的語音識別產(chǎn)品。
評論