智能機(jī)器人語音識(shí)別技術(shù)

作者：時(shí)間：2011-07-22 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

摘要：給出了一種由說話者說出控制命令，機(jī)器人進(jìn)行識(shí)別理解，并執(zhí)行相應(yīng)動(dòng)作的實(shí)現(xiàn)技術(shù)。在此，提出了一種高準(zhǔn)確率端點(diǎn)檢測(cè)算法、高精度定點(diǎn)DSP動(dòng)態(tài)指數(shù)定標(biāo)算法，以解決定點(diǎn)DSP實(shí)現(xiàn)連續(xù)隱馬爾科夫模型CHMM識(shí)別算法時(shí)所涉及的大量浮點(diǎn)小數(shù)運(yùn)算問題，提高了定點(diǎn)DSP實(shí)現(xiàn)的實(shí)時(shí)性、精度，及其識(shí)別率。
關(guān)鍵詞：智能機(jī)器人；語音識(shí)別；隱馬爾可夫模型；DSP

0 引言
語音控制的基礎(chǔ)就是語音識(shí)別技術(shù)，可以是特定人或者非特定人的。非特定人的應(yīng)用更為廣泛，對(duì)于用戶而言不用訓(xùn)練，因此也更加方便。語音識(shí)別可以分為孤立詞識(shí)別，連接詞識(shí)別，以及大詞匯量的連續(xù)詞識(shí)別。對(duì)于智能機(jī)器人這類嵌入式應(yīng)用而言，語音可以提供直接可靠的交互方式，語音識(shí)別技術(shù)的應(yīng)用價(jià)值也就不言而喻。

1 語音識(shí)別概述
語音識(shí)別技術(shù)最早可以追溯到20世紀(jì)50年代，是試圖使機(jī)器能“聽懂”人類語音的技術(shù)。按照目前主流的研究方法，連續(xù)語音識(shí)別和孤立詞語音識(shí)別采用的聲學(xué)模型一般不同。孤立詞語音識(shí)別一般采用DTW動(dòng)態(tài)時(shí)間規(guī)整算法。連續(xù)語音識(shí)別一般采用HMM模型或者HMM與人工神經(jīng)網(wǎng)絡(luò)ANN相結(jié)合。
語音的能量來源于正常呼氣時(shí)肺部呼出的穩(wěn)定氣流，喉部的聲帶既是閥門，又是振動(dòng)部件。語音信號(hào)可以看作是一個(gè)時(shí)間序列，可以由隱馬爾可夫模型(HMM)進(jìn)行表征。語音信號(hào)經(jīng)過數(shù)字化及濾噪處理之后，進(jìn)行端點(diǎn)檢測(cè)得到語音段。對(duì)語音段數(shù)據(jù)進(jìn)行特征提取，語音信號(hào)就被轉(zhuǎn)換成為了一個(gè)向量序列，作為觀察值。在訓(xùn)練過程中，觀察值用于估計(jì)HMM的參數(shù)。這些參數(shù)包括觀察值的概率密度函數(shù)，及其對(duì)應(yīng)的狀態(tài)，狀態(tài)轉(zhuǎn)移概率等。當(dāng)參數(shù)估計(jì)完成后，估計(jì)出的參數(shù)即用于識(shí)別。此時(shí)經(jīng)過特征提取后的觀察值作為測(cè)試數(shù)據(jù)進(jìn)行識(shí)別，由此進(jìn)行識(shí)別準(zhǔn)確率的結(jié)果統(tǒng)計(jì)。訓(xùn)練及識(shí)別的結(jié)構(gòu)框圖如圖1所示。

本文引用地址：http://www.butianyuan.cn/article/161779.htm

1. 1 端點(diǎn)檢測(cè)
找到語音信號(hào)的起止點(diǎn)，從而減小語音信號(hào)處理過程中的計(jì)算量，是語音識(shí)別過程中一個(gè)基本而且重要的問題。端點(diǎn)作為語音分割的重要特征，其準(zhǔn)確性在很大程度上影響系統(tǒng)識(shí)別的性能。
能零積定義：一幀時(shí)間范圍內(nèi)的信號(hào)能量與該段時(shí)間內(nèi)信號(hào)過零率的乘積。
能零積門限檢測(cè)算法可以在不丟失語音信息的情況下，對(duì)語音進(jìn)行準(zhǔn)確的端點(diǎn)檢測(cè)，經(jīng)過450個(gè)孤立詞(數(shù)字“0～9”)測(cè)試準(zhǔn)確率為98％以上，經(jīng)該方法進(jìn)行語音分割后的語音，在進(jìn)入識(shí)別模塊時(shí)識(shí)別正確率達(dá)95％。
當(dāng)話者帶有呼吸噪聲，或周圍環(huán)境出現(xiàn)持續(xù)時(shí)間較短能量較高的噪聲，或者持續(xù)時(shí)間長而能量較弱的噪聲時(shí)，能零積門限檢測(cè)算法就不能對(duì)這些噪聲進(jìn)行濾除，進(jìn)而被判作語音進(jìn)入識(shí)別模塊，導(dǎo)致誤識(shí)。圖2(a)所示為室內(nèi)環(huán)境，正常情況下采集到的帶有呼氣噪聲的數(shù)字“0～9”的語音信號(hào)，利用能零積門限檢測(cè)算法得到的效果示意圖。最前面一段信號(hào)為呼氣噪聲，之后為數(shù)字“0～9”的語音。

從圖2(a)直觀的顯示出能零積算法在對(duì)付能量較弱，但持續(xù)時(shí)間長的噪音無能為力。由此引出了雙門限能零積檢測(cè)算法。
所謂的雙門限能零積算法指的是進(jìn)行兩次門限判斷。第一門限采用能零積，第二門限為單詞能零積平均值。也即在前面介紹的能零積檢測(cè)算法的基礎(chǔ)上再進(jìn)行一次能零積平均值的判決。其中，第二門限的設(shè)定依據(jù)取決于所有實(shí)驗(yàn)樣本中呼氣噪聲的平均能零積及最小的語音單詞能零積之間的一個(gè)常數(shù)。如圖2(b)所示，即為圖2(a)中所示的語音文件經(jīng)過雙門限能零積檢測(cè)算法得到的檢測(cè)結(jié)果?？梢悦黠@看到，最前一段信號(hào)，即呼氣噪聲已經(jīng)被視為噪音濾除。

新聞中心

智能機(jī)器人語音識(shí)別技術(shù)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)