嵌入式TTS漢語語音系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

——

作者：時(shí)間：2006-07-06 來源：21ic.com

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

摘要：通過使用改進(jìn)的游程編碼算法、多重查找表設(shè)計(jì)及預(yù)存儲(chǔ)命令字等技術(shù)，實(shí)現(xiàn)了一種適用于廣泛硬件平臺(tái)的嵌入式TTS漢字語音系統(tǒng)，其可發(fā)音字符涵蓋了GB2312漢字編碼字符集。

關(guān)鍵詞：TTS改進(jìn)游程編碼多重查找表

語言是人與人交流信息的一種手段。使計(jì)算機(jī)、帶有人機(jī)交互的電器、儀表等能像人一樣開口“說話”是科技工作者多年的研究目標(biāo)。文語轉(zhuǎn)換TTS（Text To Speech）是自動(dòng)將輸入文字轉(zhuǎn)換成語音輸出，并盡量使輸出的語音效率流暢、自然的一類技術(shù)。TTS系統(tǒng)主要需解決兩個(gè)問題：①文本分析，即語言學(xué)分析。該任務(wù)是將以文本廣度輸入的字符串轉(zhuǎn)換成語言學(xué)的表述；②語音合成。即根據(jù)語言學(xué)的內(nèi)在表述信息合成語音。TTS系統(tǒng)中的語音合成方法分為時(shí)域和頻域兩大類：頻域方法主要有LPC參數(shù)合成及其振峰合成兩種，其實(shí)質(zhì)是在工程上實(shí)現(xiàn)語音生成模型，進(jìn)而在終端特性上模擬發(fā)音器官。在目前階段，頻域方法形成的發(fā)音尚不自然，且需要的計(jì)算量很大，不適宜在低端的嵌入式芯片上使用。波形編輯法是將較短的數(shù)字音頻段（即合成基元）拼接并進(jìn)行段音平滑后生成連續(xù)語流的方法。這種方法占用的存儲(chǔ)空間大，但計(jì)算量小、計(jì)算速度快，而且合成語音自然度較高，顯然比較適合于芯片性能較弱的嵌入式系統(tǒng)方面的應(yīng)用。

采用波形編輯法的嵌入式TTS系統(tǒng)由于成本低、性能完善、自然度高，隨著波形修改算法的不斷提出以及微處理器和非易失性存儲(chǔ)介質(zhì)功能的不斷增強(qiáng)，正日益受到人們的關(guān)注。本系統(tǒng)即采用時(shí)域波形編輯技術(shù)，采集GB2312漢字編碼字符集中所有字符發(fā)音作為原始材料，通過使用改進(jìn)的游程編碼算法壓縮生成可適用于當(dāng)前Flash存儲(chǔ)器的語音庫，并采用多重查找表設(shè)計(jì)及預(yù)存儲(chǔ)命令字技術(shù)有效地加快語音庫的尋址速度，在基于Atmel公司的AT89S52單片機(jī)上成功實(shí)現(xiàn)了一個(gè)TTS語音系統(tǒng)，經(jīng)測試取得了令人滿意的效果。該系統(tǒng)應(yīng)用簡便，具有很小的尺寸和很低的功耗及通用的串行接口，可以廣泛用于有關(guān)的漢語語音應(yīng)用系統(tǒng)中。

1 系統(tǒng)原理

圖1為系統(tǒng)原理圖框圖以及主要操作流程。系統(tǒng)采用串行口與外界交互，任何具有標(biāo)準(zhǔn)串口的設(shè)備均可與本系統(tǒng)相連。欲發(fā)音漢字的國標(biāo)碼（GB碼）由串口送入MCU，MCU將其映射為Flash存儲(chǔ)器地址表中對(duì)應(yīng)項(xiàng)的地址，然后根據(jù)此地址取得對(duì)應(yīng)項(xiàng)中的命令字，由MCU根據(jù)該命令字讀取該漢字發(fā)音對(duì)應(yīng)的語音數(shù)據(jù)，連續(xù)讀出語音數(shù)據(jù)并以游程碼解碼算法解碼后，按照語音采樣時(shí)的固定速率通過D/A轉(zhuǎn)換和功率放大播放。本文中語音采樣速率為11025B/s。為滿足應(yīng)用需求，本文首先構(gòu)建易于快速解碼的語音庫，根據(jù)特定Flash存儲(chǔ)器的存儲(chǔ)格式，以快速多查找表尋址及命令字預(yù)先存儲(chǔ)的方式組織并存儲(chǔ)在Flash存儲(chǔ)器中，以滿足語音播放的實(shí)時(shí)要求。同樣，MCU的代碼也要優(yōu)先考慮速度而犧牲諸如模塊化、可讀性方面的要求。最后，出于實(shí)用性考慮，系統(tǒng)中需加入足夠的輸入緩沖區(qū)支持，以滿足一次輸入多個(gè)流字或整句的要求。

2 原始語音數(shù)據(jù)的采集和處理

本系統(tǒng)共采集了1335種發(fā)音，內(nèi)含1306個(gè)流字發(fā)音，26個(gè)英文字母發(fā)音及3個(gè)停頓音，語音采集卡AD轉(zhuǎn)換整編11025B/s，分辨率8位，樣本值域0～255，靜默值為80H。原始語音以WAV文件的格式保存在PC機(jī)中。

圖2

圖2是“哎”音樣本的時(shí)域波形。所有的采集樣本除具有不同的波形包絡(luò)外，均具有大體相同的結(jié)構(gòu)，即一個(gè)完整的漢字發(fā)音均由前后兩個(gè)靜音部分和中間的發(fā)音部分組成。靜音的采集值絕大多數(shù)為80H（一些輕微擾動(dòng)可視為錄音過程中的噪聲，但尾音部分要另外處理），因而可將其統(tǒng)一為80H，以提高壓縮比。另由圖2可見，00H、01H、FFH、FEH這些邊緣值的出現(xiàn)概率是很小的，這個(gè)特性亦可用于語音的壓縮算法中。

本文根據(jù)上述靜默值及邊緣值的分布特點(diǎn)，提出了一種改進(jìn)的游程編碼用于語音數(shù)據(jù)的壓縮，具體做法是：用00H代表游程壓縮起始碼，其后是被編碼字符，再下一個(gè)字節(jié)是被編碼字符的重復(fù)碼，如：80 80 80 80 80可以表示為00 80 05。顯然，游程長度小于等于3時(shí)沒有編碼的必要，因而不會(huì)出現(xiàn)值為00H、01H和02H的重復(fù)碼。如上所述，在原始語音文件中，00H、01H這些邊緣值是基本上不出現(xiàn)的。因?yàn)榇罅砍霈F(xiàn)這些邊緣值即意味著語音采集系統(tǒng)的動(dòng)態(tài)范圍設(shè)置錯(cuò)誤。盡管如此，為確保原始語音文件中沒有“多余”邊緣值，需要將語音文件略做處理，將可能存在的00H和01H都改為02H，顯然這樣的處理并不會(huì)影響語音的實(shí)際播放效果。處理后的00H、01H即可作為特殊控制字符使用。圖3是本文提出的改進(jìn)流程壓縮編碼的流程圖。編碼前，1335種原始語音樣本的大小為14978622字節(jié)，壓縮后為7767112字節(jié)，壓縮比超過50%。該語音庫已經(jīng)可以裝入容量為8M字節(jié)的Flash存儲(chǔ)器中。

3 語音庫的存儲(chǔ)結(jié)構(gòu)

本文以8Mbit

新聞中心

嵌入式TTS漢語語音系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)