語(yǔ)音增強(qiáng)用于坦克駕駛艙內(nèi)無(wú)線語(yǔ)音通信

——

作者：時(shí)間：2007-01-26 來(lái)源：《電子工程師》

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

引言

語(yǔ)音通信過(guò)程中不可避免地會(huì)受到來(lái)自周?chē)h(huán)境的干擾，接收方接收到的語(yǔ)音不再是原始的純凈語(yǔ)音，而是受噪聲干擾的帶噪語(yǔ)音信號(hào)。比如，坦克、飛機(jī)或艦船上的電臺(tái)常常受到很強(qiáng)的背景噪聲干擾，嚴(yán)重影響了通話質(zhì)量。據(jù)測(cè)量，坦克裝甲車(chē)輛的發(fā)動(dòng)機(jī)噪聲能量在50 hz-300 hz范圍比較集中，這種低頻噪聲對(duì)語(yǔ)音的掩蔽性強(qiáng)，對(duì)人身危害大，使聽(tīng)者產(chǎn)生不舒適的感覺(jué)。同時(shí)，環(huán)境噪聲的污染使得許多語(yǔ)音處理系統(tǒng)的性能惡化。因此，需要對(duì)帶噪語(yǔ)音進(jìn)行語(yǔ)音增強(qiáng)，其主要作用是改進(jìn)語(yǔ)音質(zhì)量，消除背景噪聲，提高語(yǔ)音的清晰度和自然度，使人樂(lè)于接受。

本文引用地址：http://www.butianyuan.cn/article/21011.htm

基于stsa(短時(shí)譜幅度)的增強(qiáng)方法尤其是譜減法因方法簡(jiǎn)單、易于實(shí)現(xiàn)，所以應(yīng)用最為廣泛。本文將譜減法的改進(jìn)算法和基于先驗(yàn)幅度比估計(jì)噪聲譜的方法相結(jié)合，在理論分析的基礎(chǔ)上進(jìn)行了仿真實(shí)驗(yàn)研究，并給出了仿真結(jié)果。

1 基本譜減算法

一般語(yǔ)音信號(hào)是按幀處理的，帶噪語(yǔ)音的模型可表示為：

ym(n)=sm(n)+dm(n) 　(1)

式中：ym(n)、sm(n)和dm(n)分別為帶噪語(yǔ)音、純凈語(yǔ)音和干擾噪聲，只有帶噪語(yǔ)音可以利用，沒(méi)有其他參考信號(hào)，并假設(shè)噪聲和語(yǔ)音統(tǒng)計(jì)獨(dú)立或不相關(guān)；m=0，1，…，m-1；n=0，l，…，n-1；m為幀的編號(hào)；n為每幀時(shí)域上點(diǎn)的序號(hào)，m，n分別是一段語(yǔ)音包含的幀數(shù)和每幀的點(diǎn)數(shù)。

若ydm(m(ω)、sm(ω)和ω)分別表示ym(n)、sm(n)和dm(n)的傅里葉變換，則存在以下關(guān)系：

ym(ω)=sm(ω)+dm(ω)　 (2)

求功率譜后有：

|ym(ω)|2=|sm(ω)|2+|dm(ω)|2+sm(ω)dm*(ω)+sm*(ω)dm(ω) 　(3)

由于s(n)和d(n)獨(dú)立，它們的互譜統(tǒng)計(jì)獨(dú)立，故原始語(yǔ)音的估計(jì)值為：

|sm(ω)|2=|ym(ω)|2-|dm(ω)|2 　(4)

式中：|sm(ω)|和|dm(ω)|分別是對(duì)|sm(ω)|和|dm(ω)|的估計(jì)。

式(3)和式(4)都是按幀計(jì)算的。如果上式出現(xiàn)負(fù)的情況，最簡(jiǎn)單的處理是直接令其為0。為避免分幀時(shí)的截?cái)嘈?yīng)，應(yīng)對(duì)y(n)加窗，可用漢明窗或矩形窗，為了保證幀間的平滑性和語(yǔ)音的連續(xù)性，幀與幀之間應(yīng)有部分重疊。

噪聲的能量往往分布于整個(gè)頻域，而語(yǔ)音的能量則較集中于某些頻率段，因此可在幅度較高的時(shí)幀內(nèi)減去a|dm(ω)|(a>1)，可以更好地相對(duì)突出語(yǔ)音功率譜；同時(shí)引入指數(shù)參數(shù)y1、y2。因此常用的譜減修正形式為：

式中：a為譜減閾值系數(shù)，它越大，背景噪聲減得越多，信噪比越高，同時(shí)也會(huì)加大語(yǔ)音信號(hào)的失真；β為譜減噪聲系數(shù)，其作用是人為地給增強(qiáng)后的語(yǔ)音加上一些背景噪聲，起到掩蔽殘留噪聲的作用，其值越大，殘留背景噪聲越不明顯，但同時(shí)也會(huì)使信噪比有所下降；γ1=1/γ2，可通過(guò)主觀試聽(tīng)決定其大小，當(dāng)為2時(shí)就是功率譜的譜減。

由于人耳對(duì)語(yǔ)音信號(hào)的相位不敏感，可用原始帶噪語(yǔ)音相位譜代替估計(jì)之后的語(yǔ)音信號(hào)的相位譜來(lái)恢復(fù)增強(qiáng)后的語(yǔ)音時(shí)域信號(hào)：

sm(n)=ifft{|sm(ω)|exp[jarg(ym(ω))])　 (6)

式中：arg(ym(ω))為帶噪語(yǔ)音的相位譜。

2 改進(jìn)的譜減方法

式(5)表明，噪聲譜的估計(jì)對(duì)整個(gè)算法效果的優(yōu)劣至關(guān)重要。一般的做法是|dm(ω)|2在帶噪語(yǔ)音的無(wú)聲段用多幀統(tǒng)計(jì)平均值作為噪聲譜的估計(jì)，同時(shí)引入有聲／無(wú)聲檢測(cè)，在被判為噪聲幀時(shí)對(duì)估計(jì)的噪聲譜進(jìn)行更新，如果被判為語(yǔ)音幀則不作更改，保持原來(lái)估計(jì)的噪聲譜。本文在文獻(xiàn)[1]的基礎(chǔ)上，采用直接判決法對(duì)先驗(yàn)幅度比進(jìn)行估計(jì)。為此，令g(m，ω)=|sm(ω)|／|ym(ω)|為每個(gè)頻譜分量的增益函數(shù)，把式(5)寫(xiě)成增益函數(shù)形式。為了簡(jiǎn)便，令γ1=1，并定義后驗(yàn)幅度比為rpost(m，ω)=|ym(ω)|／|dm(ω)|，和先驗(yàn)幅度比rprior(m，ω)＝|sm(ω)|／|dm(ω)|，代入式(5)，有

而式(7)中先驗(yàn)幅度比一般由直接判決法確定，它是一個(gè)遞推公式[2]：

式中：η為經(jīng)驗(yàn)權(quán)重。

由式(7)、式(8)可看出，由于引入了基于先驗(yàn)幅度比估計(jì)噪聲譜的方法，相當(dāng)于起到了動(dòng)態(tài)調(diào)整α、β的作用。

3 噪聲估計(jì)

噪聲譜的估計(jì)可以采用濾波法，實(shí)際是對(duì)噪聲譜進(jìn)行平滑處理，逐次更新。以幅度譜相減為例，考慮譜減閾值系數(shù)α后的公式是：

dm(ω)=ρdm-1(ω)+(1一ρ)|ym(ω)-αsm-l(ω)| (9)

式中：ρ為平滑系數(shù)。

由于坦克噪聲特性的變化慢于語(yǔ)音特性的變化，因此可以用這里的遞推公式估計(jì)噪聲譜，避免了語(yǔ)音有聲／無(wú)聲檢測(cè)的環(huán)節(jié)，實(shí)驗(yàn)證明這種噪聲譜的估計(jì)是可行的。

實(shí)際上并不是每一幀都需要對(duì)噪聲譜進(jìn)行更新，只有在本幀噪聲譜小于前一幀噪聲譜估計(jì)值的b倍時(shí)才進(jìn)行更新[3]，否則認(rèn)為本幀是語(yǔ)音幀，即

|ym(ω)－αsm－1(ω)|

式中：b為經(jīng)驗(yàn)系數(shù)。

只有滿足式(10)才按式(9)對(duì)噪聲譜進(jìn)行更新。

4 音樂(lè)噪聲及采取的措施

眾所周知，譜減法一個(gè)最大的弊端是容易產(chǎn)生音樂(lè)噪聲。產(chǎn)生音樂(lè)噪聲的主要原因是在噪聲譜的估計(jì)過(guò)程中信息估計(jì)不準(zhǔn)確導(dǎo)致的。如果某幀某頻率的噪聲分量較大，就會(huì)有一部分被保留下來(lái)，在頻譜上呈現(xiàn)出隨機(jī)出現(xiàn)的尖峰，聽(tīng)覺(jué)上則形成有節(jié)奏的起伏性類(lèi)似音樂(lè)的殘留噪聲[4]，俗稱(chēng)“音樂(lè)噪聲”，有時(shí)甚至比原始語(yǔ)音中的噪聲還要明顯。

本文力圖從以下幾方面來(lái)減小音樂(lè)噪聲：

a)在對(duì)語(yǔ)音信號(hào)分幀時(shí)，發(fā)現(xiàn)幀長(zhǎng)與幀之間的重疊程度不同，產(chǎn)生的消噪效果不同，背景殘留的音樂(lè)噪聲強(qiáng)弱也不同。幀長(zhǎng)越短，相對(duì)的聽(tīng)覺(jué)失真越大，原因是如果幀的長(zhǎng)度取得較短時(shí)，信號(hào)的頻域分量變化就會(huì)較快。此外，加大幀之間的重疊，減小相鄰兩幀的差別，對(duì)減小音樂(lè)噪聲也能起到一定作用。因此，取較長(zhǎng)的256點(diǎn)作為一幀長(zhǎng)度，幀間的重疊為192點(diǎn)。

b)在語(yǔ)音譜減去噪聲譜的過(guò)程中會(huì)遇到負(fù)值的時(shí)候，一般做法是直接取零。但如果使用一個(gè)下限值，而不是取零，比如可以取帶噪語(yǔ)音譜的l／10，則得到的語(yǔ)音頻譜在低幅值附近的變化要緩和一些，有利于減輕人耳所感覺(jué)到的“音樂(lè)噪聲”。

c)根據(jù)boll[5]的思想，對(duì)譜減后的每個(gè)頻譜值，用其相鄰幾幀對(duì)應(yīng)頻譜值的最小值來(lái)代替，可以有效去除突變點(diǎn)，這種平滑的方法可以大幅度去除音樂(lè)噪聲。假設(shè)無(wú)聲段殘留噪聲譜的最大值為|wr(ω)|，則平滑的原則是[6]：

式中:j=m-1,m,m+1。

經(jīng)主觀試聽(tīng)，音樂(lè)噪聲由強(qiáng)度與話音相當(dāng)?shù)暮盟屏魉穆曇糇兂膳紶柊l(fā)出的細(xì)小的嗡嗡聲。

d)音樂(lè)噪聲在無(wú)聲段由于沒(méi)有語(yǔ)音的掩蔽相對(duì)明顯，在有聲段卻并不顯著。因此，可以在由頻域變換為時(shí)域信號(hào)后對(duì)語(yǔ)音信號(hào)做不重疊的分幀，并做粗略的有聲／無(wú)聲檢測(cè)，先計(jì)算出語(yǔ)音開(kāi)頭無(wú)聲段背景噪聲能量均值q和最大值emax，取門(mén)限為2(emax-q)。經(jīng)過(guò)增強(qiáng)后的語(yǔ)音信噪比已經(jīng)有相當(dāng)大的提高，這時(shí)的端點(diǎn)檢測(cè)不需要十分精確，只要不把語(yǔ)音幀判為噪聲幀就可做到對(duì)語(yǔ)音沒(méi)有損傷。因此，可求某幀的前3幀、后3幀和本幀能量的均值，大于上述門(mén)限者判為語(yǔ)音幀，否則判為噪聲幀。被判為噪聲幀的用舒適白噪聲填充，噪聲的方差可根據(jù)主觀試聽(tīng)決定。

5 仿真實(shí)驗(yàn)

本實(shí)驗(yàn)采用真實(shí)的錄制于坦克駕駛艙的帶噪語(yǔ)音，8 khz／16 bit單聲道采樣。首先經(jīng)過(guò)一個(gè)一階高通濾波器1—0.9375z-1，其作用是提高高頻頻譜的權(quán)重，也稱(chēng)預(yù)加重，還可以起到消除直流漂移、抑制隨機(jī)噪聲和提升清音部分能量的作用。幀的長(zhǎng)度n=256，采用漢明窗對(duì)信號(hào)加窗，幀間重疊192點(diǎn)。譜減式(7)中參數(shù)α=2.5，β=0.085；式(8)中η=0.85；式(9)中ρ=0.95；式(10)中b=4.5。圖l和圖2分別顯示了原始帶噪語(yǔ)音和增強(qiáng)后的語(yǔ)音的時(shí)域波形圖和語(yǔ)譜圖的比較。

從圖1和圖2的比較可看出本算法對(duì)信噪比的提升是相當(dāng)明顯的。非正式主觀聽(tīng)覺(jué)測(cè)試也表明，增強(qiáng)后的語(yǔ)音背景噪聲幾乎全部消除，殘留的音樂(lè)噪聲不太明顯，語(yǔ)音質(zhì)量大大改善。

6 結(jié)束語(yǔ)

本文基于先驗(yàn)幅度比估計(jì)的譜減算法在增強(qiáng)語(yǔ)音信號(hào)的同時(shí)，抑制了大部分音樂(lè)噪聲，并保持了較好的語(yǔ)音可懂度。與一般譜相減增強(qiáng)算法相比，提高了帶噪語(yǔ)音的信噪比，尤其適合類(lèi)似發(fā)動(dòng)機(jī)的低頻有色噪聲的處理。但在低信噪比時(shí)，增強(qiáng)后的語(yǔ)音仍有失真，背景音樂(lè)噪聲不能完全消除，需探索更有效的算法或?qū)⒆V減法結(jié)合其他措施，例如結(jié)合掩蔽效應(yīng)或利用雙多通道、多傳聲器基于信號(hào)陣列的語(yǔ)音增強(qiáng)方法等，都是有效、可行的，還可考慮引入心理聲學(xué)模型等。

新聞中心

語(yǔ)音增強(qiáng)用于坦克駕駛艙內(nèi)無(wú)線語(yǔ)音通信

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)