噪聲背景下環(huán)境聲音識別研究

作者：曾金芳,白冰,徐林濤時間：2019-08-28 來源：電子產(chǎn)品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　曾金芳，白冰，徐林濤(湘潭大學物理與光電工程學院，湖南?湘潭?411105)

本文引用地址：http://www.butianyuan.cn/article/201908/404222.htm

　　摘?要：針對低信噪比下的環(huán)境聲音識別效果不佳的情況，提出一種不同信噪比背景下的環(huán)境聲音識別方法。

　　以伽瑪通(Gammatone)變換的譜圖為對象提取特征，生成灰度頻譜圖后映射成3種單色圖，分別提取各單色圖的扇形投影特征，在對得到的各方向的投影特征進行離散小波變換得到特征矩陣，并結合改進的最小均方誤差(IMMSE)聲音增強算法作為前端處理以減小噪聲干擾，最后，利用支持向量機對帶噪聲音進行分類識別。實驗結果表明：在-5dB的低噪背景下仍能取得較高識別率。

　　關鍵詞：最小均方誤差；聲音識別；聲音增強；譜圖特征；扇形投影；支持向量機

　　*基金項目：湖南省自然科學基金（2018JJ3486）；湘潭大學校級科研項目(16XZX02)；湘潭大學博士啟動基金項目(15QDZ28)

　　0 引言

　　聲音信號與人類的生活密切相關，聲音信號不受光線和視野影響并且需要的存儲空間及處理難度低于視頻信號，通過對環(huán)境聲音信號進行識別可以獲取豐富的信息，公共場所的聲音事件識別可以有效地揭示該環(huán)境下的事件狀況，可以彌補光線不足、受遮擋情況下的監(jiān)控效果，聲音識別技術廣泛應用于安全監(jiān)控、聲音事件跟蹤定位等領域，提取魯棒性較好的聲音特征 ^[1]，有利于聲音識別技術在現(xiàn)實環(huán)境中的適用性，所以背景噪聲下的聲音識別研究具有較高的實用價值。

　　在聲音識別過程中，提取合適的特征向量對識別效果起關鍵的作用，聲音識別的大多數(shù)的特征提取方法來源于語音識別^[2]，常用的提取方法有Mel頻率倒譜參數(shù)(MFCC)、短時能量、線性預測倒譜系數(shù)(LPCC) ^[3]等。近期的環(huán)境聲音識別的研究主要有利用匹配追蹤（MP）算法獲得有效的時頻特征，在MFCC特征的基礎上利用原子字典進行特征選擇，產(chǎn)生靈活、直觀的特征向量然后用支持向量機(SVM)進行分類識別 ^[4] 。以上方法雖然簡單有效，但真實的環(huán)境中存在各種背景噪聲導致其識別效果明顯變差。Dennis等提出子帶功率分布(SPD)的特征提取來進行聲音事件分類 ^[5]，在聲譜圖的基礎上提出子帶能量分布對聲音事件和噪聲進行區(qū)分，利用圖像處理的方法進行偽著色處理提取譜圖的中心矩特征 ^[5]，該方法在背景噪聲下的識別具有一定有效性但在信噪比較低的情況下的識別效果有待提高。

　　現(xiàn)實環(huán)境中普遍存在著各種背景噪聲，在前端處理中采用聲音增強算法能改善識別效果，本文提出聲譜圖的扇形投影特征(Spectrogram Fan projection，SFP)算法。首先將環(huán)境聲音信號轉(zhuǎn)化為聲譜圖，然后將得到的聲譜圖進行扇形投影變換，得到各方向的投影系數(shù)組成特征向量，最后利用SVM分類器對特征向量進行分類識別。對于帶噪聲信號，提出改進的最小均方誤差估計(IMMSE)算法作為前端處理來達到聲信號的去噪效果。

　　1 聲音增強算法

　　1.1 改進的logM M SE算法

　　考慮到環(huán)境聲音噪聲是非平穩(wěn)的，傳統(tǒng)的對數(shù)譜最小均方誤差(Log-spectral AmplitudeMMSE,LSA-MMSE)能有針對性的減小噪聲，其關鍵在于能否準確地估計先驗信噪比，本文采用改進的最小遞歸平均算法來估計噪聲方差，結合logMMSE來達到聲音增強效果，實驗證明該方法對聲音增強和消除“音樂噪聲”有較好的效果。

　　建立加性噪聲模型，設帶噪聲信號為：

微信截圖_20190909144209.png

　　式中，y(n)表示帶噪聲信號； x(n) 表示無噪聲信號；d(n) 表示噪聲信號；該算法從帶噪聲信號 y(n) 中估計出無噪聲信號 x(n) 。純凈信號經(jīng)短時傅里葉變換得到第k個頻譜分量：Ak和Y(k) 。

　　由文獻[6]中信號的估計可表示為帶噪信號與增益函數(shù)的乘積：

　　式中， λx(k) 、 λd(k) 分別表示無噪信號和噪聲信號的第k個頻譜分量的方差； ξ k 、 γ k 分別表示先驗信噪比和后驗信噪比，先驗信噪比是第k個頻譜分量的實際信噪比，后驗信噪比是加入噪聲后第k個頻譜分量所測得的信噪比。

　　1.2 IM M SE算法的實現(xiàn)

　　本文利用改進的最小值約束的遞歸平均（IMCRA）算法估計噪聲方差。該算法利用平滑參數(shù)對噪聲方差進行連續(xù)估計，平滑參數(shù)是時變參數(shù)，該算法是聲信號中聲音存在的概率的遞歸平均算法。聲音不存在： H ₀^k 和聲音存在：H ₁^k 的噪聲估計表示為：

　　式中，i、k分別表示幀數(shù)和頻點數(shù)，根據(jù)遞歸算法的通用形式^[7]，可將噪聲估計表示為：

微信截圖_20190909150201.png

　　式(6)中的噪聲估計表示為前一幀的噪聲估計與當前帶噪頻譜的加權平均，式中， αd(i,k)=α+(1-α)p^(i,k)，表示時頻相關的平滑因子，利用存在聲音的條件概率 p∧( i,k ) 來計算平滑因子，存在聲音的條件概率p(i,k) 利用聲信號功率譜與其局部最小值之比S_r (i,k) 作為閾值判斷，根據(jù)遞歸算法的通用形式同理可得聲信號的遞歸功率譜S(i ,k) 如下：

微信截圖_20190909150226.png

　　聲音存在概率的估計利用時域平滑遞歸求得：

微信截圖_20190909150245.png

　　因為所取聲音樣本頻率分布范圍較廣，故采用多閾值函數(shù) δ ( k ) 采用頻率相關函數(shù)來表示：

微信截圖_20190909150301.png

　　式中，fs為采樣頻率。結合公式所求得平滑因子α _d ( i,k ) ，利用式(6)，即可更新噪聲功率譜估計，得到更新的噪聲功率譜估計后，利用式(3)可求得增益函數(shù)，以此估計純凈聲信號。

　　將提出的 I M M S E 增強算法與多頻帶譜減法(Multiband Spectral Subtraction,MSS)對比，各增強算法的時域波形圖如圖1所示。其中橫縱坐標分別表示信號采樣點數(shù)和幅值。圖1可了解IMMSE算法去噪效果較好。

微信截圖_20190909150813.jpg

　　為進一步檢驗不同增強算法的去噪效果，對各增強算法檢測其輸出信噪比，根據(jù)檢測帶噪聲音信號的指標定義：

微信截圖_20190909150326.png

　　式中，計算出SNR的值越大，表示聲音的質(zhì)量越高，去噪效果越好，各增強算法的輸出信噪比如表1所示。

微信截圖_20190909150822.jpg

　　2 特征提取

　　2.1 提取子帶能量譜圖

　　聲譜圖相比于傳統(tǒng)的時域特征能表征更加豐富的聲音信息，采用聲譜圖作為特征能同時分析聲音的時域和頻域特征，本文采用SPD譜圖并對其進行增強改進，使聲音的功率譜分布更明顯。采用 Gammatone濾波器組生成的聲譜圖作為時頻分析。參數(shù)設置為：100組中心頻率為50 Hz到fs/2 Hz。將SPD歸一化到對數(shù)域，表達式為：

微信截圖_20190909150348.png

　　對數(shù)域的功率譜壓縮了譜圖的動態(tài)范圍，以增強SPD中的頻譜功率較高的像素點。譜圖G(t,f)中像素點值的范圍是固定的，SPD可表示為：

微信截圖_20190909150445.png

　　式中，b表示頻譜功率；f表示頻率；t表示樣本的時間；實驗中取b的值為100，1 _b 表示指示函數(shù)，基于“鍵盤敲擊聲”的SPD如圖2所示。

微信截圖_20190909150834.jpg

　　2.2 扇形投影特征

　　扇形投影^[7] 特用于檢測物體圖像內(nèi)部構造，計算圖像沿指定方向由一點發(fā)出點光束，發(fā)散成一個扇形區(qū)域的投影變換，投影變換是圖像沿x-y平面中指定方向的線積分。譜圖H(b,f)的扇形投影變換的原理如下：

微信截圖_20190909150556.png

　　式中，g (ρ,θ) 表示經(jīng)過扇形投影變換后重構的圖像。

　　對每個聲音樣本的譜圖H(b,f)進行扇形投影變換，角度 α 表示扇形投影的旋轉(zhuǎn)角度，取值范圍為[0,360]，規(guī)定旋轉(zhuǎn)角度從x軸按逆時針的方向旋轉(zhuǎn)每個角度的投影能將圖像轉(zhuǎn)換成一維的投影系數(shù)，圖像各方向的投影系數(shù)組成的特征矩陣保留了圖像的信息的同時降低了圖像的參數(shù)大小，能夠提高識別效率。

　　3 實驗設計與結果分析

　　3.1 聲音數(shù)據(jù)集

　　實驗采用16類環(huán)境聲音(鍵盤打字聲、腳步聲、鋸子聲等)，為確保實驗數(shù)據(jù)的獨立性，同類聲音取自不同聲音片段，一類包括20個樣本，總共320個樣本，具有較高信噪比，實驗將其作為純凈聲音樣本，聲音樣本均來自于Freesound^[16] 聲音數(shù)據(jù)庫，樣本采樣率為44.1kHz，量化精度為16 bit，單個樣本長度2~3 s。實驗中，隨機選取每類樣本的一半作為訓練樣本，另一半作為測試樣本，按照信噪比20 dB、10 dB、0 dB、-5 dB作為測試。

　　3.2 實驗參數(shù)

　　聲音樣本的預處理環(huán)節(jié)，對各聲音樣本分幀加窗處理，取幀長20 ms、幀移10 ms、窗函數(shù)采用漢明窗。

　　1)本文提出的SFP算法，扇形投影的旋轉(zhuǎn)角度，在[0，360]中以15°為步長，取24個方向的投影變換。

　　2) MFCC算法，采用32組Mel濾波器組，每一幀提取13個倒譜系數(shù)構成MFCC特征。

　　3)對于SPD^[5] 算法，采用64組Gammatone濾波器，提取2、3階中心矩。

　　4)正交匹配追蹤(OMP) ^[7] 算法，對聲音信號進行稀疏重構，信號重構后提取MFCC特征，組成OMP的復合特征。

　　5)采用支持向量機(SVM)作為分類器，采用多分類的方式建立分類器。

　　3.3 實驗結果與分析

　　將SFP與SPD、MFCC、OMP、幾種常用的聲音識別算法進行實驗對比。4種聲音識別算法在不同噪聲背景下的識別率如表2所示。純凈背景下，識別率如表3所示。本文的SFP算法在4種噪聲下有較高識別率，特別是信噪比為-5 dB和0 dB的低噪條件下，在-5 dB的噪聲情況下，最高比SPD算法高17.51%，平均識別率最高高出7.9%，比OMP和MFCC高出27.63%以上，平均識別率如圖3所示。雖然文章算法在信噪比較高條件下的提升較少，但在低信噪比下相比其他算法能取得較高識別率。

　　將提出的IMMSE增強算法與其他常用的聲音增強算法進行比較，在4種不同的背景噪聲的低噪條件下，信噪比分別取-5 dB、0 dB、5 dB、10 dB。

微信截圖_20190909150909.jpg

　　如圖6所示為0dB的說話噪聲背景下不同聲音增強算法識別率。噪聲條件下，本文的IMMSE的識別率高于其他增強算法，在-5dB和0 dB的低信噪比條件下不增強方法的識別率比增強后的識別率低，所以低信噪比條件下采用增強算法是可行的，說明SFP算法本身具有較好的抗噪性，實驗證明SFP算法結合IMMSE增強算法在各種背景噪聲下能取得較好的識別效果，適用于真實環(huán)境下的聲音識別。

微信截圖_20190909150917.jpg

　　4 結論

　　針對真實環(huán)境的低噪條件下的聲音識別，提出SFP算法，將譜圖的扇形投影作為特征提取方法結合IMMSE聲音增強算法，實驗表明，在無背景噪聲條件下，識別率達到96.72%；低噪條件下，平均識別率能達到73.05%；本文的方法噪聲條件下具有較好魯棒性，對比現(xiàn)有的SPD、OMP等算法，分類識別效果更好。

　　參考文獻

　　[1] REN J, JIANG X, YUAN J, et al. Sound-EventClassification Using Robust Texture Features for RobotHearing[J].IEEE Transactions on Multimedia,2017, (99):1-1.

　　[2] BRADLOW A R, ALEXANDER J A. Semantic andphonetic enhancements for speech-in-noise recognition bynative and non-native listeners[J].Journal of the AcousticalSociety of America,2016,121(4):2339-49.

　　[3] JIAN-Chao Y U, ZHANG R L. Speaker recognitionmethod using MFCC and LPCC features[J].ComputerEngineering & Design,2009,30(5):1189-1191.

　　[4] CHU S, NARAYANAN S, KUO C CJ. Environmentalsound recognition with time-frequency audio features[M].

　　Institute of Electrical and Electronics Engineers Inc. The,2009.

　　[5] DENNIS J, TRAN H D, CHNG E S. ImageFeature Representation of the Subband PowerDistribution for Robust Sound Event Classification[J].IEEE Transactions on Audio Speech & LanguageProcessing,2012,21(2):367-377.

　　[6] SHIH J L, CHEN L H. Colour image retrieval based onprimitives of colour moments[J].IEE Proceedings-Vision,Image and Signal Processing,2002,149(6):370-376.

　　[7] NARASIMHADHAN A V, SHARMA A, MISTRY D. ImageReconstruction from Fan-Beam Projections without Back-Projection Weight in a 2-D Dynamic CT: Compensationof Time-Dependent Rotational, Uniform Scaling andTranslational Deformations[J].Open Journal of MedicalImaging, 2013, 3(4):136-143.

　　[8] SOUSSEN C, GRIBONVAL R, IDIER J, et al.JointK-Step Analysis of Orthogonal Matching Pursuit andOrthogonal Least Squares[J].IEEE Transactions onInformation Theory,2013,59(5):3158-3174.

　　本文來源于科技期刊《電子產(chǎn)品世界》2019年第9期第34頁，歡迎您寫論文時引用，并注明出處。