基于內(nèi)容的音頻檢索系統(tǒng)的前端抗噪技術(shù)

作者：時(shí)間：2010-09-14 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

引言

本文引用地址：http://butianyuan.cn/article/166556.htm

基于 內(nèi)容的音頻檢索指通過(guò)音頻特征分析，對(duì)不同音頻數(shù)據(jù)賦以不同語(yǔ)義，使具有相同語(yǔ)義的音頻在聽覺上保持相似。該技術(shù)在許多領(lǐng)域都有極大應(yīng)用價(jià)值。在檢索 系統(tǒng)中一種常見情形是將安靜環(huán)境下訓(xùn)練的模型應(yīng)用于實(shí)際有背景噪聲的環(huán)境。尤其在哼唱輸入的情況下，噪聲不可避免，因此噪聲背景環(huán)境中的音頻識(shí)別技術(shù)一直備受關(guān)注。本文給出一個(gè)將音頻增強(qiáng)和音頻檢索 系統(tǒng)相連接的抗噪聲音頻檢索系統(tǒng)，重點(diǎn)分析基于 內(nèi)容的音頻檢索系統(tǒng)的前端抗噪技術(shù)。

2 系統(tǒng)平臺(tái)的建立

基于 內(nèi)容的音頻檢索系統(tǒng)運(yùn)用多媒體信息處理技術(shù)，結(jié)合人感知心理研究和模式識(shí)別技術(shù)實(shí)現(xiàn)音頻檢索，包括音頻分割、特征提取和索引檢索等關(guān)鍵步驟。在提交哼唱式音頻過(guò)程中不可避免地會(huì)受到來(lái)自周圍環(huán)境和傳輸媒介引入的噪聲、設(shè)備內(nèi)部電噪聲的干擾。這些干擾將使檢索系統(tǒng)的性能惡化。因此，必須對(duì)帶噪音頻進(jìn)行抗噪處理。音頻檢索系統(tǒng)首先是建立數(shù)據(jù)庫(kù)，對(duì)音頻數(shù)據(jù)進(jìn)行特征提取。音頻檢索主要采用哼唱查詢方式，用戶通過(guò)查詢界面哼入查詢信息，然后提交查詢。在進(jìn)行屬性特征提取前通過(guò)前端抗噪模塊增強(qiáng)哼唱語(yǔ)音。接著系統(tǒng)對(duì)哼唱音頻提取特征，然后檢索引擎對(duì)特征矢量進(jìn)行匹配，按相關(guān)性排序后通過(guò)查詢接口返回給用戶。圖1為抗噪聲檢索系統(tǒng)原理框圖。

3 音頻抗噪技術(shù)分析

3.1 語(yǔ)音增強(qiáng)算法分類

系統(tǒng)前端輸入信號(hào)通常是哼唱輸入，語(yǔ)音頻段可以采用語(yǔ)音增強(qiáng)技術(shù)。語(yǔ)音增強(qiáng)是指為了提高受噪聲污染的語(yǔ)音信號(hào)的質(zhì)量而對(duì)含噪語(yǔ)音所做的處理，主要用于從帶噪語(yǔ)音信號(hào)中提取純凈的原始音頻或原始語(yǔ)音參數(shù)。根據(jù)不同的標(biāo)準(zhǔn)，語(yǔ)音增強(qiáng)算法有多種分類方法。

從信號(hào)輸入的通道數(shù)分為單通道的語(yǔ)音增強(qiáng)算法與多通道的語(yǔ)音增強(qiáng)算法。單通道語(yǔ)音系統(tǒng)下語(yǔ)音與噪聲同時(shí)存在于一個(gè)通道中，語(yǔ)音信息與噪聲信息必須從同一個(gè)信號(hào)中得出。常用方法包括譜減法、信號(hào)統(tǒng)計(jì)模型方法、聽覺掩蔽算法、維納濾波方法、信號(hào)子空間算法等。多通道語(yǔ)音增強(qiáng)算法則采用麥克風(fēng)陣列獲取信號(hào)數(shù)據(jù)，它可充分利用陣列信號(hào)的信號(hào)源方向、說(shuō)話人位置等空間特性，結(jié)合語(yǔ)音信號(hào)與噪聲的特征實(shí)現(xiàn)語(yǔ)音增強(qiáng)。代表性的算法有自適應(yīng)波束形成算法、結(jié)合波束形成與后濾波算法及各種基于信號(hào)子空間、統(tǒng)計(jì)模型算法等。

另一種分類方法是根據(jù)對(duì)語(yǔ)音信號(hào)處理方式的不同，將語(yǔ)音增強(qiáng)算法分為時(shí)域語(yǔ)音增強(qiáng)算法和變換域語(yǔ)音增強(qiáng)算法兩大類。時(shí)域語(yǔ)音增強(qiáng)是在時(shí)間域直接處理帶噪語(yǔ)音來(lái)恢復(fù)純凈語(yǔ)音，利用語(yǔ)音信號(hào)在時(shí)域中的短時(shí)平穩(wěn)特性、相關(guān)特性等來(lái)研究具有針對(duì)性的噪聲消除技術(shù)，其代表性算法有最大后驗(yàn)概率估計(jì)法、卡爾曼濾波法、梳狀濾波器法、子空間的方法、自適應(yīng)噪聲抵消算法、語(yǔ)音生成模型等。變換域語(yǔ)音增強(qiáng)需一個(gè)適當(dāng)?shù)淖儞Q將語(yǔ)音信號(hào)轉(zhuǎn)換到變換域中，然后針對(duì)變換域中的帶噪語(yǔ)音分量的特性設(shè)計(jì)算法恢復(fù)純凈語(yǔ)音分量，最后通過(guò)相應(yīng)的反變換獲得純凈語(yǔ)音信號(hào)在時(shí)域中的估計(jì)。其常用變換有離散傅里葉變換、離散余弦變換及K-L變換和小波變換等，代表性算法有譜減法、維納濾波法、短時(shí)譜幅度的MMSE估計(jì)、自適應(yīng)濾波法等、聽覺掩蔽效應(yīng)增強(qiáng)算法，小波變換算法、基于頻域盲源分離的語(yǔ)音增強(qiáng)技術(shù)等。還有一些新方法，如神經(jīng)網(wǎng)絡(luò)、分形理論等。

新聞中心

基于內(nèi)容的音頻檢索系統(tǒng)的前端抗噪技術(shù)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)