新聞中心

EEPW首頁 > 物聯(lián)網(wǎng)與傳感器 > 設(shè)計應(yīng)用 > 嬰兒啼哭監(jiān)測及安撫系統(tǒng)*

嬰兒啼哭監(jiān)測及安撫系統(tǒng)*

作者:朱江燦,王新懷,徐茵,米月琴(西安電子科技大學(xué),西安 710126) 時間:2023-03-25 來源:電子產(chǎn)品世界 收藏
編者按:系統(tǒng)由采集與信號調(diào)理模塊的聲音拾取裝置(MEMS麥克風(fēng))收集環(huán)境聲音,經(jīng)自動增益控制(AGC)模塊處理后被采集,處理器模塊將采集到的音頻數(shù)據(jù)首先通過獲取環(huán)境信號特征完成環(huán)境噪聲與端點檢測特征值自適應(yīng),對音頻信號預(yù)處理后,通過端點檢測算法提取出有音信號段,將有音信號段導(dǎo)入MFCC算法提取信號倒譜,然后根據(jù)信號倒譜獲取基音頻率,最后通過基音頻率各類統(tǒng)計值做最后判斷,若判斷結(jié)果為有效嬰兒啼哭聲,則觸發(fā)執(zhí)行安撫與信息通知,包括驅(qū)動語音安撫模塊播放安撫音樂或父母安撫聲,驅(qū)動無線通信模塊通知父母嬰兒發(fā)生啼哭。

*本文受陜西省重點研發(fā)計劃項目(2020ZDXM5-01)和中央高校業(yè)務(wù)費項目(XJS220209)支持

本文引用地址:http://www.butianyuan.cn/article/202303/444887.htm

照顧嬰兒是一項辛苦的工作,嬰兒往往會因為環(huán)境的輕微的變化而產(chǎn)生啼哭行為,需要父母去安撫,這耗費了父母的大量精力,影響了父母正常的工作和生活。隨著語音識別技術(shù)的迅速發(fā)展,語音識別已經(jīng)成為各類邊緣嵌入式電子系統(tǒng)的重要感知手段。針對嬰兒領(lǐng)域的產(chǎn)品也是層出不窮,其中包括針對嬰兒啼哭聲識別的產(chǎn)品。

隨著人機交互、語音識別、嵌入式等技術(shù)在智能家居領(lǐng)域的快速應(yīng)用,出現(xiàn)了一系列高度智能化、便捷化的商業(yè)產(chǎn)品,諸如掃地機器人、小米音箱、智能門鎖和智能監(jiān)控攝像頭等。同時智能化的嬰兒看護產(chǎn)品也逐漸興起并推廣開來,為母嬰用戶帶來了巨大的便利,用戶不用時刻陪伴在嬰兒身邊。本文就嬰兒啼哭識別系統(tǒng)進行設(shè)計,力圖以簡易的方式和方法搭建一個嬰兒啼哭聲識別系統(tǒng)。

1 系統(tǒng)設(shè)計

1.1 系統(tǒng)組成部分

如圖1 所示,該系統(tǒng)主要分為4 個組成部分,首先是聲音拾取與信號調(diào)理模塊,模塊使用集成硅麥克風(fēng)芯片拾取環(huán)境聲音,經(jīng)自動增益電路調(diào)理后接入處理器AD采集端口。然后是處理器主控模塊,MCU以pingpong工作機制同時完成采集操作與信號處理操作,其中信號處理程序包括預(yù)處理、提取3個部分。最后是語音安撫模塊與無線通信模塊,當(dāng)識別到有效嬰兒啼哭聲時,語音安撫模塊將播放音樂,無線通信模塊將通知監(jiān)護人。

1679686027292959.png

1.2 系統(tǒng)工作過程

嬰兒及安撫系統(tǒng)的工作過程如下:首先,由聲音拾取與信號調(diào)理模塊的聲音拾取芯片(MEMS 硅麥克風(fēng))收集環(huán)境聲音,經(jīng)信號調(diào)理電路完成自動增益后由處理器主控模塊采集,處理器主控模塊采集到音頻數(shù)據(jù)后,將首先通過獲取環(huán)境信號特征完成環(huán)境噪聲與特征值自適應(yīng),然后對音頻信號預(yù)處理,最后通過算法提取出有音信號段,如處理器主控模塊檢測到有效的音頻信號段,則通過MFCC 算法提取此段信號的頻率特征,然后根據(jù)音頻信號頻率倒譜提取出,最后通過各類統(tǒng)計值做最后判斷,若識別結(jié)果為有效嬰兒啼哭聲,則觸發(fā)安撫行為,包括驅(qū)動語音安撫模塊播放安撫音樂與父母安撫聲,驅(qū)動無線通信模塊通知父母嬰兒發(fā)生啼哭。

2 系統(tǒng)功能實現(xiàn)與工作原理

2.1 硬件部分

2.1.1 采集與信號調(diào)理模塊

麥克風(fēng)采用MEMS微型硅麥克風(fēng),MEMS 麥克風(fēng)將電容器集成在微硅晶片上,可以采用表貼工藝進行制造,直徑不到1 mm 的小型薄膜的重量非常輕巧,且與ECM相比,會對由安裝在同一PCB上的揚聲器引起的PCB噪聲產(chǎn)生更低的振動耦合;另外,它也具有改進的噪聲消除性能與良好的RF 及EMI 抑制。

2.1.2 語音安撫及無線通信模塊

語音安撫模塊采用YX5200-24SS作為主芯片,YX5200-24SS是一個支持串口的語音芯片,集成了MP3、WAV、WMA的硬解碼;預(yù)先將安撫音樂與父母的安撫音頻存入,安撫事件觸發(fā)信號到來時,將通過串口驅(qū)動語音安撫模塊播放某一安撫音頻。而無線通信模塊采樣集成藍牙芯片,安撫事件觸發(fā)信號到來時將通知父母監(jiān)測到嬰兒啼哭。

2.2 軟件部分

2.2.1 預(yù)處理

預(yù)處理程序流程圖如圖2所示,所述的信號預(yù)處理程序的流程為:當(dāng)預(yù)處理程序接收到采集的信號后,首先求取此段信號均值,然后利用均值完成噪聲自適應(yīng)與端點檢測特征值自適應(yīng),完成自適應(yīng)之后,對原信號完成預(yù)加重操作,增強高頻成分,最后將此段信號按設(shè)定的幀長與幀移完成分幀操作即可傳入端點檢測程序。

預(yù)加重的目的是提升高頻部分,使信號的頻譜變得平坦,使得全頻帶盡可能的均衡,以此來補償語音信號受到發(fā)音系統(tǒng)所抑制的高頻部分,突出高頻的共振峰;然后是信號分幀處理,由于傅里葉變換要求輸入信號是平穩(wěn)的,非平穩(wěn)信號的傅里葉變換是沒有意義的,而短時傅里葉變換可對其完成分析;語音信號就是非平穩(wěn)信號,但其在短時上是有一定的周期性的,即在1 個較短的時間片里它可被認定為接近平穩(wěn)信號,因此要進行分幀的操作,即截取短時的語音片段;而語音的基頻在(100~250)Hz,即基音周期在(4~10)ms,而每幀含有2~3 個周期主頻能量表現(xiàn)才較佳,這里采用8 kHz采樣率,幀長256,即32 ms;此外,分幀時的幀移取128,即相鄰兩幀將有部分重疊,可使此段信號計算得到的基音頻率更加平滑,也可減弱后續(xù)加窗操作的副作用。

1679686164969827.png

2.2.2 端點檢測

端點檢測程序流程圖如圖3 所示,所述的端點檢測程序流程為:完成預(yù)處理的音頻信號傳入后,首先根據(jù)噪聲自適應(yīng)值設(shè)定短時幅度累計閾值,然后設(shè)定短時過零閾值,其中短時幅度累計值通過預(yù)處理過程得到的幅度累積閾值乘系數(shù)得到,而短時過零率的“0 點”則為預(yù)處理過程得到的噪聲閾值計算出的以0 點為中心的1個窗口,窗口內(nèi)的值都被認為是0 值,輸入信號相鄰兩個值分別大于窗口與小于窗口,則視為一次過0。然后遍歷所有幀,根據(jù)兩個閾值獲得有音聲段,然后將有音聲段幀序號傳入基音頻率提取程序。

1679686226947739.png

2.2.3 基音頻率提取

基音頻率提取程序流程圖如圖4 所示,所述的基音頻率求取程序的流程為:有音聲段傳入后,此程序?qū)⒁来翁幚砻總€有音聲段幀,首先對幀數(shù)據(jù)進行窗函數(shù)濾波操作,然后輸入FFT 算法輸入端,再對FFT 算法輸出的復(fù)數(shù)數(shù)組求取幅值,再對幅值取對數(shù),最后再帶入IFFT算法求得倒譜,然后求得基音頻率及其統(tǒng)計特征,如果基音頻率超過設(shè)定的頻率閾值,則判定為識別到有效嬰兒啼哭,最后將會觸發(fā)安撫模塊。

image.png

3 項目測試

嬰兒及安撫系統(tǒng)于3 個場景下完成了12 h長時間測試,分別是睡覺環(huán)境、人聲環(huán)境、客廳環(huán)境,分別代表僅含環(huán)境白噪聲、除環(huán)境白噪聲外還包含說話聲與家具移動聲、除環(huán)境白噪聲還包含電視機聲音與音樂聲音;經(jīng)測試,在睡覺環(huán)境中,識別準(zhǔn)確率高于99.9%;在人聲環(huán)境中,識別準(zhǔn)確率大約為97.73%;在客廳環(huán)境中,識別準(zhǔn)確率大約為94.97%。此外嬰兒及安撫系統(tǒng)還有一參數(shù)可按情況調(diào)整,此參數(shù)為單位時間內(nèi)有效輸出驗證次數(shù),即在1 s 時間內(nèi),識別到幾次嬰兒啼哭聲則視為有效嬰兒啼哭,此參數(shù)越大則誤判率越低,對應(yīng)的實時性越差,以上測試此參數(shù)皆設(shè)為2,輸出延遲約0.3 s,通過設(shè)置此參數(shù)可在實時性和準(zhǔn)確性之間尋求一個平衡。

1679686332856006.png

圖5 玩偶嵌入智能識別系統(tǒng)

4 結(jié)束語

本系統(tǒng)采用基于音頻特征的語音識別方案,通過提取嬰兒啼哭聲的倒譜特征,進而得到嬰兒啼哭聲的基音頻率及其統(tǒng)計特征來判定嬰兒啼哭聲的存在,降低了對處理器存儲器容量以及對處理器算力的要求,降低了成本,此外系統(tǒng)采用ping-pong 工作機制,實時性強,經(jīng)測試平均延遲為200 ms,本系統(tǒng)可廣泛應(yīng)用于智能玩偶及智能童車等。

參考文獻:

[1] 梁海珍.語音識別技術(shù)在智能家居領(lǐng)域應(yīng)用[J].電子技術(shù)與軟件工程, 2021,2(4):100- 101.

[2] 趙春昊,莫重驥,矯欣航,等.聲紋識別技術(shù)發(fā)展與應(yīng)用淺談[J].中國安全防范技術(shù)與應(yīng)用, 2020,10(5):17-20.

[3] 魚昆,張紹陽,侯佳正,等.語音識別及端到端技術(shù)現(xiàn)狀及展望[J].計算機系統(tǒng)應(yīng)用,2021,3 (3):14-23.

(本文來源于《電子產(chǎn)品世界》雜志2023年3月期)



評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉