嬰兒啼哭監(jiān)測及安撫系統(tǒng)*

作者：朱江燦,王新懷,徐茵,米月琴(西安電子科技大學,西安 710126) 時間：2023-03-25 來源：電子產(chǎn)品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

編者按：系統(tǒng)由采集與信號調(diào)理模塊的聲音拾取裝置（MEMS麥克風）收集環(huán)境聲音，經(jīng)自動增益控制（AGC）模塊處理后被采集，處理器模塊將采集到的音頻數(shù)據(jù)首先通過獲取環(huán)境信號特征完成環(huán)境噪聲與端點檢測特征值自適應，對音頻信號預處理后，通過端點檢測算法提取出有音信號段，將有音信號段導入MFCC算法提取信號倒譜，然后根據(jù)信號倒譜獲取基音頻率，最后通過基音頻率各類統(tǒng)計值做最后判斷，若判斷結(jié)果為有效嬰兒啼哭聲，則觸發(fā)執(zhí)行安撫與信息通知，包括驅(qū)動語音安撫模塊播放安撫音樂或父母安撫聲，驅(qū)動無線通信模塊通知父母嬰兒發(fā)生啼哭。

*本文受陜西省重點研發(fā)計劃項目（2020ZDXM5-01）和中央高校業(yè)務費項目（XJS220209）支持

本文引用地址：http://www.butianyuan.cn/article/202303/444887.htm

照顧嬰兒是一項辛苦的工作，嬰兒往往會因為環(huán)境的輕微的變化而產(chǎn)生啼哭行為，需要父母去安撫，這耗費了父母的大量精力，影響了父母正常的工作和生活。隨著語音識別技術的迅速發(fā)展，語音識別已經(jīng)成為各類邊緣嵌入式電子系統(tǒng)的重要感知手段。針對嬰兒領域的產(chǎn)品也是層出不窮，其中包括針對嬰兒啼哭聲識別的產(chǎn)品。

隨著人機交互、語音識別、嵌入式等技術在智能家居領域的快速應用，出現(xiàn)了一系列高度智能化、便捷化的商業(yè)產(chǎn)品，諸如掃地機器人、小米音箱、智能門鎖和智能監(jiān)控攝像頭等。同時智能化的嬰兒看護產(chǎn)品也逐漸興起并推廣開來，為母嬰用戶帶來了巨大的便利，用戶不用時刻陪伴在嬰兒身邊。本文就嬰兒啼哭識別系統(tǒng)進行設計，力圖以簡易的方式和方法搭建一個嬰兒啼哭聲識別系統(tǒng)。

1 系統(tǒng)設計

1.1 系統(tǒng)組成部分

如圖1 所示，該系統(tǒng)主要分為4 個組成部分，首先是聲音拾取與信號調(diào)理模塊，模塊使用集成硅麥克風芯片拾取環(huán)境聲音，經(jīng)自動增益電路調(diào)理后接入處理器AD采集端口。然后是處理器主控模塊，MCU以pingpong工作機制同時完成采集操作與信號處理操作，其中信號處理程序包括預處理、端點檢測、基音頻率提取3個部分。最后是語音安撫模塊與無線通信模塊，當識別到有效嬰兒啼哭聲時，語音安撫模塊將播放音樂，無線通信模塊將通知監(jiān)護人。

1.2 系統(tǒng)工作過程

嬰兒啼哭監(jiān)測及安撫系統(tǒng)的工作過程如下：首先，由聲音拾取與信號調(diào)理模塊的聲音拾取芯片（MEMS 硅麥克風）收集環(huán)境聲音，經(jīng)信號調(diào)理電路完成自動增益后由處理器主控模塊采集，處理器主控模塊采集到音頻數(shù)據(jù)后，將首先通過獲取環(huán)境信號特征完成環(huán)境噪聲與端點檢測特征值自適應，然后對音頻信號預處理，最后通過端點檢測算法提取出有音信號段，如處理器主控模塊檢測到有效的音頻信號段，則通過MFCC 算法提取此段信號的頻率特征，然后根據(jù)音頻信號頻率倒譜提取出基音頻率，最后通過基音頻率各類統(tǒng)計值做最后判斷，若識別結(jié)果為有效嬰兒啼哭聲，則觸發(fā)安撫行為，包括驅(qū)動語音安撫模塊播放安撫音樂與父母安撫聲，驅(qū)動無線通信模塊通知父母嬰兒發(fā)生啼哭。

2 系統(tǒng)功能實現(xiàn)與工作原理

2.1 硬件部分

2.1.1 采集與信號調(diào)理模塊

麥克風采用MEMS微型硅麥克風，MEMS 麥克風將電容器集成在微硅晶片上，可以采用表貼工藝進行制造，直徑不到1 mm 的小型薄膜的重量非常輕巧，且與ECM相比，MEMS麥克風會對由安裝在同一PCB上的揚聲器引起的PCB噪聲產(chǎn)生更低的振動耦合；另外，它也具有改進的噪聲消除性能與良好的RF 及EMI 抑制。

2.1.2 語音安撫及無線通信模塊

語音安撫模塊采用YX5200-24SS作為主芯片，YX5200-24SS是一個支持串口的語音芯片，集成了MP3、WAV、WMA的硬解碼；預先將安撫音樂與父母的安撫音頻存入，安撫事件觸發(fā)信號到來時，將通過串口驅(qū)動語音安撫模塊播放某一安撫音頻。而無線通信模塊采樣集成藍牙芯片，安撫事件觸發(fā)信號到來時將通知父母監(jiān)測到嬰兒啼哭。

2.2 軟件部分

2.2.1 預處理

預處理程序流程圖如圖2所示，所述的信號預處理程序的流程為：當預處理程序接收到采集的信號后，首先求取此段信號均值，然后利用均值完成噪聲自適應與端點檢測特征值自適應，完成自適應之后，對原信號完成預加重操作，增強高頻成分，最后將此段信號按設定的幀長與幀移完成分幀操作即可傳入端點檢測程序。

預加重的目的是提升高頻部分，使信號的頻譜變得平坦，使得全頻帶盡可能的均衡，以此來補償語音信號受到發(fā)音系統(tǒng)所抑制的高頻部分，突出高頻的共振峰；然后是信號分幀處理，由于傅里葉變換要求輸入信號是平穩(wěn)的，非平穩(wěn)信號的傅里葉變換是沒有意義的，而短時傅里葉變換可對其完成分析；語音信號就是非平穩(wěn)信號，但其在短時上是有一定的周期性的，即在1 個較短的時間片里它可被認定為接近平穩(wěn)信號，因此要進行分幀的操作，即截取短時的語音片段；而語音的基頻在（100~250）Hz，即基音周期在（4~10）ms，而每幀含有2~3 個周期主頻能量表現(xiàn)才較佳，這里采用8 kHz采樣率，幀長256，即32 ms；此外，分幀時的幀移取128，即相鄰兩幀將有部分重疊，可使此段信號計算得到的基音頻率更加平滑，也可減弱后續(xù)加窗操作的副作用。

2.2.2 端點檢測

端點檢測程序流程圖如圖3 所示，所述的端點檢測程序流程為：完成預處理的音頻信號傳入后，首先根據(jù)噪聲自適應值設定短時幅度累計閾值，然后設定短時過零閾值，其中短時幅度累計值通過預處理過程得到的幅度累積閾值乘系數(shù)得到，而短時過零率的“0 點”則為預處理過程得到的噪聲閾值計算出的以0 點為中心的1個窗口，窗口內(nèi)的值都被認為是0 值，輸入信號相鄰兩個值分別大于窗口與小于窗口，則視為一次過0。然后遍歷所有幀，根據(jù)兩個閾值獲得有音聲段，然后將有音聲段幀序號傳入基音頻率提取程序。

2.2.3 基音頻率提取

基音頻率提取程序流程圖如圖4 所示，所述的基音頻率求取程序的流程為：有音聲段傳入后，此程序?qū)⒁来翁幚砻總€有音聲段幀，首先對幀數(shù)據(jù)進行窗函數(shù)濾波操作，然后輸入FFT 算法輸入端，再對FFT 算法輸出的復數(shù)數(shù)組求取幅值，再對幅值取對數(shù)，最后再帶入IFFT算法求得倒譜，然后求得基音頻率及其統(tǒng)計特征，如果基音頻率超過設定的頻率閾值，則判定為識別到有效嬰兒啼哭，最后將會觸發(fā)安撫模塊。

3 項目測試

嬰兒啼哭監(jiān)測及安撫系統(tǒng)于3 個場景下完成了12 h長時間測試，分別是睡覺環(huán)境、人聲環(huán)境、客廳環(huán)境，分別代表僅含環(huán)境白噪聲、除環(huán)境白噪聲外還包含說話聲與家具移動聲、除環(huán)境白噪聲還包含電視機聲音與音樂聲音；經(jīng)測試，在睡覺環(huán)境中，識別準確率高于99.9%；在人聲環(huán)境中，識別準確率大約為97.73%；在客廳環(huán)境中，識別準確率大約為94.97%。此外嬰兒啼哭監(jiān)測及安撫系統(tǒng)還有一參數(shù)可按情況調(diào)整，此參數(shù)為單位時間內(nèi)有效輸出驗證次數(shù)，即在1 s 時間內(nèi)，識別到幾次嬰兒啼哭聲則視為有效嬰兒啼哭，此參數(shù)越大則誤判率越低，對應的實時性越差，以上測試此參數(shù)皆設為2，輸出延遲約0.3 s，通過設置此參數(shù)可在實時性和準確性之間尋求一個平衡。

圖5 玩偶嵌入智能識別系統(tǒng)

4 結(jié)束語

本系統(tǒng)采用基于音頻特征的語音識別方案，通過提取嬰兒啼哭聲的倒譜特征，進而得到嬰兒啼哭聲的基音頻率及其統(tǒng)計特征來判定嬰兒啼哭聲的存在，降低了對處理器存儲器容量以及對處理器算力的要求，降低了成本，此外系統(tǒng)采用ping-pong 工作機制，實時性強，經(jīng)測試平均延遲為200 ms，本系統(tǒng)可廣泛應用于智能玩偶及智能童車等。

參考文獻：

[1] 梁海珍.語音識別技術在智能家居領域應用[J].電子技術與軟件工程, 2021,2(4):100- 101.

[2] 趙春昊,莫重驥,矯欣航,等.聲紋識別技術發(fā)展與應用淺談[J].中國安全防范技術與應用, 2020,10(5):17-20.

[3] 魚昆,張紹陽,侯佳正,等.語音識別及端到端技術現(xiàn)狀及展望[J].計算機系統(tǒng)應用,2021,3 (3):14-23.

（本文來源于《電子產(chǎn)品世界》雜志2023年3月期）