人工智能電視遠場語音設計

作者：郭斌林敏強劉澤民時間：2018-09-27 來源：電子產品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

編者按：本文介紹一種服務于人工智能電視，實現(xiàn)遠場語音應用的麥克風陣列設計方案，闡述系統(tǒng)框架和硬件設計，同時介紹軟件設計的部分要點。通過麥克風陣列，協(xié)助語音增強算法的實現(xiàn)，達到遠距離拾音、回聲消除、聲源定位，滿足當前智能語音應用的需求。

作者 / 郭斌林敏強劉澤民康佳集團(廣東深圳 518053)

本文引用地址：http://www.butianyuan.cn/article/201809/392393.htm

　　郭斌(1980— )，男，康佳集團多媒體研發(fā)中心新技術所所長，主研電視前沿技術，無線通信方向。

　　林敏強(1990— )，男，康佳集團多媒體研發(fā)中心硬件工程師，主研智能前沿技術，人機交互方向。

　　劉澤民(1994— )，男，康佳集團多媒體研發(fā)中心硬件工程師，主研無線智能產品方向。

摘要：本文介紹一種服務于人工智能電視，實現(xiàn)遠場語音應用的麥克風陣列設計方案，闡述系統(tǒng)框架和硬件設計，同時介紹軟件設計的部分要點。通過麥克風陣列，協(xié)助語音增強算法的實現(xiàn)，達到遠距離拾音、回聲消除、聲源定位，滿足當前智能語音應用的需求。

0 引言

　　人工智能是20世紀新興的一門學科，從發(fā)展之初就受到業(yè)界的廣泛關注。人工智能從廣義上定義是指具備語音感知、圖像感知以及其他信息感知，具備邏輯運算能力，以仿人類的思維方式工作的智能系統(tǒng)。目前已經取得了不俗的成果，人工智能產品也覆蓋到了人們生活的方方面面。人工智能科學具有廣闊的發(fā)展前景和巨大的發(fā)展?jié)摿?正確引導和規(guī)范人工智能科學的技術性發(fā)展和應用,必將會給人類帶來巨大的財富^[1]。

　　隨著大數據、云計算、深度學習技術的不斷普及，語音技術的不斷優(yōu)化，人工智能越來越具備從"感知"到"認知"的能力，產品形態(tài)的智能化程度越來越高^[2]。人工智能技術在電視上的應用，將內容和交互結合，聽歌、看劇、查詢...用戶都只需要開口就行，結合大數據后臺，便會根據用戶的喜好推送個性化歌曲推薦;接入智能家居系統(tǒng)，即可語音操控各種設備，十分便捷。

　　本文圍繞人工智能電視的遠場語音設計展開，介紹功能實現(xiàn)的框架和原理。

1 硬件設計

　　基礎功能硬件實現(xiàn)架構如圖1，采用4麥克風條形線性陣列，模擬麥克風經ADC傳輸音頻信號給MCU處理。MCU采用ST的STM32F401CDU6作為主控方案，STM32F401CDU6是一顆32位 ARM核芯片，內置512 KB Flash/96 KB RAM，低延遲，工作頻率高達84 MHz,支持寬電壓1.7 V~3.6 V。模塊方案通過ADC將A-MIC模擬信號轉成I2S傳輸給MCU，MCU通過USB2.0和TV SOC傳輸音頻數據。通過麥克風陣列模塊搭配算法有效實現(xiàn)聲源定位、波束成形、去混響、降噪、增益調節(jié)、回聲消除等功能(下文結合軟件模塊展開闡述)。

人工智能-1.jpg

　　1.1 麥克風選料

　　麥克風選用靈敏度-25 dB，信噪比74 dB的A-MIC，同時采用接線外拉的形式，有效避免生產過程中因高溫焊接導致的麥克風靈敏度下降或損壞等問題，保證陣列麥克風靈敏度的一致性，對整體算法的精確度有比較好的控制和要求。不過相應的會對整機生產裝配造成難度以及增加人工成本，設計之初需要做好防呆設計，提高安裝可靠性和效率。

　　1.2 供電設計

　　模塊采用獨立的供電，電視待機時，可支持通過模塊待機喚醒操作。模塊需要區(qū)分電視待機和開機狀態(tài)，開機狀態(tài)下，喚醒詞拉起語音應用。待機狀態(tài)下，喚醒詞本地處理通過I/O口發(fā)起開機信號。因此待機時，供電關閉500 ms后重啟，模塊重新讀取USB數據信號是否為空，以此來判斷主機狀態(tài)。

　　1.3 參考信號設計

　　參考信號指的是主機端提供給模塊的音頻參考，作為回聲消除算法的依據。參考音頻由功放輸出信號，經過分壓、濾波后傳輸給模塊。根據芯片取值范圍要求，確保輸入到模塊的參考信號幅值≤1 Vrms，即圖2中從AMP+/-經分壓后到SPK+/-的信號≤1 Vrms。

人工智能-2.jpg

　　這里提到另外一種分壓方式，如圖3，由于R36、R38阻值存在誤差以及喇叭的寄生電容等影響，改變了差分信號走線的阻抗，使得其對于共模干擾抑制能力減弱，且容易在參考信號中引入雜音、破音。實際測試對比兩者播放1 kHz測試音頻時，該分壓方式產生明顯的失真，如圖4對比。

人工智能-3.jpg

2 軟件設計

　　軟件分本地處理和云端處理兩部分。如圖6，淺灰色部分為本地處理，深灰色部分為云端處理。本地算法包括回聲消除AEC、聲源定位DOA、波束形成BF、去混響DER、降噪NS、自動增益調節(jié)AGC、頻域均衡EQ，最終編碼傳輸。云端主要負責對接收到的音頻進行文本識別、自然語言處理NLP、最終經過業(yè)務邏輯和技能處理，將結果經TTS服務器反饋給用戶。其中，在識別處理的同時，音頻信號經VPR服務器進行讀取，對音頻分析特征值，也就是聲紋識別。聲紋識別的結果也提供給業(yè)務單元處理。

人工智能-4.jpg

　　2.1 回聲消除

　　自適應回聲抵消的基本思想是估計回聲路徑的特征參數，產生一個模擬的回音路徑，得出模擬回聲信號，從接收信號中減去該信號，實現(xiàn)回聲抵消。圖5給出了單向傳輸的聲學消回聲器AEC的原理圖。圖5中，x(n)代表麥克風拾音的信號，包含了本地聲音和目標人聲;y(n)是經過回聲通道而產生的不期望的回聲;r(n)是經算法抵消后的目標人聲;A口的信號x(n)疊加有不期望的回聲^[3]。

人工智能-5.jpg

　　2.2 聲源定位及波束形成

　　麥克風拾音在實際應用環(huán)境中不僅僅有直接到達的目標語音，還有目標語音經過墻面反射、衍射等其他路徑到達的部分及混響，以及環(huán)境噪音及本地噪音的干擾。聲源定位即依靠分布式麥克風陣列，對接收到的信號進行函數運算，根據計算的信號時延差獲取目標音源的角度方向。波束形成的原理利用麥克風陣列的特性，將噪聲進行抑制或進行非常大的衰減以提高接受目標信號的質量^[4]。

　　2.3 語音識別

　　語音識別的過程主要由遠場或近場方式進行拾音，由語音識別服務器(ASR)和語義理解服務器(NLP)完成錄音文件識別和結果轉換。識別結果經語音合成服務器(TTS)合成人聲將結果反饋給用戶。

人工智能-6.jpg

　　語音識別服務器(ASR)主要將電視端錄入的音頻文件進行識別，將識別結果的文本直接發(fā)送給語義理解服務器進行解析，可以分為遠場/近場以及不同方言進行處理。

　　語義理解服務器(NLP)，目前使用主服務器加輔助服務器的模式進行語義理解處理，在語音識別服務將文字傳給語義理解服務器后，使用第三方提供的主服務器進行優(yōu)先解析，識別結果進行權重值計算，權重值高的識別結果直接返回客戶端進行處理;權重值低的識別結果返回給康佳語義理解服務器，由康佳語義理解服務器進行二次處理和轉發(fā)，如果主服務器不能識別的語句則由康佳語義理解服務器進行識別，然后根據識別結果的領域分發(fā)給其他對應在該領域處理比較好的其它服務器進行語義理解處理，識別之后返回康佳服務器再統(tǒng)一返回客戶端進行處理。

人工智能-7.jpg

　　語音合成服務器，主要將識別結果和理解處理結果的文本進行語音合成和人聲播報，可以定義不同的人聲播報達到不同的效果，處理結果為生成一個音頻文件返回給客戶端。

3 小結

　　隨著人工智能技術的發(fā)展，語音成為了不可或缺的主要交互手段。麥克風陣列在智能音箱、智能電視甚至智能空調、冰箱、抽油煙機等家電上都逐漸開始應用，市場一度出現(xiàn)了人工智能熱。麥克風陣列的設計及應用是AI智能服務落地的基礎，本文提出人工智能電視遠場語音麥克風陣列的設計，從硬件系統(tǒng)、軟件模塊、性能原理、以及器件選型等多方面進行了原理分析研究和設計方案闡述，配合云端后臺，實現(xiàn)電視人工智能對話的場景。

　　參考文獻：

　　[1]王太忠,呂葉. 人工智能淺析[J]. 科教文匯(上旬刊). 2012(09):70-71

　　[2]陳長偉. 人工智能+內容開啟廣電智媒體時代[J]. 有線電視技術. 2017(11)：26-29

　　[3]王慶輝,李永哲. VoIP聲學回聲消除算法研究[J] , 現(xiàn)代電子技術, 2009 (07).

　　[4]杜軍,桑勝舉. 基于麥克風陣列的語音增強技術及應用[J]. 計算機應用與軟件. 2009(10)

　　本文來源于《電子產品世界》2018年第10期第50頁，歡迎您寫論文時引用，并注明出處。