電子設(shè)備中的語音和音頻控制進(jìn)展

作者：時間：2023-05-16 來源：Mouser

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

言語是人們表達(dá)思想和愿望的一種有效方式。在工業(yè)時代到來之前，人類發(fā)現(xiàn)動物可以被訓(xùn)練用來識別和響應(yīng)讓它們執(zhí)行某些任務(wù)的基本命令。

本文引用地址：http://butianyuan.cn/article/202305/446599.htm

下一個合乎邏輯的發(fā)展應(yīng)該是開發(fā)一種使用聲音信號與機(jī)器進(jìn)行交流，并指揮機(jī)器行動的方法。近年來，以語音和音頻作為電子設(shè)備的控制界面越來越受歡迎，并且這種技術(shù)也在不斷發(fā)展，以滿足用戶的期望和新應(yīng)用的要求。

在本文中，我們將解釋用語音和音頻信號控制電子設(shè)備和機(jī)器的好處，并回顧如何實現(xiàn)這種控制。我們還將展示這種控制界面現(xiàn)在可以如何能夠嵌入到離線設(shè)備，以及它們提供的音頻控制體驗如何能夠大幅度改善。

使用語音控制電子設(shè)備

采用語音控制實現(xiàn)與機(jī)器交互有幾個明顯好處：

●對人類來說，語音是一種直觀的交流形式，這種口頭傳達(dá)指令的方式更容易。

●即使一個人的眼睛和手正在用于其它事情，語音交流仍然可能。實時的語音控制也很方便，例如在駕車等某些應(yīng)用場景下，試圖通過觸摸來控制車內(nèi)其它設(shè)備是違法的。

●語音是控制機(jī)器的一種有效媒介，采用語音控制機(jī)器，可以在不需要復(fù)雜指令的情況下進(jìn)行監(jiān)聽和響應(yīng)。

●在設(shè)備中集成語音控制能夠最大限度地減少許多設(shè)備對觸屏的需求。這對于處于遠(yuǎn)程或便攜式電池供電設(shè)備來說尤其理想，在這些設(shè)備中，減小尺寸和降低功耗是常見的設(shè)計挑戰(zhàn)。對于具有多個用戶的應(yīng)用來說，去掉觸屏控制也更加符合衛(wèi)生要求。

●如圖1所示，對于某些殘疾人來說，觸屏控制可能是一種不現(xiàn)實的選擇，因而語音可以成為一種有效的支持工具。通過語音與機(jī)器進(jìn)行交互可用于執(zhí)行諸如開門之類的任務(wù)，或者通過遠(yuǎn)程通信來傳輸個人最近的健康狀況。

圖1：聲控機(jī)器人助手。（來源：Shutterstock的PaO_STUDIO）

語音控制設(shè)備的音頻前端（AFE）包括麥克風(fēng)陣列和信號處理模塊。AFE能夠處理來自多通道麥克風(fēng)陣列的信號，以消除任何背景噪聲或設(shè)備本身回放產(chǎn)生的干擾。然后，該信號被發(fā)送到“喚醒詞（wake-word）”檢測引擎，例如經(jīng)過在設(shè)備上預(yù)先編程，可識別出“Alexa”或“OK Google”等單詞。通過使用多種信號處理算法，能夠消除多種不需要的干擾信號。語音控制解決方案的組成部分包括：

麥克風(fēng)陣列：語音激活系統(tǒng)需要一個或多個麥克風(fēng)來捕獲音頻控制信號。在選擇麥克風(fēng)陣列時，重要的考慮因素包括尺寸、成本、性能和穩(wěn)健性。優(yōu)化組合來自多麥克風(fēng)陣列的不同信號有助于提高音頻信號鏈的信噪比（SNR）。

到達(dá)方向（DoA）檢測器：用于確定用戶相對于被控設(shè)備的位置，以便麥克風(fēng)陣列可以將波束調(diào)整為語音的方向。

波束成形器：它接受來自DoA檢測器的聲音，同時去除來自其他方向的聲音。其性能取決于麥克風(fēng)陣列的幾何形狀、SNR以及波束寬度和背景噪聲水平等。

聲學(xué)回聲消除器（AEC）：它會消除設(shè)備揚聲器本身的播放信號（例如，設(shè)備揚聲器正在播放音樂時收到語音指令），以便清晰地拾取用戶語音指令。

自適應(yīng)干擾消除器（AIC）：它能夠消除來自其他聲音源的外部噪聲，這些噪聲很難用傳統(tǒng)的波束成形器消除，例如，其他設(shè)備產(chǎn)生的較大噪聲。

喚醒詞檢測器：將來自AFE的經(jīng)過處理語音信號與喚醒詞庫進(jìn)行比較，例如可使用喚醒詞檢測算法的“Hey Google”，這種算法通常是機(jī)器學(xué)習(xí)模型的一部分。更大的模型則更準(zhǔn)確，例如，1MB訓(xùn)練模型比64kB模型更準(zhǔn)確，但處理強(qiáng)度更大。需要大的喚醒詞模型來準(zhǔn)確地檢測喚醒詞，從而減少錯誤警報的數(shù)量。

D類音頻放大器

該控制界面的語音處理部分經(jīng)過大量開發(fā)，現(xiàn)在即使是低成本的設(shè)備也能提供準(zhǔn)確的語音識別能力。然而，界面的音頻端受到的關(guān)注明顯較少，這意味著與高端音頻設(shè)備相比，許多早期智能揚聲器和其他支持音頻的物聯(lián)網(wǎng)（IoT）設(shè)備所產(chǎn)生的音質(zhì)較差。

與語音控制相關(guān)的任何新產(chǎn)品都可能被認(rèn)為分散了人們對這些缺點的關(guān)注。然而，隨著智能設(shè)備越來越廣泛采用，消費者對其提供的音頻體驗期望也越來越高。傳統(tǒng)AB類音頻放大器的低效率使其無法用于低功率物聯(lián)網(wǎng)設(shè)備，幸運的是，幾家芯片制造商最近推出了一系列高級D類音頻放大器，體現(xiàn)了對以前可用音頻放大器的重大改進(jìn)，其中許多產(chǎn)品都是專門為在智能技術(shù)和物聯(lián)網(wǎng)設(shè)備中實現(xiàn)高品質(zhì)音頻而開發(fā)。

德州儀器（Texas Instruments）的TAS2770 15W輸入音頻放大器能夠提高響度和音頻質(zhì)量，它具有更強(qiáng)的語音捕獲能力，意味著語音控制設(shè)備的操作更容易、更自然。Maxim Integrated（現(xiàn)在屬于Analog Devices旗下品牌）開發(fā)了MAX98357 和MAX98358 D類放大器，效率達(dá)到92%，可提供3.2W的AB類音頻性能，這些放大器的簡化框圖如圖2所示。Diodes Incorporated的PAM8106具有較低功耗，使其能夠在由1.5V鉛酸電池和3.5V鋰離子電池驅(qū)動的設(shè)備中很好地運行。

圖2：Maxim Integrated D類音頻放大器簡化框圖。（來源：Maxim Integrated）

離線語音控制

亞馬遜的Alexa和谷歌助手（Google Assistant）等基于云的解決方案很容易用于具有穩(wěn)定互聯(lián)網(wǎng)連接的設(shè)備，但對于那些沒有穩(wěn)定互聯(lián)網(wǎng)或根本沒有連接的設(shè)備來說，離線語音控制則是一個更好的解決方案。例如，如果某個產(chǎn)品需要響應(yīng)簡單的單詞指令，如go、stop、reset等（通常稱為關(guān)鍵字識別），那么在設(shè)備本身進(jìn)行本地處理則很有意義。使用低成本的嵌入式微控制器可以實現(xiàn)簡單的關(guān)鍵字指令系統(tǒng)，例如可使用恩智浦（NXP）基于EdgeReady MCU的離線本地語音控制解決方案。它采用i.MX RT交叉MCU，開發(fā)人員能夠快速將語音控制集成到他們的產(chǎn)品中。恩智浦基于i.MX RT106S的解決方案包括SLN-LOCAL2-IOT開發(fā)工具包，如圖3所示。

該開發(fā)工具包配備了在FreeRTOS上運行的全部集成軟件，并提供有軟件開發(fā)工具包（SDK），以便快速驗證概念。離線語音控制也有助于解決許多消費者的隱私問題，因為他們擔(dān)心自己的系統(tǒng)容易受到在線黑客的攻擊。

圖3：恩智浦的SLN-LOCAL2-IOT離線語音控制解決方案。（來源：恩智浦）

結(jié)論

語音和音頻正在快速成為許多智能設(shè)備的首選控制界面，這種技術(shù)尤其適合在低功耗和便攜式物聯(lián)網(wǎng)設(shè)備中使用，因為它能夠消除對昂貴且耗電的數(shù)字顯示器的要求。許多早期系統(tǒng)的音頻質(zhì)量較差，只能使用云連接解決方案來實現(xiàn)。

然而，隨著新一代高效D類音頻放大器的出現(xiàn)，使制造商能夠確保其設(shè)備為消費者提供高質(zhì)量的音頻體驗。而且現(xiàn)在也可提供一些其它解決方案，能夠在互聯(lián)網(wǎng)連接不穩(wěn)定或根本沒有互聯(lián)網(wǎng)連接的情況下實現(xiàn)設(shè)備的語音控制。這些創(chuàng)新表明，隨著人們越來越習(xí)慣這種控制界面，語音控制技術(shù)有能力適應(yīng)新的需求，而且這種發(fā)展趨勢還會不斷繼續(xù)。

新聞中心

電子設(shè)備中的語音和音頻控制進(jìn)展

評論

相關(guān)推薦

技術(shù)專區(qū)