新聞中心

EEPW首頁(yè) > 消費(fèi)電子 > 設(shè)計(jì)應(yīng)用 > 一種基于語(yǔ)音交互應(yīng)用的全時(shí)AI電視系統(tǒng)設(shè)計(jì)方案

一種基于語(yǔ)音交互應(yīng)用的全時(shí)AI電視系統(tǒng)設(shè)計(jì)方案

作者:洪文生,徐遙令,沈思寬,艾倩(深圳創(chuàng)維-RGB電子有限公司研究院,深圳 518108) 時(shí)間:2022-01-24 來(lái)源:電子產(chǎn)品世界 收藏
編者按:提出一種基于語(yǔ)音交互應(yīng)用的全時(shí)AI電視系統(tǒng)設(shè)計(jì)方案,詳細(xì)闡述了系統(tǒng)工作原理及AI語(yǔ)音交互、AI待機(jī)交互、線性陣列麥克風(fēng)模塊和防反射收音管道設(shè)計(jì)關(guān)鍵技術(shù);系統(tǒng)在開機(jī)和AI待機(jī)狀態(tài)時(shí)均可進(jìn)行AI語(yǔ)音交互,實(shí)現(xiàn)不間斷全時(shí)語(yǔ)音交互,同時(shí)AI待機(jī)語(yǔ)音交互功率低,系統(tǒng)語(yǔ)音交互準(zhǔn)確性和識(shí)別率高。該方案已應(yīng)用于創(chuàng)維全時(shí)AI電視產(chǎn)品,效果良好,產(chǎn)生了良好效益。

以人為中心的身體、姿態(tài)、動(dòng)作、表情、語(yǔ)音識(shí)別技術(shù)的自然人機(jī)交互已開始應(yīng)用于智能[1]。聲音可最自然和直接地訪問(wèn)信息和交換信息,語(yǔ)音信息輸入、識(shí)別和實(shí)現(xiàn),可以大大降低用戶的通信成本,豐富人機(jī)交互[2]。語(yǔ)音識(shí)別技術(shù)是通過(guò)對(duì)語(yǔ)音信號(hào)特征的提取,使用不同的模式對(duì)其進(jìn)行匹配,最終將語(yǔ)音信號(hào)轉(zhuǎn)化成為文本內(nèi)容或者命令的技術(shù)[3]。

本文引用地址:http://butianyuan.cn/article/202201/431104.htm

作為最符合人機(jī)交互的方式之一,逐步成為等智能硬件的“標(biāo)配”,并使語(yǔ)音搜索成為了主流的AI(artificial intelligence,AI)技術(shù)[4]。AI 語(yǔ)音技術(shù)在智能上應(yīng)用,需要24 h 全時(shí)段支持交互功能,不管是開機(jī)狀態(tài)還是待機(jī)狀態(tài),都要能夠接收和處理語(yǔ)音、實(shí)現(xiàn)交互,為人們提供高品質(zhì)和便捷的交互服務(wù)。

本文提出一種基于應(yīng)用的 電視系統(tǒng)設(shè)計(jì)方案,闡述了系統(tǒng)工作原理及AI 、AI待機(jī)交互、線性陣列麥克風(fēng)模塊和防反射收音管道設(shè)計(jì)工藝關(guān)鍵技術(shù);系統(tǒng)在開機(jī)和AI 待機(jī)狀態(tài)時(shí)均可進(jìn)行AI 語(yǔ)音交互、實(shí)現(xiàn)不間斷全時(shí)語(yǔ)音交互,同時(shí)AI 待機(jī)時(shí)的交互功率低,采用線性陣列麥克風(fēng)和防反射收音管道設(shè)計(jì)實(shí)現(xiàn)良好的收音效果,系統(tǒng)語(yǔ)音交互的準(zhǔn)確性和識(shí)別率高。該方案已用于創(chuàng)維 電視產(chǎn)品,得到了良好應(yīng)用。

1   系統(tǒng)原理

基于語(yǔ)音交互應(yīng)用的 電視系統(tǒng)由全時(shí)和分時(shí)工作模塊組成,框圖如圖1 所示。全時(shí)工作模塊包括陣列麥克風(fēng)、語(yǔ)音DSP、互聯(lián)網(wǎng)功能、語(yǔ)音處理部分及電源管理模塊;分時(shí)工作模塊包括顯示處理、視頻處理、音頻處理及其他電視處理模塊。

1643013587231920.png

圖1 系統(tǒng)組成

全時(shí)AI 電視系統(tǒng)有三種狀態(tài):開機(jī)、AI 待機(jī)和深度待機(jī)。開機(jī)時(shí),全時(shí)工作模塊和分時(shí)工作模塊處于工作狀態(tài),電視可以進(jìn)行語(yǔ)音交互、音視頻播放等;AI待機(jī)時(shí),全時(shí)工作模塊處于工作狀態(tài),而分時(shí)工作模塊處于關(guān)閉狀態(tài),此時(shí)僅語(yǔ)音交互相關(guān)的模塊處于工作狀態(tài),其他模塊基本不消耗電能,在保持正常語(yǔ)音交互的情況下實(shí)現(xiàn)了低功耗;深度待機(jī)時(shí),全時(shí)工作模塊和分時(shí)工作模塊都處于關(guān)閉狀態(tài),此時(shí)功耗極低,但無(wú)法進(jìn)行語(yǔ)音交互。

全時(shí)AI 電視系統(tǒng)的待機(jī)流程如圖2 所示。電視在開機(jī)狀態(tài)時(shí),可以進(jìn)行AI 語(yǔ)音交互、音視頻播放等,接收遙控器、按鍵、語(yǔ)音或手機(jī)等設(shè)備發(fā)出的待機(jī)指令,如果此時(shí)系統(tǒng)設(shè)置為AI 待機(jī)且網(wǎng)絡(luò)連通,將先關(guān)閉分時(shí)工作模塊,然后進(jìn)入AI 待機(jī)狀態(tài);否則依次關(guān)閉分時(shí)和全時(shí)工作模塊,然后進(jìn)入深度待機(jī)狀態(tài)。在AI 待機(jī)時(shí),可以進(jìn)行AI 語(yǔ)音交互、響應(yīng)語(yǔ)音指令,打開分時(shí)工作模塊的部分功能,進(jìn)行語(yǔ)音響應(yīng)播報(bào)聲音;可以通過(guò)語(yǔ)音喚醒電視或傳統(tǒng)遙控方式快速喚醒電視,使電視系統(tǒng)不需要重啟而迅速進(jìn)入開機(jī)狀態(tài);還可設(shè)定特定條件(如長(zhǎng)時(shí)間未進(jìn)行AI 語(yǔ)音交互時(shí))自動(dòng)切換至深度待機(jī)狀態(tài),以節(jié)省能耗。在深度待機(jī)時(shí),不響應(yīng)AI語(yǔ)音交互,且必須通過(guò)傳統(tǒng)的遙控或按鍵開機(jī)指令使系統(tǒng)重啟后進(jìn)入開機(jī)狀態(tài)。

image.png

圖2 系統(tǒng)待機(jī)實(shí)現(xiàn)流程

2   關(guān)鍵技術(shù)

1)AI 語(yǔ)音交互技術(shù)

AI 語(yǔ)音交互技術(shù)原理框圖由全時(shí)AI 電視系統(tǒng)、網(wǎng)絡(luò)、服務(wù)器系統(tǒng)組成,如圖3 所示。其中,全時(shí)AI 電視系統(tǒng)包括聲音采集、聲音提取及增強(qiáng)、人聲識(shí)別與語(yǔ)音檢測(cè)等模塊;服務(wù)器系統(tǒng)包括語(yǔ)音識(shí)別、邏輯轉(zhuǎn)換等模塊。

1643013762112093.png

圖3 AI語(yǔ)音交互原理框圖

全時(shí)AI 電視系統(tǒng)通過(guò)聲音采集模塊采集聲音(包括環(huán)境噪聲、人聲、及電視喇叭聲音等),進(jìn)行降噪等預(yù)處理后得到聲音信號(hào),然后對(duì)聲音信號(hào)進(jìn)行回音消除、去混響、聲音提取和增強(qiáng)等處理,以及進(jìn)行人聲識(shí)別及人聲端點(diǎn)語(yǔ)音檢測(cè),獲取人聲語(yǔ)音信息,然后將語(yǔ)音編碼、調(diào)制后通過(guò)網(wǎng)絡(luò)傳送給服務(wù)器系統(tǒng);服務(wù)器系統(tǒng)接收語(yǔ)音后,進(jìn)行語(yǔ)音識(shí)別和邏輯處理等,向全時(shí)AI 電視系統(tǒng)反饋語(yǔ)音代表的語(yǔ)義等信息;全時(shí)AI 電視系統(tǒng)接收到反饋信息后,進(jìn)行解碼處理并生成電視系統(tǒng)的執(zhí)行指令,控制電視系統(tǒng)的模塊工作,完成AI 語(yǔ)音交互。

2)AI 待機(jī)交互技術(shù)

由系統(tǒng)原理闡述可知,在AI 待機(jī)時(shí)分時(shí)工作模塊進(jìn)入關(guān)閉狀態(tài)。而在AI 待機(jī)過(guò)程中,為滿足良好人機(jī)交互需要、同時(shí)要兼顧低功率消耗,根據(jù)AI 交互不同的指令,在交互時(shí)需要合理啟動(dòng)分時(shí)工作模塊的部分功能進(jìn)入工作狀態(tài)。AI 交互指令及處理功能工作狀態(tài)如圖4 所示。

1643013865832528.png

圖4 AI待機(jī)時(shí)指令及處理功能工作狀態(tài)

AI 待機(jī)交互技術(shù)設(shè)計(jì)原理為:①當(dāng)AI 語(yǔ)音為音頻指令時(shí),需合理開啟音頻處理功能;如語(yǔ)音輸入“今天天氣怎么樣”,電視系統(tǒng)收到服務(wù)器系統(tǒng)的反饋信息并生成及執(zhí)行指令,立即開啟音頻播放功能進(jìn)行天氣播報(bào);如語(yǔ)音輸入“播放音樂(lè)”,電視系統(tǒng)收到服務(wù)器系統(tǒng)的反饋信息并生成及執(zhí)行指令,立即開啟音樂(lè)播放器和音頻播放功能播放音樂(lè)。②當(dāng)AI 語(yǔ)音為視頻指令時(shí),需合理開啟視頻和顯示處理及音頻處理功能;如語(yǔ)音輸入“播放中央一套”,電視系統(tǒng)收到服務(wù)器系統(tǒng)的反饋信息并生成及執(zhí)行指令,立即開啟視頻播放功能和打開電視屏幕顯示及開啟音頻播放功能,進(jìn)行央視一套節(jié)目播放。③當(dāng)接收到遙控或按鍵指令時(shí),需合理開啟顯示或音頻處理功能;如指令為待機(jī),需要立即開啟顯示功能;如為音量加減,則僅開啟音頻處理的音量調(diào)節(jié)功能而不開啟顯示功能。在特定或設(shè)定場(chǎng)景下,如果未檢測(cè)到AI 語(yǔ)音交互或遙控等指令,系統(tǒng)可以由AI 待機(jī)狀態(tài)進(jìn)入深度待機(jī)狀態(tài)。

3)線性陣列麥克風(fēng)模塊及工藝

麥克風(fēng)設(shè)計(jì)是影響全時(shí)AI 電視系統(tǒng)語(yǔ)音交互準(zhǔn)確性和精度的重要因素之一,系統(tǒng)采用線性陣列麥克風(fēng)模塊及防反射收音管道設(shè)計(jì)工藝。

線性陣列麥克風(fēng)示意圖如圖5 所示, 采用4 個(gè)指向MEMS 麥克風(fēng)排列成線型,各麥克風(fēng)之間間距D ≥ 3 cm、麥克風(fēng)拾音孔深度和直徑N≤ 4∶1,具有良好的拾音范圍和語(yǔ)音定向增強(qiáng),能夠有效消除回音。

image.png

圖5 線性陣列麥克風(fēng)布示意圖

防反射收音管道設(shè)計(jì)示意圖如圖6 所示,由導(dǎo)音管、密封圈、吸音膜及麥克風(fēng)組成。防反射收音管道的導(dǎo)音管開孔大于麥克風(fēng)收音孔20% 以上、保證收音范圍較廣;密封圈采用硅膠材質(zhì),與導(dǎo)音管下表面精密配合,為防止聲音反射,采用吸音膜來(lái)吸收未進(jìn)入麥克風(fēng)收音孔的聲音,吸音膜吸收音頻頻率范圍大于人聲的頻率范圍,即大于20 Hz ~ 20 kHz,確保每個(gè)頻段的聲音都能很好衰減;防反射收音管道能夠有效防止聲音反射問(wèn)題,同時(shí)確保收音范圍廣,獲取高質(zhì)量音頻。

image.png

圖6 防反射收音管道設(shè)計(jì)示意圖

3   系統(tǒng)應(yīng)用

全時(shí)AI 電視系統(tǒng)設(shè)計(jì)方案已經(jīng)在多個(gè)電視產(chǎn)品中應(yīng)用,涵蓋43 ~ 86 英寸(注:1 英寸=2.54 cm),包括創(chuàng)維電視Q40、Q51、S81、S9A 等產(chǎn)品系列。產(chǎn)品內(nèi)置線性陣列麥克風(fēng),支持良好的全時(shí)AI 語(yǔ)音交互體驗(yàn),市場(chǎng)銷售規(guī)模超過(guò)百萬(wàn)臺(tái)。

以65 英寸電視產(chǎn)品為例,AI 待機(jī)時(shí)功率約16 W,從AI 待機(jī)狀態(tài)進(jìn)入開機(jī)狀態(tài)的時(shí)間約2 s,支持遠(yuǎn)距離語(yǔ)音交互:3 m 內(nèi)喚醒率99%、識(shí)別率95%,8 m 喚醒率95%、識(shí)別率93%。

4   結(jié)束語(yǔ)

文章提出一種基于語(yǔ)音交互應(yīng)用的全時(shí)AI 電視系統(tǒng)設(shè)計(jì)方案,闡述了系統(tǒng)工作原理及AI 語(yǔ)音交互、AI待機(jī)交互、線性陣列麥克風(fēng)模塊和防反射收音管道設(shè)計(jì)工藝關(guān)鍵技術(shù);系統(tǒng)在開機(jī)和AI 待機(jī)狀態(tài)時(shí)均可進(jìn)行AI 語(yǔ)音交互,并實(shí)現(xiàn)不間斷全時(shí)語(yǔ)音交互;同時(shí)AI 待機(jī)時(shí)的語(yǔ)音交互功率低,并采用線性陣列麥克風(fēng)和防反射收音管道設(shè)計(jì)實(shí)現(xiàn)良好的收音效果,系統(tǒng)語(yǔ)音交互的準(zhǔn)確性和識(shí)別率高。該方案已應(yīng)用于創(chuàng)維全時(shí)AI 電視產(chǎn)品,效果良好,產(chǎn)生了良好經(jīng)濟(jì)社會(huì)效益。

參考文獻(xiàn):

[1]任飛.智能電視軟件平臺(tái)關(guān)鍵技術(shù)研究[D].成都:電子科技大學(xué),2013.

[2]汪文弈.智能電視語(yǔ)音交互系統(tǒng)的研究與設(shè)計(jì)[D].成都:電子科技大學(xué),2017.

[3]王景山.基于語(yǔ)音交互的電視節(jié)目點(diǎn)播系統(tǒng)[D].蘭州:蘭州大學(xué),2016.

[4]章金水.AI客廳語(yǔ)音入口探索與實(shí)踐[J].數(shù)字通信世界,2020,44(3):24-26.

------------------------

作者簡(jiǎn)介:洪文生,高級(jí)工程師,副總經(jīng)理。2001年至今,在創(chuàng)維研究院從事電視技術(shù)研究和產(chǎn)品開發(fā)工作,主導(dǎo)完成創(chuàng)維AI智能電視、OLED電視、超高清電視等技術(shù)和產(chǎn)品研發(fā),主持過(guò)工信部電子基金、深圳市重大技術(shù)攻關(guān)等科研項(xiàng)目。

通訊作者:徐遙令,教授級(jí)高級(jí)工程師,碩士。2006年至今,從事電視技術(shù)研究開發(fā)及項(xiàng)目管理工作,主持過(guò)廣東省產(chǎn)業(yè)集聚、深圳市戰(zhàn)略新興等科研項(xiàng)目。E-mail:xuyaoling@skyworth.com。

沈思寬,教授級(jí)高級(jí)工程師,博士。2004至今,從事電視技術(shù)研究開發(fā)及項(xiàng)目管理工作,主持過(guò)工信部電子基金、廣東省戰(zhàn)略新興、深圳市技術(shù)攻關(guān)等科研項(xiàng)目。

艾倩(1988—),碩士。2016至今,主要從事項(xiàng)目技術(shù)管理工作。

-----------------------------

(本文來(lái)源于《電子產(chǎn)品世界》雜志2022年1月期)



評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉