淺析智能電視語(yǔ)音中控解決方案

作者：刁艷俠（康佳集團(tuán)，廣東深圳 518053）時(shí)間：2022-10-24 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

摘?要：我們正處在以智能制造為主導(dǎo)的第四次工業(yè)革命的浪潮中，隨著人工智能、信息技術(shù)、生物技術(shù)等新興技術(shù)的興起，制造業(yè)進(jìn)入到了全面智能化轉(zhuǎn)型時(shí)期。如何讓機(jī)器設(shè)備變得更加智能，為人類提供更舒適便捷的服務(wù)，就成為人們不斷探索的課題。語(yǔ)言交流是人與人溝通的基礎(chǔ)，自然而然地，智能語(yǔ)音就成為人與機(jī)器交互的一個(gè)重要載體。在智能電視領(lǐng)域，隨著技術(shù)升級(jí)和應(yīng)用場(chǎng)景的不斷拓展，智能語(yǔ)音已經(jīng)成為智能電視的核心能力之一，在人機(jī)交互中占據(jù)了越來(lái)越重要的地位。為了提升語(yǔ)音整體性能及業(yè)務(wù)能力，各大廠家不再滿足于第三方語(yǔ)音技術(shù)方案提供的整套服務(wù)，開(kāi)始加大對(duì)智能語(yǔ)音全鏈路的研發(fā)投入，以便對(duì)語(yǔ)音功能有更多優(yōu)化和選擇的空間。而在智能語(yǔ)音的整個(gè)鏈路中，云端控制和決策能力又是至關(guān)重要的一環(huán)，所以搭建私有化中控平臺(tái)，成為各大廠家優(yōu)先選擇的方案。

本文引用地址：http://butianyuan.cn/article/202210/439473.htm

關(guān)鍵詞：智能語(yǔ)音；中控平臺(tái)；自動(dòng)語(yǔ)音識(shí)別；自然語(yǔ)言理解；文本轉(zhuǎn)換

1 前言

隨著智能電視技術(shù)的迭代升級(jí)和應(yīng)用場(chǎng)景的不斷拓展，智能語(yǔ)音已經(jīng)成為智能電視的核心能力之一。通過(guò)智能語(yǔ)音可以更便捷地完成人與電視的交互，所以智能語(yǔ)音能力的高低，成為評(píng)判電視智能化水平的一個(gè)重要標(biāo)準(zhǔn)。隨著語(yǔ)音技術(shù)的進(jìn)步和市場(chǎng)的發(fā)展，通過(guò)語(yǔ)音完成簡(jiǎn)單的控制指令已不能滿足用戶需求，人們希望可以通過(guò)語(yǔ)音實(shí)現(xiàn)更多的功能，而依靠終端設(shè)備軟件升級(jí)的方式增加或變更服務(wù)又相對(duì)困難。在這種大背景下，各大廠家紛紛建立起私有化語(yǔ)音中控平臺(tái)，希望通過(guò)自有中控平臺(tái)持續(xù)優(yōu)化語(yǔ)音技能，靈活地配置語(yǔ)音業(yè)務(wù)。下面就帶大家了解一下智能語(yǔ)音全鏈路處理過(guò)程，簡(jiǎn)單介紹語(yǔ)音中控平臺(tái)如何搭建以及各模塊的基本作用，最后再講一下語(yǔ)音中控軟件的基本架構(gòu)。

2 語(yǔ)音全鏈路解析

智能語(yǔ)音全鏈路包括端側(cè)能力和云端能力兩個(gè)部分，端側(cè)指智能電視終端，主要負(fù)責(zé)聲音采集并對(duì)聲音信號(hào)進(jìn)行處理，將音頻信號(hào)、文字信息通過(guò)云端協(xié)議送至云端處理，并執(zhí)行云端返回的指令或播報(bào)生成的結(jié)果。云端能力包括語(yǔ)音識(shí)別、語(yǔ)義理解、對(duì)話管理、資源調(diào)用、回復(fù)生成和語(yǔ)音合成幾個(gè)模塊，負(fù)責(zé)把一句話轉(zhuǎn)成文字，并理解這句話的意圖，完成對(duì)應(yīng)的指令并返回相應(yīng)的結(jié)果。語(yǔ)音解析是否智能，能不能準(zhǔn)確理解使用者的意圖，關(guān)鍵就在于云端能力的高低。語(yǔ)音全鏈路結(jié)構(gòu)如圖 1 所示，語(yǔ)音信號(hào)被聲音采集模塊收集后，經(jīng)過(guò)信號(hào)處理模塊的限幅、降噪處理，給到語(yǔ)音喚醒模塊做喚醒詞匹配，匹配成功后把語(yǔ)音送給語(yǔ)音識(shí)別模塊，將聲音信號(hào)轉(zhuǎn)成文字信息，再由語(yǔ)義理解模塊解析出關(guān)鍵詞，由對(duì)話管理模塊根據(jù)上下文輸入理解用戶意圖，再通過(guò)應(yīng)用程序編程接口（application programming interface, API）調(diào)用外部資源，并生成回復(fù)內(nèi)容，返回終端執(zhí)行相關(guān)指令的同時(shí)，播報(bào)由語(yǔ)音合成模塊合成的語(yǔ)音回復(fù)。至此，一個(gè)完整的語(yǔ)音處理鏈路就完成了，當(dāng)有新的語(yǔ)音輸入時(shí) 再重復(fù)以上過(guò)程。

2.1 語(yǔ)音識(shí)別

自動(dòng)語(yǔ)音識(shí)別（automatic speech recognition，ASR）是將語(yǔ)音信號(hào)轉(zhuǎn)換成文字信息的服務(wù)。語(yǔ)音識(shí)別根據(jù)實(shí)際應(yīng)用場(chǎng)景，選擇合適的聲學(xué)和語(yǔ)言模型，將接收到的語(yǔ)音信號(hào)經(jīng)過(guò)特征提取、多路解碼、模型計(jì)算、權(quán)重比較后，得到一段置信度較高的文字輸出。通過(guò)對(duì)聲音信號(hào)的分析，也可以獲取使用者的聲紋、情緒狀態(tài)、年齡段等信息；根據(jù)這些數(shù)據(jù)可以對(duì)用戶群體進(jìn)行細(xì)分及精細(xì)化運(yùn)營(yíng)，為用戶提供個(gè)性化服務(wù)的同時(shí)，也能夠提升運(yùn)營(yíng)質(zhì)量。

2.2 語(yǔ)義理解

在進(jìn)行語(yǔ)音交互的時(shí)候，僅僅把聲音轉(zhuǎn)換成文字是遠(yuǎn)遠(yuǎn)不夠的，必須理解用戶說(shuō)的是什么意思，因此語(yǔ)義理解服務(wù)是語(yǔ)音交互鏈路中非常重要的一環(huán)。對(duì)于用戶的應(yīng)用場(chǎng)景，首先要定義出場(chǎng)景的語(yǔ)義空間，識(shí)別用戶有哪些意圖，然后采集數(shù)據(jù)進(jìn)行意圖識(shí)別和參數(shù)抽取，將輸入的文字進(jìn)行模型處理，輸出文字中的關(guān)鍵信息。這一步就是把人的語(yǔ)言形式轉(zhuǎn)化為機(jī)器可理解的、結(jié)構(gòu)化的、完整的語(yǔ)義表示。

2.3 對(duì)話管理

對(duì)話管理控制著人機(jī)對(duì)話交互的過(guò)程，依據(jù)對(duì)話歷史信息和當(dāng)前用戶輸入，決定系統(tǒng)對(duì)用戶輸入的反應(yīng)，這也是多輪對(duì)話的基礎(chǔ)。在復(fù)雜任務(wù)完成的過(guò)程中，當(dāng)用戶的輸入不夠具體或明確時(shí)，系統(tǒng)通過(guò)對(duì)話管理對(duì)用戶的需求進(jìn)行詢問(wèn)、澄清或確認(rèn)來(lái)明確用戶的真實(shí)意圖，完成用戶的請(qǐng)求。對(duì)話管理包含對(duì)話狀態(tài)跟蹤、響應(yīng)決策、語(yǔ)義槽填充、上下文管理、指代消歧等功能。

2.4 回復(fù)生成

根據(jù)上下文語(yǔ)境，結(jié)合用戶實(shí)際使用場(chǎng)景進(jìn)行定義，對(duì)執(zhí)行用戶輸入結(jié)果給出反饋文字或動(dòng)作?；貜?fù)生成包含本地命令、控件定義、對(duì)話回復(fù)、默認(rèn)播報(bào)、錯(cuò)誤播報(bào)、對(duì)話控制等功能。

2.5 語(yǔ)音合成

語(yǔ)音合成是把文字信息轉(zhuǎn)成標(biāo)準(zhǔn)語(yǔ)音輸出的過(guò)程，相當(dāng)于給設(shè)備裝上了“嘴巴”。語(yǔ)音是否流暢、音色是否優(yōu)美動(dòng)聽(tīng)，就是由這個(gè)模塊決定的。通過(guò)一定的數(shù)據(jù)輸入和模型訓(xùn)練，可以合成特定人物的聲音，讓人和設(shè)備的互動(dòng)更和諧。

3 語(yǔ)音中控平臺(tái)搭建

3.1 企業(yè)中控平臺(tái)構(gòu)建

在講語(yǔ)音中控平臺(tái)之前，先要看一下企業(yè)中控平臺(tái)的基本架構(gòu)，因?yàn)檎Z(yǔ)音中控隸屬于企業(yè)中控，是云端大平臺(tái)的一部分。一般企業(yè)云端控制平臺(tái)會(huì)兼容多種業(yè)務(wù)需求，除了語(yǔ)音業(yè)務(wù)需求外，大多還要滿足圖像識(shí)別、AIoT（AI IOT，人工智能物聯(lián)網(wǎng)）等其他智能業(yè)務(wù)需求。企業(yè)云端控制平臺(tái)可以根據(jù)業(yè)務(wù)需求靈活定制，如圖 2 所示，展示了一種云端中控平臺(tái)的基本架構(gòu)和與外部模塊之間的關(guān)系。企業(yè)中控平臺(tái)包括鑒權(quán)網(wǎng)關(guān)、控制引擎、決策引擎等控制模塊，以及只為具體業(yè)務(wù)服務(wù)的單元模塊，如圖 2 中自動(dòng)語(yǔ)音識(shí)別和語(yǔ)義處理平臺(tái)、圖像識(shí)別平臺(tái)、AIoT 平臺(tái)，分別為語(yǔ)音業(yè)務(wù)、圖像識(shí)別業(yè)務(wù)和AIoT 業(yè)務(wù)服務(wù)。通過(guò)自有企業(yè)云端中控平臺(tái)的整體控制，不僅可以很方便地實(shí)現(xiàn)對(duì)各個(gè)業(yè)務(wù)單元的靈活配置，還可以促進(jìn)各種技術(shù)的融合和復(fù)用，推動(dòng)終端產(chǎn)品性能和用戶體驗(yàn)的提升。

圖2 企業(yè)中控平臺(tái)內(nèi)外部模塊關(guān)系

3.2 語(yǔ)音中控平臺(tái)架構(gòu)

在語(yǔ)音全鏈路的處理過(guò)程中，云端的能力非常重要，決定著語(yǔ)音處理結(jié)果是否智能，所以云端又被稱為智能語(yǔ)音的大腦。我們所說(shuō)的企業(yè)自有語(yǔ)音中控平臺(tái)建設(shè)，主要是指建立云端語(yǔ)音處理和控制平臺(tái)。按功能實(shí)現(xiàn)可以把語(yǔ)音中控平臺(tái)劃分成四個(gè)大模塊，分別是語(yǔ)音識(shí)別、語(yǔ)義理解、意圖決策和技能分發(fā) / 決策模塊，各個(gè)模塊之間的關(guān)系如圖 3 所示，遠(yuǎn)場(chǎng)拾音模塊拾音后給到信號(hào)處理模塊對(duì)語(yǔ)音信號(hào)進(jìn)行處理，然后把語(yǔ)音信號(hào)送給語(yǔ)音識(shí)別模塊，將聲音信號(hào)轉(zhuǎn)換成文本信息。這里遠(yuǎn)近場(chǎng)處理方式略有不同，近場(chǎng)語(yǔ)音拾音后直接輸出給語(yǔ)音識(shí)別模塊。轉(zhuǎn)換出來(lái)的文本信息通過(guò)語(yǔ)義理解模塊的解析、意圖決策和技能分發(fā)模塊的處理，把處理結(jié)果返回給終端設(shè)備，呈現(xiàn)具體信息或者執(zhí)行相關(guān)動(dòng)作。

在語(yǔ)音中控平臺(tái)的四個(gè)模塊中，自動(dòng)語(yǔ)音識(shí)別模塊負(fù)責(zé)將音頻信號(hào)轉(zhuǎn)換成文本信息，功能相對(duì)比較單一，前文也有介紹，這里不再贅述。語(yǔ)義理解、意圖決策、技能分發(fā) / 決策模塊功能相對(duì)復(fù)雜，也是語(yǔ)音中控的核心能力，各模塊細(xì)分功能如圖 4 所示。語(yǔ)義理解模塊包括 Query 分析、場(chǎng)景分類、意圖識(shí)別、上下文識(shí)別、模板干預(yù)和槽位提取功能，一段語(yǔ)音信息通過(guò)槽位提取關(guān)鍵詞后，根據(jù)不同的場(chǎng)景對(duì)意圖進(jìn)行分類，并結(jié)合上下文理解調(diào)整意圖，從而準(zhǔn)確判定一句話的真實(shí)意圖。具備了槽位提取能力以后，在新業(yè)務(wù)拓展時(shí)可以脫離對(duì)第三方技能語(yǔ)言理解能力的依賴，實(shí)現(xiàn)靈活對(duì)接第三方業(yè)務(wù)，也可以根據(jù)業(yè)務(wù)需求自行訓(xùn)練對(duì)應(yīng)槽位，方便新業(yè)務(wù)的開(kāi)展。同時(shí)，根據(jù)場(chǎng)景對(duì)槽位進(jìn)行細(xì)分后，可以實(shí)現(xiàn)對(duì)特定人群和使用場(chǎng)景的定制，提高服務(wù)的精準(zhǔn)度以及運(yùn)營(yíng)轉(zhuǎn)化率。意圖決策模塊包括多意圖決策、上下文決策、個(gè)性化干預(yù)和用戶畫(huà)像生成幾部分，主要是根據(jù)用戶使用習(xí)慣，結(jié)合上下文對(duì)意圖進(jìn)行干預(yù)，從多個(gè)意圖中選出最能匹配用戶場(chǎng)景的意圖，提高意圖的準(zhǔn)確度。技能分發(fā) / 決策模塊通過(guò)數(shù)據(jù)模型或人工干預(yù)的方式對(duì)決策結(jié)果進(jìn)行選擇，從而控制意圖的分發(fā)，實(shí)現(xiàn)對(duì)第三方內(nèi)容資源的靈活對(duì)接。

圖4 語(yǔ)音中控核心模塊

4 語(yǔ)音中控平臺(tái)軟件架構(gòu)

語(yǔ)音中控平臺(tái)軟件在架構(gòu)上主要分為三層，分別是底層技術(shù)層、核心能力層和需要二次開(kāi)發(fā)的對(duì)接層，層級(jí)結(jié)構(gòu)如圖 5 所示。底層技術(shù)包括深度學(xué)習(xí)算法、語(yǔ)音識(shí)別技術(shù)、自然語(yǔ)言處理和基礎(chǔ)數(shù)據(jù)模型，這部分是智能語(yǔ)音的基礎(chǔ)技術(shù)，專業(yè)性較強(qiáng)，一般不需要特殊定制，可以借助第三方成熟的技術(shù)方案。核心能力層包括場(chǎng)景分類、意圖識(shí)別、槽位提取、上下文判定、決策和技能分發(fā)、用戶畫(huà)像及個(gè)性化推薦模塊，囊括了語(yǔ)音云端處理所有核心功能，語(yǔ)音處理上的性能優(yōu)化和差異化功能的定制開(kāi)發(fā)，都需要在這一層實(shí)現(xiàn)。在核心能力層之上的服務(wù)對(duì)接、模型訓(xùn)練、決策配置和數(shù)據(jù)分析模塊，用來(lái)對(duì)接具體業(yè)務(wù)和服務(wù)，需要根據(jù)具體業(yè)務(wù)需求做二次開(kāi)發(fā)。這一層要實(shí)現(xiàn)多種服務(wù)的靈活對(duì)接，對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分析及模型訓(xùn)練，并根據(jù)業(yè)務(wù)類型和用戶使用場(chǎng)景制定適當(dāng)?shù)臎Q策機(jī)制，完成復(fù)雜或者具有多重語(yǔ)義語(yǔ)句的功能匹配。

5 結(jié)語(yǔ)

本文給出了一種搭建企業(yè)私有化語(yǔ)音中控平臺(tái)的方案，在整個(gè)語(yǔ)音鏈路中，語(yǔ)音中控占據(jù)了舉足輕重的位置。通過(guò)搭建自有語(yǔ)音中控平臺(tái)，可以在不打擾用戶的情況下通過(guò)云端靈活配置第三方服務(wù)和技能，提升智能語(yǔ)音優(yōu)化迭代的速度，還可以根據(jù)具體業(yè)務(wù)和用戶使用場(chǎng)景定制語(yǔ)音技能，為用戶打造具有特色的語(yǔ)音服務(wù)。另外，使用私有語(yǔ)音中控平臺(tái)，能夠更加方便地管理用戶數(shù)據(jù)，并保障語(yǔ)音數(shù)據(jù)的安全。所以，不管從資源整合、性能提升還是業(yè)務(wù)拓展等方面考慮，建立私有化中控平臺(tái)都是大企業(yè)的未來(lái)趨勢(shì)。

參考文獻(xiàn)：

[1]?郭晶晶.語(yǔ)音識(shí)別技術(shù)發(fā)展對(duì)推廣普通話的意義[J].傳播力研究,2020(18).

[2]?杜靈君,武曉島.語(yǔ)音識(shí)別技術(shù)全球?qū)＠季众厔?shì)[J].科技中國(guó),2021(12).

[3]?張大林,任萱,徐藝敏,等.企業(yè)內(nèi)網(wǎng)系統(tǒng)語(yǔ)音識(shí)別技術(shù)的設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)字技術(shù)與應(yīng)用,2021(12).

[4]?袁冰清,于淦,周霞.淺說(shuō)語(yǔ)音識(shí)別技術(shù)[J].數(shù)字通信世界,2020(02).

[5]?張昱,高凌燕,胡虎安,等.智能語(yǔ)音識(shí)別技術(shù)在郵政快遞柜中的應(yīng)用研究[J].電子世界,2020(04).

[6]?李博麗.傳統(tǒng)計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)中的數(shù)學(xué)[J].花炮科技與市場(chǎng),2020(02).

[7]?郝歐亞,吳璇,劉榮凱.智能語(yǔ)音識(shí)別技術(shù)的發(fā)展現(xiàn)狀與應(yīng)用前景[J].電聲技術(shù),2020(03).

[8]?彭洪松,李洪斌,李莉,等.人工智能中遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù)的研究[J].數(shù)字通信世界,2020(05).

[9]?于曉明.語(yǔ)音識(shí)別技術(shù)的發(fā)展及應(yīng)用[J].計(jì)算機(jī)時(shí)代,2019(11).

[10]?田建勇,劉松,李洲越,等.智能語(yǔ)音提醒系統(tǒng)的設(shè)計(jì)分析[J].電腦知識(shí)與技術(shù),2020(20).

[11?]?李亞銘,李陽(yáng).智媒體時(shí)代人工智能在電視行業(yè)的應(yīng)用研究[J].出版廣角,2019(03).

[12]?詹紅艷.人工智能在電視人機(jī)交互中的實(shí)踐[J].數(shù)字技術(shù)與應(yīng)用,2019(03).

[13]?張藍(lán)姍,黃高原.人工智能技術(shù)給電視媒介帶來(lái)的機(jī)遇和挑戰(zhàn)[J].中國(guó)電視,2018(07).

[14]?侯光敏.人工智能在電視人機(jī)交互中的應(yīng)用[J].有線電視技術(shù),2017(11).

(注：本文轉(zhuǎn)載自《電子產(chǎn)品世界》雜志2022年10月期)

新聞中心

淺析智能電視語(yǔ)音中控解決方案

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)