新聞中心

EEPW首頁 > 消費電子 > 設計應用 > 淺析智能電視語音中控解決方案

淺析智能電視語音中控解決方案

作者:刁艷俠(康佳集團,廣東深圳 518053) 時間:2022-10-24 來源:電子產(chǎn)品世界 收藏

摘?要:我們正處在以智能制造為主導的第四次工業(yè)革命的浪潮中,隨著人工智能、信息技術(shù)、生物技術(shù)等新興技術(shù)的興起,制造業(yè)進入到了全面智能化轉(zhuǎn)型時期。如何讓機器設備變得更加智能,為人類提供更舒適便捷的服務,就成為人們不斷探索的課題。語言交流是人與人溝通的基礎,自然而然地,就成為人與機器交互的一個重要載體。在智能電視領域,隨著技術(shù)升級和應用場景的不斷拓展,已經(jīng)成為智能電視的核心能力之一,在人機交互中占據(jù)了越來越重要的地位。為了提升語音整體性能及業(yè)務能力,各大廠家不再滿足于第三方語音技術(shù)方案提供的整套服務,開始加大對全鏈路的研發(fā)投入,以便對語音功能有更多優(yōu)化和選擇的空間。而在智能語音的整個鏈路中,云端控制和決策能力又是至關(guān)重要的一環(huán),所以搭建私有化,成為各大廠家優(yōu)先選擇的方案。

本文引用地址:http://www.butianyuan.cn/article/202210/439473.htm

關(guān)鍵詞:智能語音;;;

1 前言

隨著智能電視技術(shù)的迭代升級和應用場景的不斷拓展,智能語音已經(jīng)成為智能電視的核心能力之一。通過智能語音可以更便捷地完成人與電視的交互,所以智能語音能力的高低,成為評判電視智能化水平的一個重要標準。隨著語音技術(shù)的進步和市場的發(fā)展,通過語音完成簡單的控制指令已不能滿足用戶需求,人們希望可以通過語音實現(xiàn)更多的功能,而依靠終端設備軟件升級的方式增加或變更服務又相對困難。在這種大背景下,各大廠家紛紛建立起私有化語音,希望通過自有中控平臺持續(xù)優(yōu)化語音技能,靈活地配置語音業(yè)務。下面就帶大家了解一下智能語音全鏈路處理過程,簡單介紹語音中控平臺如何搭建以及各模塊的基本作用,最后再講一下語音中控軟件的基本架構(gòu)。

2 語音全鏈路解析

智能語音全鏈路包括端側(cè)能力和云端能力兩個部分,端側(cè)指智能電視終端,主要負責聲音采集并對聲音信號進行處理,將音頻信號、文字信息通過云端協(xié)議送至云端處理,并執(zhí)行云端返回的指令或播報生成的結(jié)果。云端能力包括語音識別、語義理解、對話管理、資源調(diào)用、回復生成和語音合成幾個模塊,負責把一句話轉(zhuǎn)成文字,并理解這句話的意圖,完成對應的指令并返回相應的結(jié)果。語音解析是否智能,能不能準確理解使用者的意圖,關(guān)鍵就在于云端能力的高低。語音全鏈路結(jié)構(gòu)如圖 1 所 示,語音信號被聲音采集模塊收集后,經(jīng)過信號處理模塊的限幅、降噪處理,給到語音喚醒模塊做喚醒詞匹配,匹配成功后把語音送給語音識別模塊,將聲音信號轉(zhuǎn)成文字信息,再由語義理解模塊解析出關(guān)鍵詞,由對話管理模塊根據(jù)上下文輸入理解用戶意圖,再通過應用程序編程接口(application programming interface, API)調(diào)用外部資源,并生成回復內(nèi)容,返回終端執(zhí)行相關(guān)指令的同時,播報由語音合成模塊合成的語音回復。至此,一個完整的語音處理鏈路就完成了,當有新的語音輸入時 再重復以上過程。

image.png

2.1 語音識別

(automatic speech recognition,ASR)是將語音信號轉(zhuǎn)換成文字信息的服務。語音識別根據(jù)實際應用場景,選擇合適的聲學和語言模型,將接收到的語音信號經(jīng)過特征提取、多路解碼、模型計算、權(quán)重比較后,得到一段置信度較高的文字輸出。通過對聲音信號的分析,也可以獲取使用者的聲紋、情緒狀態(tài)、年齡段等信息;根據(jù)這些數(shù)據(jù)可以對用戶群體進行細分及精細化運營,為用戶提供個性化服務的同時,也能夠提升運營質(zhì)量。

2.2 語義理解

在進行語音交互的時候,僅僅把聲音轉(zhuǎn)換成文字是遠遠不夠的,必須理解用戶說的是什么意思,因此語義理解服務是語音交互鏈路中非常重要的一環(huán)。對于用戶的應用場景,首先要定義出場景的語義空間,識別用戶有哪些意圖,然后采集數(shù)據(jù)進行意圖識別和參數(shù)抽取,將輸入的文字進行模型處理,輸出文字中的關(guān)鍵信息。這一步就是把人的語言形式轉(zhuǎn)化為機器可理解的、結(jié)構(gòu)化的、完整的語義表示。

2.3 對話管理

對話管理控制著人機對話交互的過程,依據(jù)對話歷史信息和當前用戶輸入,決定系統(tǒng)對用戶輸入的反應,這也是多輪對話的基礎。在復雜任務完成的過程中,當用戶的輸入不夠具體或明確時,系統(tǒng)通過對話管理對用戶的需求進行詢問、澄清或確認來明確用戶的真實意圖,完成用戶的請求。對話管理包含對話狀態(tài)跟蹤、響應決策、語義槽填充、上下文管理、指代消歧等功能。

2.4 回復生成

根據(jù)上下文語境,結(jié)合用戶實際使用場景進行定義,對執(zhí)行用戶輸入結(jié)果給出反饋文字或動作?;貜蜕砂镜孛?、控件定義、對話回復、默認播報、錯誤播報、對話控制等功能。

2.5 語音合成

語音合成是把文字信息轉(zhuǎn)成標準語音輸出的過程,相當于給設備裝上了“嘴巴”。語音是否流暢、音色是否優(yōu)美動聽,就是由這個模塊決定的。通過一定的數(shù)據(jù)輸入和模型訓練,可以合成特定人物的聲音,讓人和設備的互動更和諧。

3 語音中控平臺搭建

3.1 企業(yè)中控平臺構(gòu)建

在講語音中控平臺之前,先要看一下企業(yè)中控平臺的基本架構(gòu),因為語音中控隸屬于企業(yè)中控,是云端大平臺的一部分。一般企業(yè)云端控制平臺會兼容多種業(yè)務需求,除了語音業(yè)務需求外,大多還要滿足圖像識別、AIoT(AI IOT,人工智能物聯(lián)網(wǎng))等其他智能業(yè)務需求。企業(yè)云端控制平臺可以根據(jù)業(yè)務需求靈活定制,如圖 2 所示,展示了一種云端中控平臺的基本架構(gòu)和與外部模塊之間的關(guān)系。企業(yè)中控平臺包括鑒權(quán)網(wǎng)關(guān)、控制引擎、決策引擎等控制模塊,以及只為具體業(yè)務服務的單元模 塊,如圖 2 中和語義處理平臺、圖像識別平臺、AIoT 平臺,分別為語音業(yè)務、圖像識別業(yè)務和AIoT 業(yè)務服務。通過自有企業(yè)云端中控平臺的整體控制,不僅可以很方便地實現(xiàn)對各個業(yè)務單元的靈活配置,還可以促進各種技術(shù)的融合和復用,推動終端產(chǎn)品性能和用戶體驗的提升。

image.png

圖2 企業(yè)中控平臺內(nèi)外部模塊關(guān)系

3.2 語音中控平臺架構(gòu)

在語音全鏈路的處理過程中,云端的能力非常重要,決定著語音處理結(jié)果是否智能,所以云端又被稱為智能語音的大腦。我們所說的企業(yè)自有語音中控平臺建設,主要是指建立云端語音處理和控制平臺。按功能實現(xiàn)可以把語音中控平臺劃分成四個大模塊,分別是語音識別、語義理解、意圖決策和技能分發(fā) / 決策模塊,各個模塊之間的關(guān)系如圖 3 所示,遠場拾音模塊拾音后給到信號處理模塊對語音信號進行處理,然后把語音信號送給語音識別模塊,將聲音信號轉(zhuǎn)換成文本信息。這里遠近場處理方式略有不同,近場語音拾音后直接輸出給語音識別模塊。轉(zhuǎn)換出來的文本信息通過語義理解模塊的解析、意圖決策和技能分發(fā)模塊的處理,把處理結(jié)果返回給終端設備,呈現(xiàn)具體信息或者執(zhí)行相關(guān)動作。

image.png

在語音中控平臺的四個模塊中,自動語音識別模塊負責將音頻信號轉(zhuǎn)換成文本信息,功能相對比較單一,前文也有介紹,這里不再贅述。語義理解、意圖決策、技能分發(fā) / 決策模塊功能相對復雜,也是語音中控的核心能力,各模塊細分功能如圖 4 所示。語義理解模塊包括 Query 分析、場景分類、意圖識別、上下文識別、模板干預和槽位提取功能,一段語音信息通過槽位提取關(guān)鍵詞后,根據(jù)不同的場景對意圖進行分類,并結(jié)合上下文理解調(diào)整意圖,從而準確判定一句話的真實意圖。具備了槽位提取能力以后,在新業(yè)務拓展時可以脫離對第三方技能語言理解能力的依賴,實現(xiàn)靈活對接第三方業(yè)務,也可以根據(jù)業(yè)務需求自行訓練對應槽位,方便新業(yè)務的開展。同時,根據(jù)場景對槽位進行細分后,可以實現(xiàn)對特定人群和使用場景的定制,提高服務的精準度以及運營轉(zhuǎn)化率。意圖決策模塊包括多意圖決策、上下文決策、個性化干預和用戶畫像生成幾部分,主要是根據(jù)用戶使用習慣,結(jié)合上下文對意圖進行干預,從多個意圖中選出最能匹配用戶場景的意圖,提高意圖的準確度。技能分發(fā) / 決策模塊通過數(shù)據(jù)模型或人工干預的方式對決策結(jié)果進行選擇,從而控制意圖的分發(fā),實現(xiàn)對第三方內(nèi)容資源的靈活對接。

image.png圖4 語音中控核心模塊

4 語音中控平臺軟件架構(gòu)

語音中控平臺軟件在架構(gòu)上主要分為三層,分別是底層技術(shù)層、核心能力層和需要二次開發(fā)的對接層,層級結(jié)構(gòu)如圖 5 所示。底層技術(shù)包括深度學習算法、語音識別技術(shù)、自然語言處理和基礎數(shù)據(jù)模型,這部分是智能語音的基礎技術(shù),專業(yè)性較強,一般不需要特殊定制,可以借助第三方成熟的技術(shù)方案。核心能力層包括場景分類、意圖識別、槽位提取、上下文判定、決策和技能分發(fā)、用戶畫像及個性化推薦模塊,囊括了語音云端處理所有核心功能,語音處理上的性能優(yōu)化和差異化功能的定制開發(fā),都需要在這一層實現(xiàn)。在核心能力層之上的服務對接、模型訓練、決策配置和數(shù)據(jù)分析模塊,用來對接具體業(yè)務和服務,需要根據(jù)具體業(yè)務需求做二次開發(fā)。這一層要實現(xiàn)多種服務的靈活對接,對業(yè)務數(shù)據(jù)進行分析及模型訓練,并根據(jù)業(yè)務類型和用戶使用場景制定適當?shù)臎Q策機制,完成復雜或者具有多重語義語句的功能匹配。

image.png

5 結(jié)語

本文給出了一種搭建企業(yè)私有化語音中控平臺的方案,在整個語音鏈路中,語音中控占據(jù)了舉足輕重的位置。通過搭建自有語音中控平臺,可以在不打擾用戶的情況下通過云端靈活配置第三方服務和技能,提升智能語音優(yōu)化迭代的速度,還可以根據(jù)具體業(yè)務和用戶使用場景定制語音技能,為用戶打造具有特色的語音服務。另外,使用私有語音中控平臺,能夠更加方便地管理用戶數(shù)據(jù),并保障語音數(shù)據(jù)的安全。所以,不管從資源整合、性能提升還是業(yè)務拓展等方面考慮,建立私有化中控平臺都是大企業(yè)的未來趨勢。

參考文獻:

[1]?郭晶晶.語音識別技術(shù)發(fā)展對推廣普通話的意義[J].傳播力研究,2020(18).

[2]?杜靈君,武曉島.語音識別技術(shù)全球?qū)@季众厔輀J].科技中國,2021(12).

[3]?張大林,任萱,徐藝敏,等.企業(yè)內(nèi)網(wǎng)系統(tǒng)語音識別技術(shù)的設計與實現(xiàn)[J].數(shù)字技術(shù)與應用,2021(12).

[4]?袁冰清,于淦,周霞.淺說語音識別技術(shù)[J].數(shù)字通信世界,2020(02).

[5]?張昱,高凌燕,胡虎安,等.智能語音識別技術(shù)在郵政快遞柜中的應用研究[J].電子世界,2020(04).

[6]?李博麗.傳統(tǒng)計算機語音識別技術(shù)中的數(shù)學[J].花炮科技與市場,2020(02).

[7]?郝歐亞,吳璇,劉榮凱.智能語音識別技術(shù)的發(fā)展現(xiàn)狀與應用前景[J].電聲技術(shù),2020(03).

[8]?彭洪松,李洪斌,李莉,等.人工智能中遠場語音識別技術(shù)的研究[J].數(shù)字通信世界,2020(05).

[9]?于曉明.語音識別技術(shù)的發(fā)展及應用[J].計算機時代,2019(11).

[10]?田建勇,劉松,李洲越,等.智能語音提醒系統(tǒng)的設計分析[J].電腦知識與技術(shù),2020(20).

[11?]?李亞銘,李陽.智媒體時代人工智能在電視行業(yè)的應用研究[J].出版廣角,2019(03).

[12]?詹紅艷.人工智能在電視人機交互中的實踐[J].數(shù)字技術(shù)與應用,2019(03).

[13]?張藍姍,黃高原.人工智能技術(shù)給電視媒介帶來的機遇和挑戰(zhàn)[J].中國電視,2018(07).

[14]?侯光敏.人工智能在電視人機交互中的應用[J].有線電視技術(shù),2017(11).

(注:本文轉(zhuǎn)載自《電子產(chǎn)品世界》雜志2022年10月期)



評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉