新聞中心

EEPW首頁 > 物聯(lián)網(wǎng)與傳感器 > 設(shè)計(jì)應(yīng)用 > 智能語音助手將成為智能家居用戶入口

智能語音助手將成為智能家居用戶入口

作者: 時(shí)間:2017-10-22 來源:網(wǎng)絡(luò) 收藏

一、加速發(fā)展 技術(shù)驅(qū)動是主因

成為2017年CES和MWC熱點(diǎn)之一,內(nèi)置的產(chǎn)品覆蓋多個(gè)領(lǐng)域、多個(gè)品牌的多類產(chǎn)品,例如福特汽車、惠而浦、LG等家電廠商的洗衣機(jī)、電冰箱、電烤箱等家用電器,LG家庭機(jī)器人和華為智能手機(jī)等,智能語音助手儼然成為諸多智能產(chǎn)品的核心配置。智能語音助手在2016年呈現(xiàn)了加速發(fā)展之勢,體現(xiàn)在以下方面:

本文引用地址:http://butianyuan.cn/article/201710/367407.htm

智能語音以做為切入點(diǎn)快速發(fā)展。蘋果公司早在2011年就發(fā)布了智能語音助手,但其快速發(fā)展是以2016年亞馬遜Alexa的快速發(fā)展為標(biāo)志,一是銷量迅速增長。亞馬遜旗下內(nèi)置Alexa的語音購物助手Echo客戶滲透率已由2%提升至5%,截至2016年年底,亞馬遜共賣出600萬臺Amazon Echo設(shè)備[1]。二是智能語音助手功能急速完善。Alexa在2014年最初發(fā)布時(shí)只有13個(gè)內(nèi)嵌的技能,現(xiàn)在這項(xiàng)功能已經(jīng)兼容7000款應(yīng)用,包括連接Uber、Twitter等應(yīng)用程序。用戶可以通過Echo的語音識別功能,操控任何一項(xiàng)具有聯(lián)網(wǎng)功能的設(shè)備,比如電燈、電視、空調(diào)等等。三是生態(tài)快速擴(kuò)建。2015年12月,英特爾與亞馬遜聯(lián)合宣布,雙方未來將在一系列智能家庭項(xiàng)目上合作,并計(jì)劃開發(fā)一個(gè)采用英特爾芯片、搭載亞馬遜Alexa虛擬助理的智能語音架構(gòu)。汽車生產(chǎn)商福特在本屆CES上也宣布與亞馬遜合作,未來車主將能夠在福特的車輛上體驗(yàn)Alexa語音服務(wù),實(shí)現(xiàn)聲控購物、搜索導(dǎo)航,甚至車主在家就可以通過語音指令啟動引擎、鎖定或解鎖車門。LG、GE等眾多企業(yè)都與亞馬遜達(dá)成協(xié)議,將自家產(chǎn)品內(nèi)嵌Alexa。

深度學(xué)習(xí)算法助力語音識別技術(shù)提升是智能語音助手快速發(fā)展的主要原因。近兩年,深度學(xué)習(xí)算法得到快速發(fā)展,其成果率先應(yīng)用于語音識別等領(lǐng)域,推動其取得突破性進(jìn)展。2016年,《麻省理工科技評論》將語音識別和自然語言理解相結(jié)合,評為2016年十大突破技術(shù)。應(yīng)用于語音識別的深度學(xué)習(xí)算法的卷積神經(jīng)網(wǎng)絡(luò)層級(CNN),從最初的8層,到19層、22層、乃至152層的網(wǎng)絡(luò)結(jié)構(gòu),而隨著網(wǎng)絡(luò)結(jié)構(gòu)的加深,語音識別的錯誤率也從2012年的16.4%逐步下降到3.57%[2]。許多公司的語音識別系統(tǒng)語音識別正確率超過90%,在很多場合的已經(jīng)超過人類。

二、智能語音助手將成為新的用戶入口

語音將成為主流人機(jī)交互方式之一。語音交互方式將人們的雙手從觸摸屏解放出來,減少人們在數(shù)據(jù)輸入上花費(fèi)的時(shí)間。但語音交互并不適用于所有場景,例如公共場所跟手機(jī)對話是不禮貌的。這時(shí)通過屏幕交互可能比語音更方便。較適合語音應(yīng)用的設(shè)備包括家居和汽車,這也是亞馬遜Alexa雖然比蘋果Siri推出晚,卻能取得更快增長的原因之一。

當(dāng)前的各種智能語音交互助手,只是虛擬個(gè)人助理(VPA)的雛形,VPA將具備完善的私人助理功能,成為用戶連接服務(wù)的節(jié)點(diǎn),提供無所不在的服務(wù)。VPA將與眾多第三方app程序交互,用戶需要某類服務(wù)時(shí)均可告知VPA,VPA可搜索并決定調(diào)用哪款app提供服務(wù),單獨(dú)app將從桌面移至后臺,成為VPA的一個(gè)子服務(wù);VPA還具有學(xué)習(xí)能力,根據(jù)歷史數(shù)據(jù)掌握用戶的偏好、習(xí)慣等,對用戶需求做出預(yù)判,提供符合用戶個(gè)性特點(diǎn)的不斷優(yōu)化的服務(wù)。

三、巨頭加快展開智能語音助手生態(tài)布局

巨頭已悉數(shù)入場,爭搶智能語音交互新入口。蘋果是發(fā)展智能語音助手的先鋒,于2011年在iPhone中內(nèi)置了智能語音助手產(chǎn)品Siri。谷歌2012年發(fā)布了名為Google now的智能語音產(chǎn)品,并于2016年推出演進(jìn)產(chǎn)品Google Assistant。亞馬遜于2014年推出內(nèi)置語音助手Alexa的無線音箱產(chǎn)品。微軟發(fā)布智能語音助手時(shí)間相對較晚,其智能語音助手產(chǎn)品Cortana于2015年與新的Windows 10操作系統(tǒng)一同發(fā)布。Facebook于2015年推出智能語音助手服務(wù)M,內(nèi)置AI技術(shù),并有一個(gè)人工團(tuán)隊(duì)支撐。百度也于2015年發(fā)布名為Duer的智能語音助手產(chǎn)品。三星2016年收購了智能語音助手技術(shù)公司Viv,并計(jì)劃于2017年推出相關(guān)產(chǎn)品。這些廠商均擁有一個(gè)主導(dǎo)的生態(tài),例如電子商務(wù),搜索引擎,智能手機(jī),這些都提供了大量的數(shù)據(jù)來支撐這些具體平臺的智能語音助手。大量用于“學(xué)習(xí)”的數(shù)據(jù),使得AI更有效率,使得推薦和定位更加細(xì)致入微。

亞馬遜暫時(shí)領(lǐng)先發(fā)展,未來競爭格局存在變數(shù)。亞馬遜搭載Alexa無論從銷量、功能、生態(tài)等方面,均領(lǐng)先于蘋果和谷歌。然而,設(shè)備仍然是智能語音助手成功的關(guān)鍵,智能語音助手需要有足夠大的設(shè)備平臺作為分發(fā)接口,提供隨時(shí)隨地、無所不在的服務(wù),隨身攜帶的手機(jī)是較為理想的硬件載體。蘋果和谷歌已經(jīng)在智能手機(jī)領(lǐng)域成功,未來可能后來居上,占據(jù)主導(dǎo)位置。

巨頭圍繞智能語音助理展開生態(tài)布局,推動跨平臺、跨系統(tǒng)的智能語音助手應(yīng)用。廠商通過開放api、與第三方app互動等形式擴(kuò)大生態(tài)建設(shè),推動語音助手在手機(jī)、家居、汽車等領(lǐng)域應(yīng)用。亞馬遜采取開放Alexa的語音技術(shù)供第三方開發(fā)者免費(fèi)使用。此外亞馬遜沒有對合作伙伴設(shè)置獨(dú)家合作協(xié)議,硬件制造商可以自由切換到競爭對手的語音助理,這也使得硬件廠商更樂于集成Alexa。蘋果早在2014年就發(fā)布了自家的平臺HomeKit,并不斷加強(qiáng)HomeKit與Siri的融合;2016年6月,蘋果宣布開放SDK 給開發(fā)者們,允許其他的第三方應(yīng)用接入 Siri。谷歌也表示將向開發(fā)者和第三方軟硬件開放assistant。

當(dāng)前智能語音助手商業(yè)模式呈現(xiàn)多樣化。目前較為成熟的亞馬遜的商業(yè)模式。亞馬遜的核心零售業(yè)務(wù)內(nèi)置于Echo中,用戶與 Echo 的互動會鼓勵用戶更多地去購物,而且會將更多的數(shù)據(jù)反饋給亞馬遜的推薦系統(tǒng),因此網(wǎng)站和應(yīng)用程序都可以再次促進(jìn)用戶購買更多商品。另外一種是利用智能語音助手實(shí)現(xiàn)對用戶更深層次理解,實(shí)現(xiàn)更精準(zhǔn)的用戶定位。智能語音助手有著用戶需求的詳細(xì)數(shù)據(jù)集,結(jié)合對物理行蹤、搜索歷史以及電子郵件和文本內(nèi)容的了解,可實(shí)現(xiàn)更好的廣告定位,Google和Facebook等公司目前主要采取此種收入模式。

四、智能語音助手當(dāng)前發(fā)展仍存不足

使用習(xí)慣還有待培養(yǎng)

根據(jù)Gartner的調(diào)查數(shù)據(jù),用戶經(jīng)常使用智能語音助手的兩至三個(gè)功能—天氣、位置和日歷核對。Echo雖然擁有上千種功能,但是大部分功能用戶并不會使用,用戶使用亞馬遜Echo的最的功能是設(shè)置時(shí)間和播放歌曲,80%以上用戶使用過[3]。

市場碎片化

目前,市場上有多家廠商提供智能語音助手服務(wù),這些廠商與不同的設(shè)備廠商達(dá)成合作,形成了各自為陣的生態(tài)系統(tǒng)。內(nèi)置智能語音助手的設(shè)備商,必須對現(xiàn)存的替代方案開放,并與不同的服務(wù)提供商協(xié)作,才能提供便于用戶使用、尤其是跨平臺使用的服務(wù)。

隱私問題

理想情況下,個(gè)人鑒別信息應(yīng)該安全地存儲在用戶設(shè)備上,并且不會泄露給智能語音助手提供商或者其他服務(wù)提供商。但是實(shí)際上智能語音助手需要把用戶數(shù)據(jù)上傳至云端服務(wù)器,經(jīng)過計(jì)算后將結(jié)果返回到終端,涉及到云端存儲保障隱私問題。

技術(shù)瓶頸

智能語音助手還存在語義理解方面的問題。雖然語音識別技術(shù)這兩年取得了較大進(jìn)步,但理解整個(gè)對話的環(huán)境和上下文語義,是目前絕大部分機(jī)器學(xué)習(xí)或人工智能的瓶頸,機(jī)器還很難將詞語表達(dá)的意思與語境和情緒相結(jié)合。

五、國內(nèi)與國外同步發(fā)展

一方面,語音識別技術(shù)與國外發(fā)展同步??拼笥嶏w在國際最高水平語音合成賽Blizzard Challenge 中十連冠,14、15 年兩次國際漢英翻譯大賽IWSLT 全球第一、15 年機(jī)器口語翻譯系統(tǒng)獲NIST 國際評測冠軍,在車內(nèi)語音方面交互成功率更是超過86%,領(lǐng)先第二名高達(dá)10%[4]。

另一方面,本土智能語音助手相較國外產(chǎn)品具有競爭優(yōu)勢。百度是除美國公司之外,同規(guī)模公司中唯一一個(gè)運(yùn)營智能語音助手的。百度智能語音助手Duer可提供搜索信息、預(yù)定電影票、叫出租車等助理服務(wù),采用端到端的深度學(xué)習(xí)系統(tǒng),有時(shí)它在識別漢語語音片段方面,要比人為識別更加準(zhǔn)確。國內(nèi)的大量人口和強(qiáng)勁的中國內(nèi)容數(shù)據(jù)庫是Duer的競爭優(yōu)勢,相比于微軟Cortana,百度的搜索引擎數(shù)據(jù)庫更具優(yōu)勢,谷歌則至今在中國沒法使用,使得Duer成為最受中國市場驅(qū)動的智能語音助手。Duer內(nèi)置于百度安卓搜索app中,安裝在中國上百萬手機(jī)中。百度正在致力于將Duer擴(kuò)展至手機(jī)以外的其他設(shè)備,例如機(jī)器人或者家庭設(shè)備。



關(guān)鍵詞: 智能語音助手 智能家居

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉