扎克伯格的尷尬與AI的真實(shí)進(jìn)展
近來扎克伯格向記者公開演示了他2016年的作品,一個(gè)類似Jarvis的人工智能助手,從記者的描述來看,這人工智能助手大部分時(shí)候還比較不錯(cuò),但在語音交互環(huán)節(jié)則不太理想,對此媒體做了如下報(bào)道:
本文引用地址:http://butianyuan.cn/article/201612/342079.htm扎克伯格還建立了響應(yīng)語音指令的系統(tǒng),并通過定制iOS應(yīng)用控制。但這部分展示不太理想,他重復(fù)了四次指令才讓系統(tǒng)弄明白:天黑前不要開燈。扎克伯格略顯尷尬地說:“喔,這應(yīng)該是它最失敗的表現(xiàn)了!”。
不過,Jarvis播放音樂的展示還算成功。扎克伯格下令:“給我們放段音樂吧!”幾秒鐘后,大衛(wèi)·庫塔(David Guetta)的《Would I Lie to You》 開始通過客廳揚(yáng)聲器響起來。他說了兩次“把音量調(diào)高”后,系統(tǒng)照做無誤。最后,他同樣說了兩次才讓系統(tǒng)停止播放。
這非常有意思,因?yàn)閺男侣剚砜?ldquo;天黑前不要開燈”和“把音量調(diào)高”的失誤顯然都不是命令理解(語義)上有問題,否則你說八百遍Jarvis該不好使還是不好使。如果不是語義的問題,那顯然就會(huì)和各大公司所宣稱的已經(jīng)被解決的問題:語音識別有關(guān)。
標(biāo)準(zhǔn)環(huán)境解決≠真實(shí)效果好
關(guān)于語音識別的精度今年官方的報(bào)道一般是這樣的:
11月21日到23日,搜狗、百度和科大訊飛三家公司接連召開了三場發(fā)布會(huì)向外界展示了自己在語音識別和機(jī)器翻譯等方面的最新進(jìn)展。值得注意的是,這三家公司幾乎在同一時(shí)段宣布了各自中文語音識別準(zhǔn)確率達(dá)到了97%。
類似的報(bào)道也會(huì)發(fā)生在微軟等的身上,我們假設(shè)Facebook做的不是太差,水平也與此類似達(dá)到97%的準(zhǔn)確率。97%的具體含義是100個(gè)單詞上只有3個(gè)錯(cuò)誤(刪除、被替換、被插入),那么問題就來了,如果真實(shí)環(huán)境里真的達(dá)到了這個(gè)精度,那么小扎的演示絕對不應(yīng)該是上面這個(gè)樣子。
那問題出在那里?
關(guān)鍵問題并不復(fù)雜,扎克伯格用手機(jī)當(dāng)做家庭里的終端,這樣距離稍微一遠(yuǎn),環(huán)境稍微嘈雜一點(diǎn),那再好的手機(jī)也沒辦法幫Jarvis聽清楚你在說什么。手機(jī)本身是設(shè)計(jì)給近場用的,手機(jī)上的語音識別基本也是給近場優(yōu)化過的,怎么也不能彌補(bǔ)遠(yuǎn)場上帶來的不適應(yīng)。
扎克伯格對此非常坦誠,他在博客這么寫道:
In the case of Jarvis, training an AI that you'll talk to at close range is also different from training a system you'll talk to from all the way across the room, like Echo. These systems are more specialized than it appears, and that implies we are further off from having general systems than it might seem.
上面這段英文簡單來講就是說語音識別更多時(shí)候是專門場景下好用,想做一個(gè)萬能的版本仍然還很遙遠(yuǎn)。語音識別只能做限定場景的最佳。
但事實(shí)上扎克伯格仍然只認(rèn)識到了部分問題,因?yàn)閱渭兛扛纳普Z音識別比如做一個(gè)匹配遠(yuǎn)場的版本也還根本解決不了他遇到的問題(上面說的重復(fù)指示幾次系統(tǒng)才起作用問題)。我們可以注意到開始播放音樂之后,報(bào)道中提到的兩條命令都需要重復(fù)兩次,這很可能是音樂自身對語音識別形成了干擾,這種情形下單純的優(yōu)化語音識別(不管遠(yuǎn)場還是近場)是解決不了問題的。
扎克伯格下面的路
如果扎克伯格不放棄這事,而是持續(xù)對此進(jìn)行改善,那下面會(huì)發(fā)生什么?他可能會(huì)掉到坑里面。他用了150小時(shí)做到上面那程度,但很可能再花1500小時(shí),效果并沒有實(shí)質(zhì)性改善。
整個(gè)語音交互事實(shí)上依賴于三層:聲學(xué)的信號處理(麥克風(fēng)陣列+聲學(xué)算法),語音識別(SR),自然語言理解(NLU)。扎克伯格演示時(shí)的問題核心原因不在于自然語言理解(語義),而在于聲學(xué)與語音識別。聲學(xué)和語音識別的關(guān)系可以大致類比成耳朵和大腦,如果聲學(xué)部分的信號很差,那相當(dāng)于耳朵不好使,基本語音識別的算法再怎么好也不可能把命令是什么弄清楚。
評論