扎克伯格的尷尬與AI的真實進展
扎克伯格如果要優(yōu)化效果,那么基本方法有下面幾類:
本文引用地址:http://butianyuan.cn/article/201612/342079.htm一種可能是扎克伯格覺得真實場景下的信號優(yōu)化(聲學、硬件等)也沒什么,找?guī)讉€人做做就完了,如果這么想Facebook可能會自己組建個硬件、聲學團隊來做Echo Dot那樣的終端。但這么做很可能短期就不會有下次演示了。因為讓語音識別匹配前端聲學信號是容易的,但反過來讓牽涉硬件和物理的聲學來適應(yīng)語音識別則基本會做掛。而在互聯(lián)網(wǎng)公司里通常后端偏算法的勢力會大,所以很容易走到前面那條路上去(這事情國內(nèi)至少做掛了兩撥人了)。國內(nèi)的大公司很容易走上這條路,但從分工習慣來看,國外公司更愿意在技術(shù)棧上卡住特定位置,非自己核心的部分會更愿意開放給其它人,所以扎克伯格這么干的可能性不高,除非他覺得自己也得搞Amazon Echo那種產(chǎn)品了。
一種可能是扎克伯格和深度學習科學家思路一致,認為所有東西都可以通過深度學習在云端算法層面來解決。這種思路下,就會通過深度學習來做降噪等信號層面的工作,用算法挑戰(zhàn)各種物理層面的問題。如果走上這條路,那估計短期也不會有下次演示了,因為他碰到的問題并非單純的降噪問題,回聲抵消、Beamforming、降噪、聲源定向這些東西是關(guān)聯(lián)在一起的,指望深度學習短期突破這些問題更像科研上的一種設(shè)想而非工程上的一種實踐。“設(shè)想”是說可以成為一種探索的思路,但結(jié)果完全沒譜,高度不確定,相當于把不確定性引入產(chǎn)品開發(fā)之中。
一種可能是扎克伯格走下一步的時候想的很清楚,知道自己這類公司的能力邊界,因此把這部分開放出去,讓專業(yè)的人做專業(yè)的事。物理的事情歸物理,算法的事情歸算法,這樣的話就會滿世界找聲學和遠場語音識別供貨商,但這反倒是最快的一種方式。
不知道扎克伯格具體會走那條路,如果是最后一種,聲智科技這樣的公司應(yīng)該會很快收到消息。
打破原子與比特的邊界
扎克伯格這件事情事實上也提供了一個跳出來看AI的機會。
下圖是Jarvish的系統(tǒng)架構(gòu)圖:
一般來講,從產(chǎn)品體驗上可以看出技術(shù)水平,從架構(gòu)圖則可以看出來認知上的差異。
根據(jù)上圖,顯然的在扎克伯格這里Jarvish被理解成了一個命令控制型的系統(tǒng),但感知這環(huán)節(jié)被忽略了,盡管扎克伯格自己在文章里也提到感知上下文是非常關(guān)鍵的一個環(huán)節(jié)(Understanding context is important for any AI)。
這種理解在互聯(lián)網(wǎng)企業(yè)那里很可能非常有代表性,但問題就在于感知恰恰是打造一個初級的Jarvis這樣的系統(tǒng)時最難的環(huán)節(jié),因為感知總是要打穿原子和比特的邊界。Language Processing、Speech Recognition、Face Recognition總是立刻可用的,只受限于算法的發(fā)展程度和數(shù)據(jù),但感知部分不是這樣,不單要算法行,器件、生產(chǎn)都要行才能有好的結(jié)果。比如說麥克風陣列,你算法再好但MEMS麥克風不給力,那你一樣抓瞎。如果要說的短板的話,在深度學習突破后,感知這一環(huán)節(jié)才是真的短板。
這就涉及到這次AI突破的一個深層次問題:這次的AI起于深度學習的突破,但真要想創(chuàng)造價值并不能停步在深度學習本身。關(guān)鍵原因就在于其AI創(chuàng)造價值的鏈條比較長,必須打破軟硬的邊界,補全整個鏈條,價值才會體現(xiàn)出來。幾乎我們所有能想到的大機會都是這樣,語音交互(需要打穿聲學和識別邊界)、自動駕駛(打穿計算機視覺、雷達、機械控制的邊界)等。這部分難度通常是被忽略了,似乎是有幾個深度學習專家問題就可以搞定一切問題。后者不是不行,但要限定在特定類別的事情上,比如圖普科技做的鑒黃等。正是同時做好軟硬這兩部分在拉長投資-回報的周期,投資和創(chuàng)業(yè)如果對此沒有自己的判斷,那準備的耐心可能就不夠。
小結(jié)
近來和AI各方面的人(創(chuàng)業(yè)者、投資人、科學家、媒體)接觸下來,發(fā)現(xiàn)大家基本都在思考這樣兩個問題:
第一,本次AI浪潮會不會和前兩次一樣很快冷下來?
第二,落地點到底在那里,究竟還要多久?
對于第一個問題到現(xiàn)在為止還沒碰到任何一個人認為這次AI浪潮會冷到前兩次那樣。對于第二個問題,大的落地點上大家基本也已經(jīng)達成了共識(語音交互、AR、自動駕駛等),爭議最大的就是啟動期究竟還要持續(xù)多久這一點。從兩個維度來判斷,這個時間更可能是在3年左右:
一是產(chǎn)品經(jīng)過兩個周期的優(yōu)化會更加成熟;
一個是計算能力、基礎(chǔ)設(shè)施到那個時候也會變的足夠強大和便利(過去3年Training速度提高了60倍,比摩爾定律還快,而Intel則正在推出集成度更高的服務(wù)器)。
評論