新聞中心

EEPW首頁(yè) > 消費(fèi)電子 > 業(yè)界動(dòng)態(tài) > 谷歌的終極武器是機(jī)器學(xué)習(xí)與語(yǔ)義搜索?

谷歌的終極武器是機(jī)器學(xué)習(xí)與語(yǔ)義搜索?

作者: 時(shí)間:2016-02-18 來(lái)源:網(wǎng)易科技 收藏
編者按:完全地理解人類(lèi)思維所傳達(dá)的意圖和微妙語(yǔ)義,這會(huì)是人工智能的將來(lái),在搜索上運(yùn)用只是初步。

  過(guò)去這幾年對(duì)于搜索引擎營(yíng)銷(xiāo)者來(lái)說(shuō)是激動(dòng)人心的(或者說(shuō)有些駭人,如果你不那么能夠接受變化的話)。引入了一系列新技術(shù)和系統(tǒng)來(lái)優(yōu)化其已非常出色的搜索算法,它的競(jìng)爭(zhēng)者如必應(yīng),蘋(píng)果,微軟,甚至是Facebook也引進(jìn)或升級(jí)了對(duì)應(yīng)的系統(tǒng)來(lái)優(yōu)化它們的用戶(hù)搜索體驗(yàn)。

本文引用地址:http://butianyuan.cn/article/201602/287035.htm

  而這些優(yōu)化的核心目標(biāo)則是解決計(jì)算機(jī)與人工智能歷史上最困難的問(wèn)題之一:對(duì)自然語(yǔ)言的獲取與理解。雖然機(jī)器非常擅長(zhǎng)程序性和邏輯性的任務(wù)(如解數(shù)學(xué)方程或識(shí)別物體數(shù)據(jù)特征),但是它們難以辨析那些僅有母語(yǔ)使用者才能憑直覺(jué)感受到的微妙差異。舉個(gè)例子,對(duì)我們來(lái)說(shuō)「最近的漢堡店在哪里」和「我想吃漢堡」兩句話傳達(dá)了相似的意圖,但是對(duì)于基本的機(jī)器而言,兩者差距甚大:第一句話是對(duì)特定信息的檢索,與說(shuō)話者的想法無(wú)關(guān);第二句話傳達(dá)了一個(gè)明確的欲望,與信息索取無(wú)關(guān)。過(guò)去幾年中,致力于打破不同語(yǔ)言間的隔閡并且解決其機(jī)器算法所面臨的問(wèn)題。

  語(yǔ)義搜索的根源和蜂鳥(niǎo)算法

  2013年,伴隨著蜂鳥(niǎo)更新(Hummingbird update)的引入,語(yǔ)義搜索(Semantic Search)這一概念第一次進(jìn)入人們的視野。此前,通過(guò)確定搜索查詢(xún)語(yǔ)句的關(guān)鍵詞來(lái)檢索出相應(yīng)的網(wǎng)頁(yè)。就上述漢堡店的例子來(lái)說(shuō),谷歌會(huì)得到「漢堡」這個(gè)關(guān)鍵詞,并返回頻繁提到該關(guān)鍵詞的網(wǎng)頁(yè)——但這一方法不能真正捕捉用戶(hù)的意圖,它無(wú)法區(qū)分用戶(hù)是想搜索「漢堡店」還是「如何自制漢堡」。盡管還需完善,基于用戶(hù)意圖辨析的蜂鳥(niǎo)算法(Hummingbird)能夠捕捉到用戶(hù)意圖的關(guān)鍵因素并且「理解」頁(yè)面的內(nèi)容,而不再拘泥于頁(yè)面所包含的關(guān)鍵詞。

  個(gè)人數(shù)字助理和語(yǔ)音搜索

  個(gè)人數(shù)字助理,包括谷歌Now和Siri等,需要更高水準(zhǔn)的語(yǔ)義理解。目前出現(xiàn)了一些新的障礙,包括將口頭語(yǔ)句翻譯成輸入文本,找到合適的搜索方式,并且以一種可理解的方式進(jìn)行回復(fù)。盡管在本質(zhì)上,搜索結(jié)果的獲取依然還是依靠谷歌的標(biāo)準(zhǔn)搜索算法,但人工智能算法不斷改進(jìn),這些技術(shù)已經(jīng)進(jìn)步到了我們今天所能看到的水平。首要的動(dòng)機(jī)是讓搜索變得更易用,但第二個(gè)動(dòng)機(jī)卻是要改變用戶(hù)習(xí)慣:語(yǔ)音搜索需要使用對(duì)話輸入和上下文提示,比起傳統(tǒng)的基于關(guān)鍵詞的輸入,這需要更加強(qiáng)大、更相關(guān)的結(jié)果。

  RankBrain的出現(xiàn) 去年語(yǔ)義領(lǐng)域最大的新聞是RankBrain的出現(xiàn),它是一種與蜂鳥(niǎo)算法相結(jié)合的機(jī)器學(xué)習(xí)算法。我概括了它的目的來(lái)對(duì)其進(jìn)行簡(jiǎn)要說(shuō)明:

  它的作用是幫助谷歌理解用戶(hù)輸入的各種冗長(zhǎng)復(fù)雜或者模棱兩可的口頭的查詢(xún)語(yǔ)句??梢赃@樣理解,它把那些不符合語(yǔ)法規(guī)則的糟糕輸入語(yǔ)句翻譯成可以被算法邏輯解讀的形式。而且因?yàn)槔昧藱C(jī)器學(xué)習(xí),它能夠自行更新,從而不再依賴(lài)開(kāi)發(fā)者的人工調(diào)整和升級(jí)。

  「相關(guān)問(wèn)題」的興起 為了讓用戶(hù)的搜索體驗(yàn)更加飽滿(mǎn),谷歌正在逐漸推廣「豐富答案」(rich answers)(在傳統(tǒng)的搜索結(jié)果上方時(shí)而出現(xiàn)的簡(jiǎn)明版「答案」)。最近,谷歌更是推出了「相關(guān)問(wèn)題」,它鼓勵(lì)用戶(hù)就其搜索主題進(jìn)一步進(jìn)行探索。尤為有趣的的是,目前「相關(guān)問(wèn)題」的答案與各自對(duì)應(yīng)的作為Rich Answers的答案是不同的,也就意味著兩者是基于谷歌搜索算法的不同區(qū)塊的(比如,我們可以谷歌知識(shí)圖譜(Knowledge Graph)和RankBrain)。無(wú)論如何,似乎谷歌正致力于不僅僅理解用戶(hù)的查詢(xún)問(wèn)題,并且簡(jiǎn)潔明了的回答它們。

  三大預(yù)測(cè) 為了推測(cè)出這些觀察情況的意義,我想要提供三種預(yù)測(cè),預(yù)測(cè)谷歌接下來(lái)十年會(huì)如何選擇接下來(lái)的發(fā)展道路:

  1.機(jī)器學(xué)習(xí)會(huì)成為新的目標(biāo)。目前,機(jī)器學(xué)習(xí)僅存在于谷歌搜索算法較為優(yōu)化的一部分。我猜想,它的應(yīng)用將延伸至其它領(lǐng)域,包括網(wǎng)頁(yè)內(nèi)容質(zhì)量分析(content quality analysis)和上下文反向鏈接評(píng)估(backlink context evaluation)。

  2.谷歌將致力于把每一條搜索查詢(xún)都轉(zhuǎn)化為可回答問(wèn)句的形式。隨著豐富答案及相關(guān)問(wèn)題的積累,很顯然谷歌希望向用戶(hù)提供最直接的信息。我想,我們將會(huì)見(jiàn)證谷歌在這個(gè)方向更多的努力,包括將基本的查詢(xún)語(yǔ)句轉(zhuǎn)化為復(fù)雜的、可回答的問(wèn)句。

  3.新涌現(xiàn)出的科技將會(huì)讓更多人轉(zhuǎn)向語(yǔ)音搜索,這自然意味著語(yǔ)義更加復(fù)雜的問(wèn)句和直接回答這些問(wèn)句的答案。越多的人使用語(yǔ)音搜索,對(duì)谷歌來(lái)說(shuō)則意味著更多的數(shù)據(jù),對(duì)用戶(hù)來(lái)說(shuō)則是更好的搜索結(jié)果——總的來(lái)說(shuō),我們會(huì)得到更加完善的搜索系統(tǒng)。因此,我猜想谷歌會(huì)推動(dòng)更多人在未來(lái)的幾年里使用語(yǔ)音搜索。

  用你覺(jué)得合適的方式將這三個(gè)預(yù)測(cè)運(yùn)用起來(lái):你可以著手采用新的內(nèi)容營(yíng)銷(xiāo)策略來(lái)回應(yīng)用戶(hù)的問(wèn)題;或是使用新的技術(shù)進(jìn)行搜索引擎優(yōu)化(Search Engine Optimization),以避免機(jī)器學(xué)習(xí)所帶來(lái)的頻繁變化;再或者,你只需等待一個(gè)更加容易、更加符合直覺(jué)的搜索方式供自己使用。我們無(wú)法對(duì)未來(lái)下定論,但是回首過(guò)去短短幾年我們?nèi)〉玫木薮筮M(jìn)步,可以預(yù)想,接下來(lái)的十年將是極具開(kāi)創(chuàng)性的十年。



關(guān)鍵詞: 谷歌

評(píng)論


相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉