攻陷無人區(qū)：百度大腦破解了這個應用頑疾

作者：時間：2018-07-05 來源：億歐網(wǎng)

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　人與機器之間，有太多秘密隱藏在未知以下。

本文引用地址：http://butianyuan.cn/article/201807/382867.htm

　　比如說AI帶來的語義理解與語音喚醒式人機交互，雖然被大家說的很神，但其實有大量難關沒有被攻破。AI語音交互，往往還以來初級的符碼轉(zhuǎn)化和模塊調(diào)用，真正讓機器像人一樣去理解世界，還有很長的路要走。

　　好在對人機交互深層秘密的探索，在今天并沒有停步。一些全新的技術應用化，正在加強人與機器如何交流、協(xié)作甚至相互理解的無盡可能。

　　在剛剛的百度AI開發(fā)者大會中，一個重磅升級是百度大腦升級了3.0版本。這次升級之所以引人注目，是因為其在業(yè)界首次提出了“多模態(tài)深度語義理解”。

　　多模態(tài)、深度語義理解，這些都是我們經(jīng)常在AI論文中看到的名詞，但似乎從來沒有科技巨頭把這個詞作為關鍵信息進行產(chǎn)業(yè)披露。這是為什么?

　　其中的隱藏信息，是人機交互通往多模態(tài)結(jié)合、深度轉(zhuǎn)譯之路上，一座難以翻越的高峰。

　　多模態(tài)深度語義理解技術，就像一個沉睡的沙漏一樣，始終隱藏在細沙之下，讓人難以見到真正的應用魅力。而百度大腦的3.0升級，似乎將這個沉睡經(jīng)年的沙漏倒轉(zhuǎn)了過來，最神秘的AI領域，開始在技術沙粒的流逝間展露了本來面目。

　　人機交互的秘密：AI界有個雪域高原

　　20世紀上半葉，社會符號學提出了模態(tài)分析的話語批判方式，而后模態(tài)理論逐步走入各個學科，成為自然科學、計算機科學與人文科學的重要三岔口之一。而在自然語言處理成為AI重鎮(zhèn)之后，多模態(tài)話語融合也開始被AI思想家們提上了日程。

　　我們知道，AI進行語音交互時的基本邏輯，是要把一切語音進行識別，轉(zhuǎn)化為文字符碼再進行文本理解。而語音理解與視覺、傳感相關的模態(tài)融合更是難上加難，堪稱人機交互進程中的“高海拔地帶”。

　　但我們不妨思考一下，人的思維方式其實并不是單一模態(tài)的信息轉(zhuǎn)化。而是五感并用，語音語義一體化理解，無間隙給出交流反應。

　　換言之，機器最接近人的交流方式，就是多模態(tài)輸入與融合化的語義理解。而類似自然交互的技術難點，在于不同模態(tài)的視覺、語音、語音、傳感信號，是構建在完全不同的數(shù)據(jù)編碼之上的。整合與再學習始終都是AI領域的難點，尤其是應用領域的難點。

　　價值極大，難度極高，把多模態(tài)深度語義理解堆積成了AI領域的雪域高原。無數(shù)開發(fā)者都在翹首以盼先導者能夠翻越這座大山。

　　在這次百度AI開發(fā)者大會上，百度大腦非常自信地將升級矛頭對準了這個最神秘的AI沙漏。主打多模態(tài)深度語義理解技術的底層開發(fā)，可謂打開了通往無盡技術應用與難預測上線的AI大門。

　　技術乘法：多模態(tài)深度語義理解的應用流沙效應

　　多模態(tài)深度語義理解之所以重要，從應用的角度看，是因為它把視覺、語音、語義、傳感，以及泛深度學習類交互整合到了一起，讓技術間不再是并行的通道，而是打開了彼此融合的想象之門，并且在利用深度學習技術，強化了語義理解的精準度與容納范疇，視線了語音語義的一體化融合?？梢韵胍姷氖?，多模態(tài)深度語義理解，將會在技術突破之后帶來大量的眼神技術與子應用，從而改變我們對AI識別、語音控制、人機交互的邊界認識。

　　或許從此以后，AI技術將不僅僅是做加法，更有可能產(chǎn)生技術細節(jié)之間的乘法效應。從百度大腦3.0公布的技術案例，我們已經(jīng)可以看出類似乘法效應：

　　在AI開發(fā)者大會期間，對多模態(tài)深度語義理解技術最直接的感受，在于技術能力突破之后應用邊界的想象力爆棚。

　　比如說百度大腦3.0帶來的視覺語義化技術，可以讓機器從看清到看懂視頻的內(nèi)容。比如在新零售場景中，攝像頭可以通過視頻語義化來直接理解顧客的行為動作，以及選取了哪些商品。這樣就無需再有復雜的識別條碼、刷臉等流程，顧客可以真正的拿起商品就走，產(chǎn)生毫無時間影響的購物體驗。

　　另一個多模態(tài)深度語義理解的技術應用，是語音語義一體化帶來的。在使用語音導航長Query時，我們經(jīng)常要簡單明了的說清楚導航目標，但假如我們的導航需求比較復雜，或者我們也不太清楚具體的地名，那就會很麻煩。導航中的AI識別只能進行文本喚醒，無法去理解使用者的想法。

　　在百度開發(fā)者大會現(xiàn)場，我們已經(jīng)見識到在語音語義一體化技術加持后，百度地圖的用戶可以像繞口令一樣說出大量內(nèi)容，百度大腦會同步聽清、聽懂和理解相關含義，給出最佳導航路線。

　　類似的案例還有很多，從中我們可以發(fā)現(xiàn)，多模態(tài)深度語義理解讓AI技術沙漏中的每一顆沙子，都可以排列組合出未知中的驚喜。

　　戳破最后隔膜：百度大腦3.0的3件禮物

　　當開發(fā)者想要從傳統(tǒng)AI賽道，進入神秘的深層人機交互，需要的并不是高屋建瓴的設想，也不是多么科幻的技術示范。而是腳踏實地，真正建立可以按部就班展開學習、嘗試與創(chuàng)造的多模態(tài)AI路徑。而百度大腦的3.0升級，帶來了多模態(tài)世界的3個禮物，可以說是帶給開發(fā)者的核心保障：

　　1、告別算力問題的“昆侖”：在AI開發(fā)者大會上，百度大腦3.0首次將芯片納入技術體系，推出了百度自主研發(fā)的中國第一款云端全功能AI芯片“昆侖”。據(jù)了解，昆侖的AI任務處理速度比此前我們常用的FPGA方案快30倍以上。高性能、高性價比，且具有易用性的云端AI芯片，可以與百度的整體AI技術體系結(jié)合，帶給百度大腦的用戶與開發(fā)者更多想象力。

　　2、跳躍的PaddlePaddle：在今年的開發(fā)者大會上，百度公布了PaddlePaddle3.0，在與自主芯片結(jié)合，打造全棧解決方案和平臺化建設之余，新的PaddlePaddle還開放了多種平臺，為不同層級的開發(fā)者提供更簡單的開發(fā)與訓練。其中AutoDL可以自動地進行網(wǎng)絡結(jié)構設計;AIStudio是一個非常實用的在線訓練平臺。靈活利用更加富有生態(tài)化意味的PaddlePaddle，開發(fā)者的工作或?qū)⒌玫椒旄驳氐淖兓?/p>

　　3、便捷獲取AI的開發(fā)者權能：開發(fā)者另一個核心需求，是有足夠多的技術應用支撐，來滿足天馬行空的想象力。假如只有高度抽象，雷同程度很高的技術開放，那么大家很難找到自己的開發(fā)機會，尤其是在多模態(tài)語義理解帶來的全新契機面前。而百度大腦3.0全面開放了110多項AI能力，滿足了開發(fā)者的技術拼圖需求。李彥宏在開發(fā)者大會的開場白中說，百度的目標是EveryoneCanAI。那么百度大腦的技術拼圖和全棧架構，將是百度分享AI，建立開發(fā)者權能的必經(jīng)之地。

　　百度大腦的升級，可以看做眾多AI應用核心的突破。未來無數(shù)令人驚喜的AI應用，都將建立在百度大腦的躍升之上。當多模態(tài)底層技術不再是奢望，高度擬真的人機交互也就不再遙遠。從百度大腦3.0開始，一個沙漏已經(jīng)倒轉(zhuǎn)，趨于理論最高值的AI未來，正在快速向這個世界挺進。

新聞中心

攻陷無人區(qū)：百度大腦破解了這個應用頑疾

評論

相關推薦

技術專區(qū)