新聞中心

EEPW首頁 > 業(yè)界動態(tài) > 2016人工智能技術(shù)發(fā)展進程梳理

2016人工智能技術(shù)發(fā)展進程梳理

作者: 時間:2017-02-04 來源:CSDN 收藏
編者按:2016年是“智能駕駛元年”、“人工智能硬件元年”、“增強學(xué)習(xí)元年”、“嵌入式人工智能元年”。算法和模型創(chuàng)新、硬件提速、應(yīng)用創(chuàng)新這三駕馬車,將帶領(lǐng)我們高速奔向更加智能的時代。

 FPGA 崛起

本文引用地址:http://butianyuan.cn/article/201702/343473.htm

  FPGA(Field-Programmable Gate Array)是現(xiàn)場可編程門陣列的英文縮寫。簡單來說,F(xiàn)PGA就像是一塊空白的數(shù)字電路,開發(fā)者可以通過編寫硬件代碼的方式來設(shè)計一個數(shù)字電路,代碼編寫完成后,類似軟件代碼中的編譯過程,F(xiàn)PGA的綜合器會對代碼進行綜合、布局布線,之后會生成一個二進制文件,將這個二進制文件燒寫到FPGA后,原本空白的FPGA就變成了開發(fā)者設(shè)計的電路,這就是“現(xiàn)場”和“可編程”的含義。同時,F(xiàn)PGA可以反復(fù)擦寫,通過燒寫不同的二進制文件來實現(xiàn)不同的功能。因此,F(xiàn)PGA是介于專用集成電路(ASIC)和通用處理器(CPU)之間的一種硬件。

  Xilinx和Altera是世界上最大的兩家FPGA廠商,共同占據(jù)了將近90%的市場份額。在2015年,Intel以167億美元完成了對Altera的并購,并購后的Altera成為Intel可編程技術(shù)事業(yè)部。此次并購足以見得Intel非??粗谾PGA在其生態(tài)體系中的作用,可以從中看到Intel攜手FPGA進軍數(shù)據(jù)中心的決心。圖14為Altera的FPGA芯片。

  歷史上的FPGA作為“膠合”邏輯廣泛應(yīng)用于信號處理、ASIC驗證等領(lǐng)域。所謂膠合邏輯即兩個硬件模塊進行互聯(lián)時常常發(fā)現(xiàn)硬件接口、通信協(xié)議不匹配,這時在中間增加一級FPGA作為協(xié)議轉(zhuǎn)換器,就能實現(xiàn)兩個模塊之間通信和資源共享,而不需要修改原有模塊的軟硬件設(shè)計。iPhone 7里面集成的Lattice FPGA(ICE5LP4K)就是這樣的角色。


2016人工智能技術(shù)發(fā)展進程梳理

  圖14 Altera FPGA近照

  隨著工藝提升,集成度不斷加大,F(xiàn)PGA內(nèi)部的DSP資源也逐漸變多、變強,甚至超過了普通的CPU、GPU,這時利用FPGA做計算加速也順理成章。FPGA具有高度可定制性、細粒度并行性,低功耗等特點,吸引了互聯(lián)網(wǎng)企業(yè)的關(guān)注,越來越多的人在研究如何在數(shù)據(jù)中心中發(fā)揮FPGA的優(yōu)勢。受硬件資源限制,F(xiàn)PGA主要使用低精度(8-bit和16-bit)定點計算,所以一般都是面向神經(jīng)網(wǎng)絡(luò)預(yù)測而非訓(xùn)練。

  值得注意的是,NVIDIA的低功耗GPU Tesla P4也專門面向預(yù)測,與FPGA形成了針鋒相對的形勢,在多種性能指標(biāo)中P4也一騎絕塵碾壓大多數(shù)FPGA器件。使用FPGA而非GPU的一個理由是,F(xiàn)PGA硬件連線可以定制,GPU架構(gòu)是死的,升級硬件時需要重復(fù)投入資金,不像FPGA那樣可以更新硬件連線來實現(xiàn)硬件升級。

  FPGA編程絕非普通軟件開發(fā)人員可以勝任。它涉及指定芯片門級布局。最近OpenCL和其他編譯器技術(shù)引入,使得FPGA設(shè)計難度大大降低。

  微軟Azure

  微軟在Azure上采用FPGA加速機器學(xué)習(xí)和其他需要大量吞吐的應(yīng)用和服務(wù)已有五年多時間。最早在2011年發(fā)起了Catapult項目。第一次FPGA落地項目為Bing搜索排序算法,將吞吐提升了兩倍同時功耗降低至10%。利用云的巨大體量攤低成本,利用FPGA任意定制特性滿足各種各樣的應(yīng)用場景,硬件可以實時升級。

  最初的Catapult服務(wù)器是雙路16核Xeon處理器+64GB RAM和一塊Altera Stratix V FPGA板卡,2 TB SATA磁盤和兩塊480GB美光SSD。

  8月份,微軟發(fā)布了Catapult v2,特點是FPGA連接到CPU、主存和網(wǎng)絡(luò)。這樣,F(xiàn)PGA可以直接與另一塊FPGA通信,而不需要經(jīng)過CPU中轉(zhuǎn)。該設(shè)計更適合水平擴展。除了加速AI應(yīng)用,F(xiàn)PGA也用于加速Azure的25G網(wǎng)絡(luò)設(shè)施,根據(jù)微軟報告,F(xiàn)PGA可以實現(xiàn)1/10延遲。由于可動態(tài)配置,F(xiàn)PGA可以同時加速網(wǎng)絡(luò)和機器學(xué)習(xí)應(yīng)用。

  9月27日,微軟CEO Satya Nadella與工程師Doug Burger在亞特蘭大Ignite會議上聯(lián)合宣布每個Azure云服務(wù)器都安裝了Altera FPGA(Catapult 2)。在演示環(huán)節(jié),一個裝備4塊FPGA的服務(wù)器僅需2.6秒就能把1440頁著名的俄語小說《戰(zhàn)爭與和平》翻譯為英語,而一個24核CPU服務(wù)器完成相同任務(wù)需要19.9秒,功耗高60W。展示用的FPGA服務(wù)器使用10核CPU和4塊基于Altera Stratix V D5 FPGA加速卡,其功耗為30W,峰值處理性能為7.9TOPS。使用同樣的4塊FPGA服務(wù)器將英文版Wikipedia全部30億文本翻譯為另一種語言需要4個小時,而Azure整個云都配備了FPGA,當(dāng)Burger將幾乎全部Azure計算能力(差不多1 EOPS)投入計算時,耗時不到0.1秒。


2016人工智能技術(shù)發(fā)展進程梳理

  圖15 Azure FPGA加速文本翻譯展示

  Xilinx收購Auviz Systems

  Xilinx于9月宣布收購在卷積神經(jīng)網(wǎng)絡(luò)(CNN)領(lǐng)域有獨到研究的Auviz Systems公司,這家成立僅三年的公司,專注于數(shù)據(jù)中心和嵌入式系統(tǒng)的加速應(yīng)用,擅長機器學(xué)習(xí)、視覺算法和FPGA實現(xiàn)。

  Auviz Systems提供基于FPGA的中間件IP,以減少應(yīng)用程序的功耗。對于需要以低功耗實現(xiàn)高性能的應(yīng)用,他們提供了FPGA庫如AuvizCV, AuvizLA,AuvizDNN以及定制加速器和服務(wù)。而針對FPGA,Auviz庫支持用C/C++或者OpenCL平臺進行編程。

  實際上,最近在領(lǐng)域熱門的本土新創(chuàng)公司深鑒科技也采用賽靈思的FPGA完成卷積處理,深鑒科技的創(chuàng)始人汪玉在Xilinx大學(xué)計劃年會上發(fā)言時特別強調(diào)了FPGA在卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)上的優(yōu)勢。深鑒成立于2016年3月,DeePhi提供軟硬件協(xié)同設(shè)計方案,實現(xiàn)從模型到硬件的完整工作流。


2016人工智能技術(shù)發(fā)展進程梳理

  圖16 AuvizDNN加速CNN

  小結(jié):如果說只有大公司才有足夠的財力、人力、物力去設(shè)計專用芯片,那么對于大多數(shù)中小企業(yè)而言,F(xiàn)PGA是更好的選擇,設(shè)計相對靈活,成本投入更低,投放市場時間(Time-to-Market)更短。在硬件的舞臺上,無論Hot Chips、 SC16還是ISSCC,我們看到越來越多的FPGA解決方案,呈現(xiàn)百花齊放百家爭鳴的盛景。

  嵌入式人工智能崛起

  前面論述的絕大多數(shù)軟硬件都是在服務(wù)器端的,無論Google TPU還是Azure上的FPGA,更不用說NVIDIA DGX-1這樣的龐然大物。這些“高大上”的概念讓普通人敬而遠之。而與我們生活息息相關(guān)的大多數(shù)場景都與移動設(shè)備、嵌入式設(shè)備相連。值得注意的是,今年嵌入式設(shè)備上的人工智能也成為一道亮麗的風(fēng)景。眾多初創(chuàng)企業(yè)投入了這股熱潮,努力將人工智能與具體用戶需求結(jié)合,創(chuàng)造更具性價比的智能產(chǎn)品。今年ILSVRC比賽冠軍商湯科技和??低?,主要產(chǎn)品都是嵌入式設(shè)備,從而也為人工智能真正扎根到廣大人民群眾中間做好了準備,相信不出幾年我們身邊將會出現(xiàn)越來越多智能設(shè)備像智能手環(huán)、智能家居、智能健康設(shè)備、智能自行車、智能汽車、智能秘書幫我們完成細致而瑣碎的工作。

  TensorFlow

  的靈魂就是TensorFlow。一年前,Google就將TensorFlow完全開源。半年前,Google發(fā)布了專門加速TensorFlow的硬件TPU。在短短的一年內(nèi),它的提交就超過了10000次,Google大腦部門做了許多性能改進:增加了對分布式培訓(xùn)的支持,支持從iOS到樹莓派(Raspberry Pi)平臺,與廣泛使用的Hadoop/Spark大數(shù)據(jù)基礎(chǔ)設(shè)施集成;發(fā)布了領(lǐng)先的圖像分類模型Inception;目前是最流行的機器學(xué)習(xí)項目,廣泛用于語音識別、圖像識別、自然語言處理等多項機器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域。

  TensorFlow是第一個可以在iOS、Android設(shè)備和樹莓派等移動設(shè)備/嵌入式設(shè)備上面運行的機器學(xué)習(xí)框架。這樣可以在有攝像頭的手機上運行TensorFlow的Inception分類器或自定義的分類器,只要把攝像頭對準你希望做分類的東西,TensorFlow就會告訴你它認為這是什么。

  Cartographer

  Google在10月8日宣布開源Cartographer,這是一個ROS系統(tǒng)支持的2D和3D同步定位與制圖技術(shù)(SLAM,simultaneous localization and mapping)庫。SLAM是眾多自動駕駛平臺的重要組件,比如自動駕駛汽車、倉庫中的自動叉車、掃地機器人、UAVs等。在產(chǎn)業(yè)界和學(xué)術(shù)界常見的傳感器配置上,Cartographer能實時建立全局一致的地圖。Google在官方聲明中提到,SLAM算法結(jié)合了來自多個傳感器的數(shù)據(jù),比如LiDAR激光雷達傳感器、IMU慣性測量單元,還有來自多個攝像頭的數(shù)據(jù)。綜合這些龐雜的數(shù)據(jù),得以計算傳感器及傳感器周圍的環(huán)境。Cartographer現(xiàn)已經(jīng)支持Toyota HSR、TurtleBots、PR2、Revo LDS這幾個機器人平臺。

  Caffe2Go

  Facebook于11月8日宣布將深度學(xué)習(xí)系統(tǒng)Caffe2Go開源,可以完全運行在智能手機上,目的是讓開發(fā)者更容易接觸到人工智能。相比TensorFlow,晚了整整一年。

  為了可以在iOS和Android設(shè)備上高效地運行各種深度神經(jīng)網(wǎng)絡(luò),F(xiàn)acebook將用于圖像和視頻處理的AI模型壓縮了100倍。最終實現(xiàn)在某些手機上用不到二十分之一秒的時間完成AI預(yù)測過程。

  嵌入式設(shè)備并不總是獨立作戰(zhàn),一些計算復(fù)雜度較高的任務(wù)會采用“云+端”的處理架構(gòu),一個例子是10月18日錘子手機新品發(fā)布會上演示的科大訊飛輸入法,通過語音輸入轉(zhuǎn)換為文字,準確率達97%,其背后是基于深度學(xué)習(xí)的語音識別系統(tǒng),單純依靠移動端是難以實現(xiàn)的,即使實現(xiàn)了也會有諸如手機發(fā)燙、電池不夠用等問題,將任務(wù)合理分工,“云+端”協(xié)作完成復(fù)雜任務(wù),可以大幅提升用戶體驗。

  小結(jié):可以預(yù)見,將來會有更多具備人工智能功能的嵌入式設(shè)備和移動App,進一步拉近我們與人工智能距離,成為密不可分的知心朋友?;蛟S有一天你幾乎無法分辨你的微信好友究竟是人,還是AI。


上一頁 1 2 3 4 下一頁

關(guān)鍵詞: 人工智能 AlphaGo

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉