收購Nervana后 Intel在AI芯片上進展如何？

作者：時間：2016-12-08 來源：數(shù)盟社區(qū)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

本文引用地址：http://www.butianyuan.cn/article/201612/341370.htm

　　Xeon(至強)是目前Intel產(chǎn)品中最經(jīng)典、也是使用最廣泛的平臺，是一個能夠針對不同種類的工作進行計算支持的平臺。全球90%以上的數(shù)據(jù)分析在Intel Xeon 處理器平臺上實現(xiàn);其中人工智能、深度學習相關(guān)方案及部署中，也有超過90%的案例使用Xeon CPU。

　　Xeon Phi是Xeon的進階版，加入了眾核的概念。在Xeon的基礎(chǔ)上加入多個64核、74核的加速器，使其可以在軟件的配合下大幅提高計算性能。對于例如Caffe、Alexnet這樣的網(wǎng)絡(luò)，在經(jīng)過針對Xeon Phi進行軟硬件結(jié)合的優(yōu)化之后，性能提升了400倍?？梢娷浻布Y(jié)合能夠大幅提升深度神經(jīng)網(wǎng)絡(luò)的訓練效率。

　　同時，若可以確定系統(tǒng)的應(yīng)用領(lǐng)域是某種工作負載，則可以采用FPGA或Nervana這類定制化的硬件架構(gòu)作為支持。FPGA可以用來做網(wǎng)絡(luò)計算、視頻處理、語音等方面。

　　與FPGA不同的，也是人工智能從業(yè)者最為關(guān)心的，Lake Crest硬件架構(gòu)，是專為深度學習這種大規(guī)模運算及需要實時緩存的系統(tǒng)設(shè)計的。

　　Lake Crest是主要基于張量運算的架構(gòu)，矩陣運算屬于張量運算。圖中綠色部分是專門針對矩陣運算的處理單元。同時運用Flexpoint技術(shù)，一個基于定點與雙精度浮點之間可以變化的技術(shù)，來提供較高的并行化計算能力，計算密度是目前最好的硬件加速水平的十倍。同時，由于計算單元專門針對張量運算所設(shè)計，所以功耗較低。

　　上圖周圍的四個黃色塊為高帶寬內(nèi)存，通過專用的內(nèi)存訪問接口連接到主芯片，中間灰色大區(qū)域可以看作一個芯片。這些內(nèi)存是直接由軟件管理的，因此整個計算中不存在Cache，也就不存在不可預測的Cache miss，何時、去哪里讀取數(shù)據(jù)完全由程序控制。

　　單靠一個這樣的芯片可能處理不了所有的深度學習訓練任務(wù)，針對特殊的需求，可以采取多個芯片協(xié)同工作的方式。多個芯片之間的互聯(lián)靠RCL，RCL是Intel專門定制的Interchip Link，它的速度比傳統(tǒng)的PCIE快20倍，而且是雙向的數(shù)據(jù)帶寬通道，能夠達到8TB/s。借由RCL，一個芯片最多可以與12個芯片互聯(lián)，以組成訓練所需的規(guī)模較大的超網(wǎng)格。

　　記憶是AI產(chǎn)生認知的必要條件

　　對于AI今后發(fā)展的展望，宋繼強不止一次強調(diào)，記憶是AI產(chǎn)生認知的必要條件。

　　“智能體現(xiàn)哪些方面?首先是感知外界環(huán)境的能力;二是根據(jù)感知進行推理;三是推理形成決策觸動機器做反饋(如說視覺、聲音);最后且更重要的是能適應(yīng)環(huán)境，不然就會變成死程序。這里有條橫線很重要——記憶。Numenta創(chuàng)始人Jeff Hawkins寫過一本書《人工智能的未來》，就是專門講怎樣去看待人工智能。智能就表現(xiàn)在能利用記憶進行預測，若能做到這一點，機器就真有智能了。記憶能力非常重要，很多人工智能廠商正在將它加入系統(tǒng)?！?/p>