英特爾：GPU 已過時，Nvidia 的人工智能之路會越來越難

作者：時間：2017-04-11 來源：雷鋒網(wǎng)

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　剛剛上任的英特爾人工智能事業(yè)部(AIPG)首席技術長 Amir Khosrowshahi 表示，目前所使用 GPU 等級太低了，半導體產(chǎn)業(yè)需要構建全新的神經(jīng)網(wǎng)絡架構。

本文引用地址：http://www.butianyuan.cn/article/201704/346422.htm

　　在出任這個新職位之前，Khosrowshahi 是 Nervana System(下簡稱 Nervana) 的聯(lián)合創(chuàng)始人兼首席技術長，Nervana 于 2016 年 8 月被英特爾收購，但并未對外披露具體的收購金額。 Nervana 利用最先進的技術來使用 GPU，而且還自行研發(fā)替代了標準的 Nvidia 匯編程序，從而讓 Nervana 能夠生成「次優(yōu)」的架構體系。在英特爾大力部署人工智能戰(zhàn)略的大背景下，該公司所能提供的技術迅速成為了發(fā)展的核心力量。

　　Khosrowshahi 本周四向 ZDNet 透露：「早在 Nervana 成立之初我們就著手研發(fā)自己的匯編程序，當時只是為了我們自己的研發(fā)需求，不過后來我們發(fā)現(xiàn)它要比 Nvidia 官方的庫存快兩到三倍，所以我們就將其開源了。」

　　Nervana 并不僅僅在軟件方面發(fā)力，而且還創(chuàng)建了自己的目標向神經(jīng)網(wǎng)絡訓練。

　　他說道：「神經(jīng)網(wǎng)絡是預先設定好操作的系列整合。它并不像人類和系統(tǒng)之間的互動，而是被描述為數(shù)據(jù)流的系列指令集。」

　　Khosrowshahi 表示，在執(zhí)行圖形渲染過程中輔助圖形處理單元的部分功能是沒有必要的，比如大容量暫存、頂點著色處理、渲染和紋理等。他表示：「GPU 中的大部分電路在部署機器學習之后是沒有必要的... 這些東西會隨著時間的推移而不斷積累，最終產(chǎn)生了非常多無用的東西。」

　　他進一步解釋：「對你來說并不需要的電路，在 GPU 芯片中不僅占據(jù)了很大一片空間，而且從能源利用率上考慮也產(chǎn)生了相當高的成本。神經(jīng)網(wǎng)絡則相當簡單，利用小巧的矩陣乘法和非線性就能直接創(chuàng)建半導體來實現(xiàn) GPU 的功能，而且你所創(chuàng)建的半導體非常忠誠于神經(jīng)網(wǎng)絡架構，顯然這是 GPU 所無法給予的。」在設計思路上，CPU 有復雜的控制邏輯和諸多優(yōu)化電路，相比之下計算能力只是 CPU 很小的一部分;而 GPU 采用了數(shù)量眾多的計算單元和超長的流水線，但只有非常簡單的控制邏輯并省去了快取，因而在需要大量計算的機器學習方面表現(xiàn)更好，而TPU則是專為機器學習的矩陣乘法設計和優(yōu)化，因而在機器學習方面比 GPU 更勝一籌。

　　Khosrowshahi 給出的答案：就是目前尚在開發(fā)中的 Lake Crest，這是英特爾今年會針對部分客戶提供離散加速器。但伴隨著時間的推移，它將會成為 Xeon 處理器的最佳伙伴。

　　Khosrowshahi 解釋：「這是一個張量(tensor)處理器，能夠處理帶矩陣運算的指令。因此指令集是矩陣 1 和矩陣 2 的相乘，不僅透過查詢表運行而且這些大型的指令都是高級別的。」

　　「GPU 主要依靠一個個寄存器(Register)，當訪問(或者跳轉到)某個寄存器，所執(zhí)行的是元素和元素之間的相乘，這個級別是相當?shù)牡土恕?」

　　Khosrowshahi 表示，最近幾年 Nvidia 已經(jīng)努力讓他們的 GPU 對神經(jīng)網(wǎng)絡更加友善，但是他們的 AI 芯片依然承擔了大量圖形功能。他表示：「如果只是依靠自己來推動芯片方面的改進，我認為未來 Nvidia 的進化將會變得越來越困難。」

　　與之對應的，英特爾則通過收購的方式來推進人工智能。

　　Khosrowshahi 說：「芯片產(chǎn)業(yè)的挑戰(zhàn)是即將迎來顛覆性的全新架構：而現(xiàn)在英特爾所做的事情就是將其收入麾下。他們想要獲得 FPGAs(現(xiàn)場可程序邏輯門數(shù)組)，所以他們收購了 Altera。這真的是一個非常酷炫非常神經(jīng)網(wǎng)絡的架構。」

　　此外 Khosrowshahi 還糾正了很多人對神經(jīng)網(wǎng)絡的錯誤想法，他表示并不是將神經(jīng)網(wǎng)絡蝕刻到半導體上，大部分的功能依然通過軟件方面來形成。

　　他說道：「神經(jīng)網(wǎng)絡大部分都體現(xiàn)在軟件方面。所以即使是 Lake Crest，指令并不是『神經(jīng)網(wǎng)絡，執(zhí)行這項任務』，而是透過矩陣和矩陣的相乘。芯片外層部分就是一些我們所熟知的神經(jīng)網(wǎng)絡，在經(jīng)過培訓之后能夠根據(jù)用戶需求來執(zhí)行各種任務或者搜尋某種參數(shù)，當你擁有神經(jīng)網(wǎng)絡之后你就能做任何可以完成的事情。」

　　英特爾的其中一個人工智能架構將會對抗 Google 的定制 TPU。在 4 月 5 日搜尋龍頭 Google 表示， TPU 的平均運轉速度要比標準的 GPU/CPU 組合(比如 Intel 的 Haswell 處理器和 Nvidia 的 K80 GPU)快 15~30 倍。在數(shù)據(jù)中心計算功耗時，TPU 還提供 30-80 倍的 TeraOps/瓦特(如果未來使用更快的儲存裝置，這一數(shù)字可能還會提高)。

　　同樣在今年 4 月 5 日，IBM 和 Nvidia 還宣布 Big Blue 在今年 5 月開始向特斯拉 P100S 提供 IBM Cloud 服務。

新聞中心

英特爾：GPU 已過時，Nvidia 的人工智能之路會越來越難

評論

相關推薦

技術專區(qū)