“芯痛”之下阿里苦心研發(fā)NPU AI芯片究竟哪款PU更厲害？

作者：時(shí)間：2018-04-22 來(lái)源：OFweek人工智能網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

　　4月19日，有消息稱(chēng)，阿里巴巴達(dá)摩院正在研發(fā)一款神經(jīng)網(wǎng)絡(luò)芯片——Ali-NPU，主要運(yùn)用于圖像視頻分析、機(jī)器學(xué)習(xí)等AI推理計(jì)算。按照設(shè)計(jì)，這款芯片性能將是目前市面上主流CPU、GPU架構(gòu)AI芯片的10倍，而制造成本和功耗僅為一半，其性?xún)r(jià)比超過(guò)40倍。

本文引用地址：http://butianyuan.cn/article/201804/378770.htm

　　應(yīng)用上，通過(guò)此款芯片的研發(fā)將會(huì)更好的落地在圖像、視頻識(shí)別、云計(jì)算等商業(yè)場(chǎng)景中。據(jù)阿里達(dá)摩院研究員驕旸介紹說(shuō)：“CPU、GPU作為通用計(jì)算芯片，為處理線(xiàn)程邏輯和圖形而設(shè)計(jì)，處理AI計(jì)算問(wèn)題時(shí)功耗高，性?xún)r(jià)比低，在AI計(jì)算領(lǐng)域急需專(zhuān)用架構(gòu)芯片解決上述問(wèn)題。阿里巴巴此款A(yù)li-NPU在AI領(lǐng)域積累了大量算法模型優(yōu)勢(shì)，以最小成本實(shí)現(xiàn)最大量的AI模型算法運(yùn)算。”

　　昨日，OFweek人工智能網(wǎng)在《當(dāng)中興事件揭開(kāi)“缺芯少魂”的遮羞布 AI能否迷途知返?》中簡(jiǎn)單說(shuō)明了英特爾、英偉達(dá)、AMD等傳統(tǒng)芯片處理器巨頭在CPU和GPU上存在的優(yōu)勢(shì)，而且它們都將人工智能定位為未來(lái)重要戰(zhàn)略。

　　事實(shí)上，隨著人工智能產(chǎn)業(yè)的發(fā)展，CPU、GPU、TPU、DPU、NPU、BPU……各種PU也開(kāi)始爆發(fā)式出現(xiàn)。那么，究竟這些PU在性能和使用上有何異同，又有哪些優(yōu)劣呢?

　　CPU：計(jì)算力占據(jù)部分很小擅長(zhǎng)邏輯控制

　　CPU是最為普遍，最為常見(jiàn)的中央處理器。主要包括運(yùn)算器(ALU)和控制單元(CU)，除此之外還包括若干寄存器、高速緩存器和它們之間通訊的數(shù)據(jù)、控制及狀態(tài)的總線(xiàn)。依循馮諾依曼架構(gòu)，CPU需要大量空間放置存儲(chǔ)單元和控制邏輯，計(jì)算能力只占據(jù)很小的部分，更擅長(zhǎng)邏輯控制。

　　CPU結(jié)構(gòu)簡(jiǎn)化圖

　　GPU：計(jì)算單元數(shù)量眾多但無(wú)法單獨(dú)使用

　　GPU的誕生可以解決CPU在計(jì)算能力上的天然缺陷。采用數(shù)量眾多的計(jì)算單元和超長(zhǎng)的流水線(xiàn)，善于處理圖像領(lǐng)域的運(yùn)算加速。但GPU的缺陷也很明顯，即無(wú)法單獨(dú)工作，必須由CPU進(jìn)行控制調(diào)用才能工作。

　　CPU、GPU微架構(gòu)對(duì)比圖

　　TPU：高性能低功耗然則開(kāi)發(fā)周期長(zhǎng)、轉(zhuǎn)換成本高

　　谷歌專(zhuān)門(mén)為 TensorFlow 深度學(xué)習(xí)框架定制的TPU，是一款專(zhuān)用于機(jī)器學(xué)習(xí)的芯片。TPU可以提供高吞吐量的低精度計(jì)算，用于模型的前向運(yùn)算而不是模型訓(xùn)練，且能效更高。但它的缺陷主要是開(kāi)發(fā)周期長(zhǎng)、可配置性能有限，缺乏靈活性且轉(zhuǎn)換成本高。

　　DPU：可實(shí)現(xiàn)快速開(kāi)發(fā)與產(chǎn)品迭代

　　國(guó)際上，Wave Computing最早提出DPU。在國(guó)內(nèi)，DPU最早是由深鑒科技提出，是基于Xilinx可重構(gòu)特性的FPGA芯片，設(shè)計(jì)專(zhuān)用深度學(xué)習(xí)處理單元，且可以抽象出定制化的指令集和編譯器，從而實(shí)現(xiàn)快速的開(kāi)發(fā)與產(chǎn)品迭代。

　　深鑒“雨燕”DPU平臺(tái)

　　NPU：運(yùn)行效率提升不支持大樣本訓(xùn)練

　　NPU是神經(jīng)網(wǎng)絡(luò)處理器，在電路層模擬人類(lèi)神經(jīng)元和突觸，并且用深度學(xué)習(xí)指令集直接處理大規(guī)模的神經(jīng)元和突觸，一條指令完成一組神經(jīng)元的處理。相比于CPU和GPU的馮諾伊曼結(jié)構(gòu)，NPU通過(guò)突觸權(quán)重實(shí)現(xiàn)存儲(chǔ)和計(jì)算一體化，從而提高運(yùn)行效率。但NPU也有自身的缺陷，比如不支持對(duì)大量樣本的訓(xùn)練。

　　BPU：比在CPU上用軟件實(shí)現(xiàn)更為高效不可再編程

　　BPU是由地平線(xiàn)主導(dǎo)的嵌入式處理器架構(gòu)。第一代是高斯架構(gòu)，第二代是伯努利架構(gòu)，第三代是貝葉斯架構(gòu)。BPU主要是用來(lái)支撐深度神經(jīng)網(wǎng)絡(luò),比在CPU上用軟件實(shí)現(xiàn)更為高效。然而，BPU一旦生產(chǎn)，不可再編程，且必須在CPU控制下使用。

　　從CPU、GPU的市場(chǎng)來(lái)看，已經(jīng)基本被英特爾、英偉達(dá)和AMD三分天下。而在ASIC框架下的TPU，只有谷歌的體量和實(shí)力才有開(kāi)發(fā)專(zhuān)用加速的動(dòng)力。

　　推出DPU的深鑒科技有清華和斯坦福雙重學(xué)術(shù)背景，公司目前的兩條發(fā)展路線(xiàn)是：以芯片技術(shù)為主的純技術(shù)路線(xiàn)，以及基于技術(shù)的產(chǎn)品路線(xiàn)。其處理器做深度學(xué)習(xí)應(yīng)用端，不做訓(xùn)練端。目前，其深度壓縮技術(shù)可以將神經(jīng)網(wǎng)絡(luò)壓縮數(shù)十倍而不影響精度，還可以使用芯片存儲(chǔ)深度學(xué)習(xí)算法模型，減少內(nèi)存讀取次數(shù)，降低運(yùn)行功耗。

　　去年10月，深鑒科技推出了六款A(yù)I產(chǎn)品，分別是人臉檢測(cè)識(shí)別模組、人臉?lè)治鼋鉀Q方案、視頻結(jié)構(gòu)化解決方案、ARISTOTLE架構(gòu)平臺(tái)，深度學(xué)習(xí)SDK DNNDK，以及雙目深度視覺(jué)套件。

　　寒武紀(jì)最初是中科院從2008年開(kāi)始的一研究項(xiàng)目，負(fù)責(zé)人為陳氏兄弟陳云霽和陳天石，也是寒武紀(jì)科技的創(chuàng)始人，與他們合作研究Diannao系列的Olivier Temam是Google TPU的主架構(gòu)師。2016年11月，寒武紀(jì)科技正式成立，同時(shí)推出世界首款商用深度學(xué)習(xí)專(zhuān)用處理器 Cambricon-AI，是一款神經(jīng)網(wǎng)絡(luò)處理器，面向手機(jī)、無(wú)人機(jī)等類(lèi)手機(jī)的終端設(shè)備。

　　去年，一時(shí)火爆的華為麒麟970一大賣(mài)點(diǎn)就是集成了獨(dú)立NPU，被宣傳為世界首款手機(jī)AI芯片。確實(shí)屬實(shí)。但據(jù)了解，這塊NPU也并非華為的研究成果，而是來(lái)自寒武紀(jì)。對(duì)于華為來(lái)說(shuō)，之所以如此重視NPU，或許和阿里爆出新聞的心態(tài)一樣，認(rèn)為集成NPU代表了人工智能未來(lái)的發(fā)展趨勢(shì)。

　　去年底，地平線(xiàn)在創(chuàng)辦兩年后終于發(fā)布首款芯片——“征程”與“旭日”。目前，這兩款處理器都屬于嵌入式人工智能視覺(jué)芯片，分別面向智能駕駛和智能攝像頭。2018年CES上，英特爾和地平線(xiàn)還發(fā)布了基于伯努利架構(gòu)的新一代征程處理器，其發(fā)展路徑圖為：2018年，感知;2019年，建模;2020年，決策。

　　而因?yàn)榕c英特爾的合作，地平線(xiàn)不禁讓市場(chǎng)聯(lián)想到英特爾早前重金收購(gòu)的Mobileye。在嵌入式人工智能領(lǐng)域，Mobileye是業(yè)界領(lǐng)頭羊。地平線(xiàn)在英特爾的定位版圖是否是中國(guó)版Mobileye?但其創(chuàng)始人余凱的抱負(fù)是，地平線(xiàn)是要做中國(guó)的英特爾。

　　最后，談到人工智能芯片，還是不得不提BAT。在國(guó)際四大科技巨頭都造芯片，且ARM、英特爾、英偉達(dá)等傳統(tǒng)芯片廠(chǎng)商仍然統(tǒng)治芯片天下的情況下，中國(guó)芯能不能發(fā)展起來(lái)，還需要看國(guó)內(nèi)科技巨頭們的表現(xiàn)。相較而言，阿里在三家中最為熱衷芯片布局，上述包括寒武紀(jì)、深鑒科技均有阿里參投。

新聞中心

“芯痛”之下阿里苦心研發(fā)NPU AI芯片究竟哪款PU更厲害？

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

新聞中心

“芯痛”之下阿里苦心研發(fā)NPU AI芯片究竟哪款PU更厲害？

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

“芯痛”之下阿里苦心研發(fā)NPU AI芯片究竟哪款PU更厲害？