阿里苦心研發(fā)NPU AI芯片究竟哪款PU更厲害？

作者：時(shí)間：2018-04-25 來源：OFweek智能硬件網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　4月19日，有消息稱，阿里巴巴達(dá)摩院正在研發(fā)一款神經(jīng)網(wǎng)絡(luò)芯片——Ali-NPU，主要運(yùn)用于圖像視頻分析、機(jī)器學(xué)習(xí)等AI推理計(jì)算。按照設(shè)計(jì)，這款芯片性能將是目前市面上主流CPU、GPU架構(gòu)AI芯片的10倍，而制造成本和功耗僅為一半，其性價(jià)比超過40倍。

本文引用地址：http://butianyuan.cn/article/201804/378934.htm

　　應(yīng)用上，通過此款芯片的研發(fā)將會更好的落地在圖像、視頻識別、云計(jì)算等商業(yè)場景中。據(jù)阿里達(dá)摩院研究員驕旸介紹說：“CPU、GPU作為通用計(jì)算芯片，為處理線程邏輯和圖形而設(shè)計(jì)，處理AI計(jì)算問題時(shí)功耗高，性價(jià)比低，在AI計(jì)算領(lǐng)域急需專用架構(gòu)芯片解決上述問題。阿里巴巴此款A(yù)li-NPU在AI領(lǐng)域積累了大量算法模型優(yōu)勢，以最小成本實(shí)現(xiàn)最大量的AI模型算法運(yùn)算。”

　　昨日，OFweek人工智能網(wǎng)在《當(dāng)中興事件揭開“缺芯少魂”的遮羞布 AI能否迷途知返?》中簡單說明了英特爾、英偉達(dá)、AMD等傳統(tǒng)芯片處理器巨頭在CPU和GPU上存在的優(yōu)勢，而且它們都將人工智能定位為未來重要戰(zhàn)略。

　　事實(shí)上，隨著人工智能產(chǎn)業(yè)的發(fā)展，CPU、GPU、TPU、DPU、NPU、BPU……各種PU也開始爆發(fā)式出現(xiàn)。那么，究竟這些PU在性能和使用上有何異同，又有哪些優(yōu)劣呢?

　　CPU：計(jì)算力占據(jù)部分很小擅長邏輯控制

　　CPU是最為普遍，最為常見的中央處理器。主要包括運(yùn)算器(ALU)和控制單元(CU)，除此之外還包括若干寄存器、高速緩存器和它們之間通訊的數(shù)據(jù)、控制及狀態(tài)的總線。依循馮諾依曼架構(gòu)，CPU需要大量空間放置存儲單元和控制邏輯，計(jì)算能力只占據(jù)很小的部分，更擅長邏輯控制。

　　CPU結(jié)構(gòu)簡化圖

　　GPU：計(jì)算單元數(shù)量眾多但無法單獨(dú)使用

　　GPU的誕生可以解決CPU在計(jì)算能力上的天然缺陷。采用數(shù)量眾多的計(jì)算單元和超長的流水線，善于處理圖像領(lǐng)域的運(yùn)算加速。但GPU的缺陷也很明顯，即無法單獨(dú)工作，必須由CPU進(jìn)行控制調(diào)用才能工作。

　　CPU、GPU微架構(gòu)對比圖

　　TPU：高性能低功耗然則開發(fā)周期長、轉(zhuǎn)換成本高

　　谷歌專門為 TensorFlow 深度學(xué)習(xí)框架定制的TPU，是一款專用于機(jī)器學(xué)習(xí)的芯片。TPU可以提供高吞吐量的低精度計(jì)算，用于模型的前向運(yùn)算而不是模型訓(xùn)練，且能效更高。但它的缺陷主要是開發(fā)周期長、可配置性能有限，缺乏靈活性且轉(zhuǎn)換成本高。

　　DPU：可實(shí)現(xiàn)快速開發(fā)與產(chǎn)品迭代

　　國際上，Wave Computing最早提出DPU。在國內(nèi)，DPU最早是由深鑒科技提出，是基于Xilinx可重構(gòu)特性的FPGA芯片，設(shè)計(jì)專用深度學(xué)習(xí)處理單元，且可以抽象出定制化的指令集和編譯器，從而實(shí)現(xiàn)快速的開發(fā)與產(chǎn)品迭代。