清華AI芯片報(bào)告：人才技術(shù)趨勢(shì)都在這里

作者：時(shí)間：2018-11-26 來(lái)源：智東西

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　　2010 年以來(lái)，由于大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展，數(shù)據(jù)量呈現(xiàn)爆炸性增長(zhǎng)態(tài)勢(shì)，而傳統(tǒng)的計(jì)算架構(gòu)又無(wú)法支撐深度學(xué)習(xí)的大規(guī)模并行計(jì)算需求，于是研究界對(duì) AI 芯片進(jìn)行了新一輪的技術(shù)研發(fā)與應(yīng)用研究。 AI 芯片是人工智能時(shí)代的技術(shù)核心之一，決定了平臺(tái)的基礎(chǔ)架構(gòu)和發(fā)展生態(tài)。

本文引用地址：http://www.butianyuan.cn/article/201811/394833.htm

　　本期的智能內(nèi)參，我們推薦清華大學(xué)的報(bào)告《人工智能芯片研究報(bào)告》，全面講解人工智能芯片，系統(tǒng)梳理人工智能芯片的發(fā)展現(xiàn)狀及趨勢(shì)。如果想收藏本文的報(bào)告全文(人工智能芯片研究報(bào)告)，可以在智東西公眾號(hào)：(zhidxcom)回復(fù)關(guān)鍵詞“nc303”獲取。

　　以下為智能內(nèi)參整理呈現(xiàn)的干貨：

　　AI芯片基本知識(shí)及現(xiàn)狀

　　從廣義上講只要能夠運(yùn)行人工智能算法的芯片都叫作 AI 芯片。但是通常意義上的 AI 芯片指的是針對(duì)人工智能算法做了特殊加速設(shè)計(jì)的芯片，現(xiàn)階段，這些人工智能算法一般以深度學(xué)習(xí)算法為主，也可以包括其它機(jī)器學(xué)習(xí)算法。人工智能與深度學(xué)習(xí)的關(guān)系如圖所示。

　　▲人工智能與深度學(xué)習(xí)

　　深度學(xué)習(xí)算法，通常是基于接收到的連續(xù)數(shù)值，通過(guò)學(xué)習(xí)處理，并輸出連續(xù)數(shù)值的過(guò)程，實(shí)質(zhì)上并不能完全模仿生物大腦的運(yùn)作機(jī)制。基于這一現(xiàn)實(shí)，研究界還提出了SNN(Spiking Neural Network，脈沖神經(jīng)網(wǎng)絡(luò)) 模型。作為第三代神經(jīng)網(wǎng)絡(luò)模型， SNN 更貼近生物神經(jīng)網(wǎng)絡(luò)——除了神經(jīng)元和突觸模型更貼近生物神經(jīng)元與突觸之外， SNN 還將時(shí)域信息引入了計(jì)算模型。目前基于 SNN 的 AI 芯片主要以 IBM 的 TrueNorth、 Intel 的 Loihi 以及國(guó)內(nèi)的清華大學(xué)天機(jī)芯為代表。

　　1、AI 芯片發(fā)展歷程

　　從圖靈的論文《計(jì)算機(jī)器與智能》和圖靈測(cè)試，到最初級(jí)的神經(jīng)元模擬單元——感知機(jī)，再到現(xiàn)在多達(dá)上百層的深度神經(jīng)網(wǎng)絡(luò)，人類對(duì)人工智能的探索從來(lái)就沒(méi)有停止過(guò)。上世紀(jì)八十年代，多層神經(jīng)網(wǎng)絡(luò)和反向傳播算法的出現(xiàn)給人工智能行業(yè)點(diǎn)燃了新的火花。反向傳播的主要?jiǎng)?chuàng)新在于能將信息輸出和目標(biāo)輸出之間的誤差通過(guò)多層網(wǎng)絡(luò)往前一級(jí)迭代反饋，將最終的輸出收斂到某一個(gè)目標(biāo)范圍之內(nèi)。 1989 年貝爾實(shí)驗(yàn)室成功利用反向傳播算法，在多層神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)了一個(gè)手寫(xiě)郵編識(shí)別器。 1998 年 Yann LeCun 和 Yoshua Bengio 發(fā)表了手寫(xiě)識(shí)別神經(jīng)網(wǎng)絡(luò)和反向傳播優(yōu)化相關(guān)的論文《Gradient-based learning applied to documentrecognition》，開(kāi)創(chuàng)了卷積神經(jīng)網(wǎng)絡(luò)的時(shí)代。

　　此后，人工智能陷入了長(zhǎng)時(shí)間的發(fā)展沉寂階段，直到 1997年 IBM的深藍(lán)戰(zhàn)勝國(guó)際象棋大師和 2011年 IBM的沃森智能系統(tǒng)在 Jeopardy節(jié)目中勝出，人工智能才又一次為人們所關(guān)注。 2016 年 Alpha Go 擊敗韓國(guó)圍棋九段職業(yè)選手，則標(biāo)志著人工智能的又一波高潮。從基礎(chǔ)算法、底層硬件、工具框架到實(shí)際應(yīng)用場(chǎng)景，現(xiàn)階段的人工智能領(lǐng)域已經(jīng)全面開(kāi)花。

　　作為人工智能核心的底層硬件 AI 芯片，也同樣經(jīng)歷了多次的起伏和波折，總體看來(lái)，AI 芯片的發(fā)展前后經(jīng)歷了四次大的變化，其發(fā)展歷程如圖所示。

　　▲AI 芯片發(fā)展歷程

　　(1) 2007 年以前， AI 芯片產(chǎn)業(yè)一直沒(méi)有發(fā)展成為成熟的產(chǎn)業(yè); 同時(shí)由于當(dāng)時(shí)算法、數(shù)據(jù)量等因素，這個(gè)階段 AI 芯片并沒(méi)有特別強(qiáng)烈的市場(chǎng)需求，通用的 CPU 芯片即可滿足應(yīng)用需要。

　　(2) 隨著高清視頻、 VR、 AR游戲等行業(yè)的發(fā)展， GPU產(chǎn)品取得快速的突破; 同時(shí)人們發(fā)現(xiàn) GPU 的并行計(jì)算特性恰好適應(yīng)人工智能算法及大數(shù)據(jù)并行計(jì)算的需求，如 GPU 比之前傳統(tǒng)的 CPU在深度學(xué)習(xí)算法的運(yùn)算上可以提高幾十倍的效率，因此開(kāi)始嘗試使用 GPU進(jìn)行人工智能計(jì)算。

　　(3) 進(jìn)入 2010 年后，云計(jì)算廣泛推廣，人工智能的研究人員可以通過(guò)云計(jì)算借助大量 CPU 和 GPU 進(jìn)行混合運(yùn)算，進(jìn)一步推進(jìn)了 AI 芯片的深入應(yīng)用，從而催生了各類 AI 芯片的研發(fā)與應(yīng)用。

　　(4) 人工智能對(duì)于計(jì)算能力的要求不斷快速地提升，進(jìn)入 2015 年后， GPU 性能功耗比不高的特點(diǎn)使其在工作適用場(chǎng)合受到多種限制，業(yè)界開(kāi)始研發(fā)針對(duì)人工智能的專用芯片，以期通過(guò)更好的硬件和芯片架構(gòu)，在計(jì)算效率、能耗比等性能上得到進(jìn)一步提升。

　　2、我國(guó) AI 芯片發(fā)展情況

　　目前，我國(guó)的人工智能芯片行業(yè)發(fā)展尚處于起步階段。長(zhǎng)期以來(lái)，中國(guó)在 CPU、 GPU、DSP 處理器設(shè)計(jì)上一直處于追趕地位，絕大部分芯片設(shè)計(jì)企業(yè)依靠國(guó)外的 IP 核設(shè)計(jì)芯片，在自主創(chuàng)新上受到了極大的限制。然而，人工智能的興起，無(wú)疑為中國(guó)在處理器領(lǐng)域?qū)崿F(xiàn)彎道超車提供了絕佳的機(jī)遇。人工智能領(lǐng)域的應(yīng)用目前還處于面向行業(yè)應(yīng)用階段，生態(tài)上尚未形成壟斷，國(guó)產(chǎn)處理器廠商與國(guó)外競(jìng)爭(zhēng)對(duì)手在人工智能這一全新賽場(chǎng)上處在同一起跑線上，因此，基于新興技術(shù)和應(yīng)用市場(chǎng)，中國(guó)在建立人工智能生態(tài)圈方面將大有可為。

　　由于我國(guó)特殊的環(huán)境和市場(chǎng)，國(guó)內(nèi) AI 芯片的發(fā)展目前呈現(xiàn)出百花齊放、百家爭(zhēng)鳴的態(tài)勢(shì)， AI 芯片的應(yīng)用領(lǐng)域也遍布股票交易、金融、商品推薦、安防、早教機(jī)器人以及無(wú)人駕駛等眾多領(lǐng)域，催生了大量的人工智能芯片創(chuàng)業(yè)公司，如地平線、深鑒科技、中科寒武紀(jì)等。

　　盡管如此，國(guó)內(nèi)公司卻并未如國(guó)外大公司一樣形成市場(chǎng)規(guī)模，反而出現(xiàn)各自為政的散裂發(fā)展現(xiàn)狀。除了新興創(chuàng)業(yè)公司，國(guó)內(nèi)研究機(jī)構(gòu)如北京大學(xué)、清華大學(xué)、中國(guó)科學(xué)院等在AI 芯片領(lǐng)域都有深入研究;而其他公司如百度和比特大陸等， 2017 年也有一些成果發(fā)布?？梢灶A(yù)見(jiàn)，未來(lái)誰(shuí)先在人工智能領(lǐng)域掌握了生態(tài)系統(tǒng)，誰(shuí)就掌握住了這個(gè)產(chǎn)業(yè)的主動(dòng)權(quán)。

　　3、AI學(xué)者概況

　　基于來(lái)自清華大學(xué)AMiner人才庫(kù)數(shù)據(jù)，全球人工智能芯片領(lǐng)域?qū)W者分布如圖所示，從圖中可以看到，人工智能芯片領(lǐng)域的學(xué)者主要分布在北美洲，其次是歐洲。中國(guó)對(duì)人工智能芯片的研究緊跟其后，南美洲、非洲和大洋洲人才相對(duì)比較匱乏。

　　▲ 人工智能芯片領(lǐng)域研究學(xué)者全球分布

　　按國(guó)家進(jìn)行統(tǒng)計(jì)來(lái)看美國(guó)是人工智能芯片領(lǐng)域科技發(fā)展的核心。英國(guó)的人數(shù)緊排在美國(guó)之后。其他的專家主要分布在中國(guó)、德國(guó)、加拿大、意大利和日本。

　　▲人工智能芯片領(lǐng)域研究學(xué)者全球分布

　　對(duì)全球人工智能芯片領(lǐng)域最具影響力的 1000 人的遷徙路徑進(jìn)行了統(tǒng)計(jì)分析，得出下圖所示的各國(guó)人才逆順差對(duì)比。

　　▲各國(guó)人才逆順差

　　可以看出，各國(guó)人才的流失和引進(jìn)是相對(duì)比較均衡的，其中美國(guó)為人才流動(dòng)大國(guó)，人才輸入和輸出幅度都大幅度領(lǐng)先。英國(guó)、中國(guó)、德國(guó)和瑞士等國(guó)次于美國(guó)，但各國(guó)之間人才流動(dòng)相差并不明顯。

　　AI 芯片的分類及技術(shù)

　　人工智能芯片目前有兩種發(fā)展路徑：一種是延續(xù)傳統(tǒng)計(jì)算架構(gòu)，加速硬件計(jì)算能力，主要以 3 種類型的芯片為代表，即 GPU、 FPGA、 ASIC，但 CPU依舊發(fā)揮著不可替代的作用;另一種是顛覆經(jīng)典的馮·諾依曼計(jì)算架構(gòu)，采用類腦神經(jīng)結(jié)構(gòu)來(lái)提升計(jì)算能力，以 IBM TrueNorth 芯片為代表。

　　1、傳統(tǒng) CPU

　　計(jì)算機(jī)工業(yè)從 1960 年代早期開(kāi)始使用 CPU 這個(gè)術(shù)語(yǔ)。迄今為止， CPU 從形態(tài)、設(shè)計(jì)到實(shí)現(xiàn)都已發(fā)生了巨大的變化，但是其基本工作原理卻一直沒(méi)有大的改變。通常 CPU 由控制器和運(yùn)算器這兩個(gè)主要部件組成。傳統(tǒng)的 CPU 內(nèi)部結(jié)構(gòu)圖如圖 3 所示，從圖中我們可以看到：實(shí)質(zhì)上僅單獨(dú)的 ALU 模塊(邏輯運(yùn)算單元)是用來(lái)完成數(shù)據(jù)計(jì)算的，其他各個(gè)模塊的存在都是為了保證指令能夠一條接一條的有序執(zhí)行。這種通用性結(jié)構(gòu)對(duì)于傳統(tǒng)的編程計(jì)算模式非常適合，同時(shí)可以通過(guò)提升 CPU 主頻(提升單位時(shí)間內(nèi)執(zhí)行指令的條數(shù))來(lái)提升計(jì)算速度。但對(duì)于深度學(xué)習(xí)中的并不需要太多的程序指令、卻需要海量數(shù)據(jù)運(yùn)算的計(jì)算需求，這種結(jié)構(gòu)就顯得有些力不從心。尤其是在功耗限制下，無(wú)法通過(guò)無(wú)限制的提升 CPU 和內(nèi)存的工作頻率來(lái)加快指令執(zhí)行速度，這種情況導(dǎo)致 CPU 系統(tǒng)的發(fā)展遇到不可逾越的瓶頸。

　　▲傳統(tǒng) CPU 內(nèi)部結(jié)構(gòu)圖(僅 ALU 為主要計(jì)算模塊)

　　2、并行加速計(jì)算的 GPU

　　GPU 作為最早從事并行加速計(jì)算的處理器，相比 CPU 速度快，同時(shí)比其他加速器芯片編程靈活簡(jiǎn)單。

　　傳統(tǒng)的 CPU 之所以不適合人工智能算法的執(zhí)行，主要原因在于其計(jì)算指令遵循串行執(zhí)行的方式，沒(méi)能發(fā)揮出芯片的全部潛力。與之不同的是， GPU 具有高并行結(jié)構(gòu)，在處理圖形數(shù)據(jù)和復(fù)雜算法方面擁有比 CPU 更高的效率。對(duì)比 GPU 和 CPU 在結(jié)構(gòu)上的差異， CPU大部分面積為控制器和寄存器，而 GPU 擁有更ALU(ARITHMETIC LOGIC UNIT，邏輯運(yùn)算單元)用于數(shù)據(jù)處理，這樣的結(jié)構(gòu)適合對(duì)密集型數(shù)據(jù)進(jìn)行并行處理， CPU 與 GPU 的結(jié)構(gòu)對(duì)比如圖所示。程序在 GPU系統(tǒng)上的運(yùn)行速度相較于單核 CPU往往提升幾十倍乃至上千倍。隨著英偉達(dá)、 AMD 等公司不斷推進(jìn)其對(duì) GPU 大規(guī)模并行架構(gòu)的支持，面向通用計(jì)算的 GPU(即GPGPU， GENERAL PURPOSE GPU，通用計(jì)算圖形處理器)已成為加速可并行應(yīng)用程序的重要手段。

　　▲CPU 及 GPU 結(jié)構(gòu)對(duì)比圖(引用自 NVIDIA CUDA 文檔)

　　GPU 的發(fā)展歷程可分為 3 個(gè)階段，發(fā)展歷程如圖所示：

　　第一代 GPU(1999 年以前 ) ，部分功能從 CPU 分離，實(shí) 現(xiàn) 硬件加速，以GE(GEOMETRY ENGINE)為代表，只能起到 3D 圖像處理的加速作用，不具有軟件編程特性。

　　第二代 GPU(1999-2005 年)，實(shí)現(xiàn)進(jìn)一步的硬件加速和有限的編程性。 1999 年，英偉達(dá)發(fā)布了“專為執(zhí)行復(fù)雜的數(shù)學(xué)和幾何計(jì)算的” GeForce256 圖像處理芯片，將更多的晶體管用作執(zhí)行單元，而不是像 CPU 那樣用作復(fù)雜的控制單元和緩存，將 T&L(TRANSFORM AND LIGHTING)等功能從 CPU 分離出來(lái)，實(shí)現(xiàn)了快速變換，這成為 GPU 真正出現(xiàn)的標(biāo)志。之后幾年， GPU 技術(shù)快速發(fā)展，運(yùn)算速度迅速超過(guò) CPU。 2001 年英偉達(dá)和 ATI 分別推出的GEFORCE3 和 RADEON 8500，圖形硬件的流水線被定義為流處理器，出現(xiàn)了頂點(diǎn)級(jí)可編程性，同時(shí)像素級(jí)也具有有限的編程性，但 GPU 的整體編程性仍然比較有限。

　　第三代 GPU(2006年以后)， GPU實(shí)現(xiàn)方便的編程環(huán)境創(chuàng)建，可以直接編寫(xiě)程序。 2006年英偉達(dá)與 ATI分別推出了 CUDA(Compute United Device Architecture，計(jì)算統(tǒng)一設(shè)備架構(gòu))編程環(huán)境和 CTM(CLOSE TO THE METAL)編程環(huán)境，使得 GPU 打破圖形語(yǔ)言的局限成為真正的并行數(shù)據(jù)處理超級(jí)加速器。

　　2008 年，蘋(píng)果公司提出一個(gè)通用的并行計(jì)算編程平臺(tái) OPENCL(OPEN COMPUTING LANGUAGE，開(kāi)放運(yùn)算語(yǔ)言)，與 CUDA 綁定在英偉達(dá)的顯卡上不同，OPENCL 和具體的計(jì)算設(shè)備無(wú)關(guān)。

　　▲GPU 芯片的發(fā)展階段

　　目前， GPU 已經(jīng)發(fā)展到較為成熟的階段。谷歌、 FACEBOOK、微軟、 TWITTER 和百度等公司都在使用 GPU 分析圖片、視頻和音頻文件，以改進(jìn)搜索和圖像標(biāo)簽等應(yīng)用功能。此外，很多汽車生產(chǎn)商也在使用 GPU 芯片發(fā)展無(wú)人駕駛。不僅如此， GPU 也被應(yīng)用于VR/AR 相關(guān)的產(chǎn)業(yè)。

　　但是 GPU也有一定的局限性。深度學(xué)習(xí)算法分為訓(xùn)練和推斷兩部分， GPU 平臺(tái)在算法訓(xùn)練上非常高效。但在推斷中對(duì)于單項(xiàng)輸入進(jìn)行處理的時(shí)候，并行計(jì)算的優(yōu)勢(shì)不能完全發(fā)揮出來(lái)。

　　3、半定制化的 FPGA

　　FPGA 是在 PAL、 GAL、 CPLD 等可編程器件基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。用戶可以通過(guò)燒入 FPGA 配置文件來(lái)定義這些門電路以及存儲(chǔ)器之間的連線。這種燒入不是一次性的，比如用戶可以把 FPGA 配置成一個(gè)微控制器 MCU，使用完畢后可以編輯配置文件把同一個(gè)FPGA 配置成一個(gè)音頻編解碼器。因此，它既解決了定制電路靈活性的不足，又克服了原有可編程器件門電路數(shù)有限的缺點(diǎn)。

　　FPGA 可同時(shí)進(jìn)行數(shù)據(jù)并行和任務(wù)并行計(jì)算，在處理特定應(yīng)用時(shí)有更加明顯的效率提升。對(duì)于某個(gè)特定運(yùn)算，通用 CPU 可能需要多個(gè)時(shí)鐘周期; 而 FPGA 可以通過(guò)編程重組電路，直接生成專用電路，僅消耗少量甚至一次時(shí)鐘周期就可完成運(yùn)算。

　　此外，由于 FPGA的靈活性，很多使用通用處理器或 ASIC難以實(shí)現(xiàn)的底層硬件控制操作技術(shù)，利用 FPGA 可以很方便的實(shí)現(xiàn)。這個(gè)特性為算法的功能實(shí)現(xiàn)和優(yōu)化留出了更大空間。同時(shí) FPGA 一次性成本(光刻掩模制作成本)遠(yuǎn)低于 ASIC，在芯片需求還未成規(guī)模、深度學(xué)習(xí)算法暫未穩(wěn)定，需要不斷迭代改進(jìn)的情況下，利用 FPGA 芯片具備可重構(gòu)的特性來(lái)實(shí)現(xiàn)半定制的人工智能芯片是最佳選擇之一。

　　功耗方面，從體系結(jié)構(gòu)而言， FPGA 也具有天生的優(yōu)勢(shì)。傳統(tǒng)的馮氏結(jié)構(gòu)中，執(zhí)行單元(如 CPU 核)執(zhí)行任意指令，都需要有指令存儲(chǔ)器、譯碼器、各種指令的運(yùn)算器及分支跳轉(zhuǎn)處理邏輯參與運(yùn)行，而 FPGA 每個(gè)邏輯單元的功能在重編程(即燒入)時(shí)就已經(jīng)確定，不需要指令，無(wú)需共享內(nèi)存，從而可以極大的降低單位執(zhí)行的功耗，提高整體的能耗比。

　　由于 FPGA 具備靈活快速的特點(diǎn)，因此在眾多領(lǐng)域都有替代 ASIC 的趨勢(shì)。 FPGA 在人工智能領(lǐng)域的應(yīng)用如圖所示。

　　▲FPGA 在人工智能領(lǐng)域的應(yīng)用

　　4、全定制化的 ASIC

　　目前以深度學(xué)習(xí)為代表的人工智能計(jì)算需求，主要采用 GPU、 FPGA 等已有的適合并行計(jì)算的通用芯片來(lái)實(shí)現(xiàn)加速。在產(chǎn)業(yè)應(yīng)用沒(méi)有大規(guī)模興起之時(shí)，使用這類已有的通用芯片可以避免專門研發(fā)定制芯片(ASIC) 的高投入和高風(fēng)險(xiǎn)。但是，由于這類通用芯片設(shè)計(jì)初衷并非專門針對(duì)深度學(xué)習(xí)，因而天然存在性能、功耗等方面的局限性。隨著人工智能應(yīng)用規(guī)模的擴(kuò)大，這類問(wèn)題日益突顯。

　　GPU 作為圖像處理器，設(shè)計(jì)初衷是為了應(yīng)對(duì)圖像處理中的大規(guī)模并行計(jì)算。因此，在應(yīng)用于深度學(xué)習(xí)算法時(shí)，有三個(gè)方面的局限性：第一，應(yīng)用過(guò)程中無(wú)法充分發(fā)揮并行計(jì)算優(yōu)勢(shì)。深度學(xué)習(xí)包含訓(xùn)練和推斷兩個(gè)計(jì)算環(huán)節(jié)， GPU 在深度學(xué)習(xí)算法訓(xùn)練上非常高效，但對(duì)于單一輸入進(jìn)行推斷的場(chǎng)合，并行度的優(yōu)勢(shì)不能完全發(fā)揮。第二，無(wú)法靈活配置硬件結(jié)構(gòu)。 GPU 采用 SIMT 計(jì)算模式，硬件結(jié)構(gòu)相對(duì)固定。目前深度學(xué)習(xí)算法還未完全穩(wěn)定，若深度學(xué)習(xí)算法發(fā)生大的變化， GPU 無(wú)法像 FPGA 一樣可以靈活的配制硬件結(jié)構(gòu)。第三，運(yùn)行深度學(xué)習(xí)算法能效低于 FPGA。

　　盡管 FPGA 倍受看好，甚至新一代百度大腦也是基于 FPGA 平臺(tái)研發(fā)，但其畢竟不是專門為了適用深度學(xué)習(xí)算法而研發(fā)，實(shí)際應(yīng)用中也存在諸多局限：第一，基本單元的計(jì)算能力有限。為了實(shí)現(xiàn)可重構(gòu)特性， FPGA 內(nèi)部有大量極細(xì)粒度的基本單元，但是每個(gè)單元的計(jì)算能力(主要依靠 LUT 查找表)都遠(yuǎn)遠(yuǎn)低于 CPU 和 GPU 中的 ALU 模塊; 第二、計(jì)算資源占比相對(duì)較低。為實(shí)現(xiàn)可重構(gòu)特性， FPGA 內(nèi)部大量資源被用于可配置的片上路由與連線; 第三，速度和功耗相對(duì)專用定制芯片(ASIC)仍然存在不小差距; 第四， FPGA 價(jià)格較為昂貴，在規(guī)模放量的情況下單塊 FPGA 的成本要遠(yuǎn)高于專用定制芯片。

　　因此，隨著人工智能算法和應(yīng)用技術(shù)的日益發(fā)展，以及人工智能專用芯片 ASIC產(chǎn)業(yè)環(huán)境的逐漸成熟，全定制化人工智能 ASIC也逐步體現(xiàn)出自身的優(yōu)勢(shì)，從事此類芯片研發(fā)與應(yīng)用的國(guó)內(nèi)外比較有代表性的公司如圖所示。

　　▲人工智能專用芯片(包括類腦芯片) 研發(fā)情況一覽

　　深度學(xué)習(xí)算法穩(wěn)定后， AI 芯片可采用 ASIC 設(shè)計(jì)方法進(jìn)行全定制，使性能、功耗和面積等指標(biāo)面向深度學(xué)習(xí)算法做到最優(yōu)。

　　5、類腦芯片

　　類腦芯片不采用經(jīng)典的馮·諾依曼架構(gòu)，而是基于神經(jīng)形態(tài)架構(gòu)設(shè)計(jì)，以 IBM Truenorth為代表。 IBM 研究人員將存儲(chǔ)單元作為突觸、計(jì)算單元作為神經(jīng)元、傳輸單元作為軸突搭建了神經(jīng)芯片的原型。目前， Truenorth 用三星 28nm 功耗工藝技術(shù)，由 54 億個(gè)晶體管組成的芯片構(gòu)成的片上網(wǎng)絡(luò)有 4096 個(gè)神經(jīng)突觸核心，實(shí)時(shí)作業(yè)功耗僅為 70mW。由于神經(jīng)突觸要求權(quán)重可變且要有記憶功能， IBM 采用與 CMOS 工藝兼容的相變非揮發(fā)存儲(chǔ)器(PCM)的技術(shù)實(shí)驗(yàn)性的實(shí)現(xiàn)了新型突觸，加快了商業(yè)化進(jìn)程。

　　AI芯片產(chǎn)業(yè)及趨勢(shì)

　　1、AI芯片應(yīng)用領(lǐng)域

　　隨著人工智能芯片的持續(xù)發(fā)展，應(yīng)用領(lǐng)域會(huì)隨時(shí)間推移而不斷向多維方向發(fā)展，這里我們選擇目前發(fā)展比較集中的幾個(gè)行業(yè)做相關(guān)的介紹。

　　▲AI芯片目前比較集中的應(yīng)用領(lǐng)域

　　(1)智能手機(jī)

　　2017 年 9 月，華為在德國(guó)柏林消費(fèi)電子展發(fā)布了麒麟 970 芯片，該芯片搭載了寒武紀(jì)的 NPU，成為“全球首款智能手機(jī)移動(dòng)端 AI 芯片” ; 2017 年 10 月中旬 Mate10 系列新品(該系列手機(jī)的處理器為麒麟 970)上市。搭載了 NPU 的華為 Mate10 系列智能手機(jī)具備了較強(qiáng)的深度學(xué)習(xí)、本地端推斷能力，讓各類基于深度神經(jīng)網(wǎng)絡(luò)的攝影、圖像處理應(yīng)用能夠?yàn)橛脩籼峁└油昝赖捏w驗(yàn)。

　　而蘋(píng)果發(fā)布以 iPhone X 為代表的手機(jī)及它們內(nèi)置的 A11 Bionic 芯片。A11 Bionic 中自主研發(fā)的雙核架構(gòu) Neural Engine(神經(jīng)網(wǎng)絡(luò)處理引擎)，它每秒處理相應(yīng)神經(jīng)網(wǎng)絡(luò)計(jì)算需求的次數(shù)可達(dá) 6000 億次。這個(gè) Neural Engine 的出現(xiàn)，讓 A11 Bionic 成為一塊真正的 AI 芯片。 A11 Bionic 大大提升了 iPhone X 在拍照方面的使用體驗(yàn)，并提供了一些富有創(chuàng)意的新用法。

　　(2)ADAS(高級(jí)輔助駕駛系統(tǒng))

　　ADAS 是最吸引大眾眼球的人工智能應(yīng)用之一，它需要處理海量的由激光雷達(dá)、毫米波雷達(dá)、攝像頭等傳感器采集的實(shí)時(shí)數(shù)據(jù)。相對(duì)于傳統(tǒng)的車輛控制方法，智能控制方法主要體現(xiàn)在對(duì)控制對(duì)象模型的運(yùn)用和綜合信息學(xué)習(xí)運(yùn)用上，包括神經(jīng)網(wǎng)絡(luò)控制和深度學(xué)習(xí)方法等，得益于 AI 芯片的飛速發(fā)展，這些算法已逐步在車輛控制中得到應(yīng)用。

　　(3)CV(計(jì)算機(jī)視覺(jué)(Computer Vision) 設(shè)備

　　需要使用計(jì)算機(jī)視覺(jué)技術(shù)的設(shè)備，如智能攝像頭、無(wú)人機(jī)、行車記錄儀、人臉識(shí)別迎賓機(jī)器人以及智能手寫(xiě)板等設(shè)備，往往都具有本地端推斷的需要，如果僅能在聯(lián)網(wǎng)下工作，無(wú)疑將帶來(lái)糟糕的體驗(yàn)。而計(jì)算機(jī)視覺(jué)技術(shù)目前看來(lái)將會(huì)成為人工智能應(yīng)用的沃土之一，計(jì)算機(jī)視覺(jué)芯片將擁有廣闊的市場(chǎng)前景。

　　(4) VR 設(shè)備

　　VR 設(shè)備芯片的代表為 HPU 芯片，是微軟為自身 VR 設(shè)備 Hololens 研發(fā)定制的。這顆由臺(tái)積電代工的芯片能同時(shí)處理來(lái)自 5個(gè)攝像頭、 1個(gè)深度傳感器以及運(yùn)動(dòng)傳感器的數(shù)據(jù)，并具備計(jì)算機(jī)視覺(jué)的矩陣運(yùn)算和 CNN 運(yùn)算的加速功能。這使得 VR 設(shè)備可重建高質(zhì)量的人像 3D 影像，并實(shí)時(shí)傳送到任何地方。

　　(5)語(yǔ)音交互設(shè)備

　　語(yǔ)音交互設(shè)備芯片方面，國(guó)內(nèi)有啟英泰倫以及云知聲兩家公司，其提供的芯片方案均內(nèi)置了為語(yǔ)音識(shí)別而優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)加速方案，實(shí)現(xiàn)設(shè)備的語(yǔ)音離線識(shí)別。穩(wěn)定的識(shí)別能力為語(yǔ)音技術(shù)的落地提供了可能; 與此同時(shí)，語(yǔ)音交互的核心環(huán)節(jié)也取得重大突破。語(yǔ)音識(shí)別環(huán)節(jié)突破了單點(diǎn)能力，從遠(yuǎn)場(chǎng)識(shí)別，到語(yǔ)音分析和語(yǔ)義理解有了重大突破，呈現(xiàn)出一種整體的交互方案。

　　(6)機(jī)器人

　　無(wú)論是家居機(jī)器人還是商用服務(wù)機(jī)器人均需要專用軟件+芯片的人工智能解決方案，這方面典型公司有由前百度深度學(xué)習(xí)實(shí)驗(yàn)室負(fù)責(zé)人余凱創(chuàng)辦的地平線機(jī)器人，當(dāng)然地平線機(jī)器人除此之外，還提供 ADAS、智能家居等其他嵌入式人工智能解決方案。

　　2、AI芯片國(guó)內(nèi)外代表性企業(yè)

　　本篇將介紹目前人工智能芯片技術(shù)領(lǐng)域的國(guó)內(nèi)外代表性企業(yè)。文中排名不分先后。人工智能芯片技術(shù)領(lǐng)域的國(guó)內(nèi)代表性企業(yè)包括中科寒武紀(jì)、中星微、地平線機(jī)器人、深鑒科技、靈汐科技、啟英泰倫、百度、華為等，國(guó)外包括英偉達(dá)、 AMD、 Google、高通、Nervana Systems、 Movidius、 IBM、 ARM、 CEVA、 MIT/Eyeriss、蘋(píng)果、三星等。

　　中科寒武紀(jì)。寒武紀(jì)科技成立于 2016 年，總部在北京，創(chuàng)始人是中科院計(jì)算所的陳天石、陳云霽兄弟，公司致力于打造各類智能云服務(wù)器、智能終端以及智能機(jī)器人的核心處理器芯片。阿里巴巴創(chuàng)投、聯(lián)想創(chuàng)投、國(guó)科投資、中科圖靈、元禾原點(diǎn)、涌鏵投資聯(lián)合投資，為全球 AI芯片領(lǐng)域第一個(gè)獨(dú)角獸初創(chuàng)公司。

　　寒武紀(jì)是全球第一個(gè)成功流片并擁有成熟產(chǎn)品的 AI 芯片公司，擁有終端 AI 處理器 IP和云端高性能 AI 芯片兩條產(chǎn)品線。 2016 年發(fā)布的寒武紀(jì) 1A 處理器(Cambricon-1A) 是世界首款商用深度學(xué)習(xí)專用處理器，面向智能手機(jī)、安防監(jiān)控、無(wú)人機(jī)、可穿戴設(shè)備以及智能駕駛等各類終端設(shè)備，在運(yùn)行主流智能算法時(shí)性能功耗比全面超越傳統(tǒng)處理器。

　　中星微。1999 年，由多位來(lái)自硅谷的博士企業(yè)家在北京中關(guān)村科技園區(qū)創(chuàng)建了中星微電子有限公司，啟動(dòng)并承擔(dān)了國(guó)家戰(zhàn)略項(xiàng)目——“星光中國(guó)芯工程”,致力于數(shù)字多媒體芯片的開(kāi)發(fā)、設(shè)計(jì)和產(chǎn)業(yè)化。

　　2016 年初，中星微推出了全球首款集成了神經(jīng)網(wǎng)絡(luò)處理器(NPU)的 SVAC 視頻編解碼 SoC，使得智能分析結(jié)果可以與視頻數(shù)據(jù)同時(shí)編碼，形成結(jié)構(gòu)化的視頻碼流。該技術(shù)被廣泛應(yīng)用于視頻監(jiān)控?cái)z像頭，開(kāi)啟了安防監(jiān)控智能化的新時(shí)代。自主設(shè)計(jì)的嵌入式神經(jīng)網(wǎng)絡(luò)處理器(NPU)采用了“數(shù)據(jù)驅(qū)動(dòng)并行計(jì)算” 架構(gòu)，專門針對(duì)深度學(xué)習(xí)算法進(jìn)行了優(yōu)化，具備高性能、低功耗、高集成度、小尺寸等特點(diǎn)，特別適合物聯(lián)網(wǎng)前端智能的需求。

　　▲集成了 NPU 的神經(jīng)網(wǎng)絡(luò)處理器 VC0616 的內(nèi)部結(jié)構(gòu)

　　地平線機(jī)器人(Horizon Robotics)。地平線機(jī)器人成立于 2015 年，總部在北京，創(chuàng)始人是前百度深度學(xué)習(xí)研究院負(fù)責(zé)人余凱。BPU(BrainProcessing Unit) 是地平線機(jī)器人自主設(shè)計(jì)研發(fā)的高效人工智能處理器架構(gòu)IP，支持 ARM/GPU/FPGA/ASIC 實(shí)現(xiàn)，專注于自動(dòng)駕駛、人臉圖像辨識(shí)等專用領(lǐng)域。 2017年，地平線發(fā)布基于高斯架構(gòu)的嵌入式人工智能解決方案，將在智能駕駛、智能生活、公共安防三個(gè)領(lǐng)域進(jìn)行應(yīng)用，第一代 BPU芯片“盤古” 目前已進(jìn)入流片階段，預(yù)計(jì)在 2018年下半年推出，能支持 1080P 的高清圖像輸入，每秒鐘處理 30 幀，檢測(cè)跟蹤數(shù)百個(gè)目標(biāo)。地平線的第一代 BPU 采用 TSMC 的 40nm工藝，相對(duì)于傳統(tǒng) CPU/GPU，能效可以提升 2~3 個(gè)數(shù)量級(jí)(100~1,000 倍左右)。

新聞中心

清華AI芯片報(bào)告：人才技術(shù)趨勢(shì)都在這里

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)