AI芯片的過(guò)去和未來(lái)，看這篇文章就夠了

作者：時(shí)間：2018-11-01 來(lái)源：創(chuàng)事記

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

編者按：近幾年，AI技術(shù)的應(yīng)用場(chǎng)景開(kāi)始向移動(dòng)設(shè)備轉(zhuǎn)移，比如汽車(chē)上的自動(dòng)駕駛、手機(jī)上的人臉識(shí)別等。產(chǎn)業(yè)的需求促成了技術(shù)的進(jìn)步，而AI芯片作為產(chǎn)業(yè)的根基，必須達(dá)到更強(qiáng)的性能、更高的效率、更小的體積，才能完成AI技術(shù)從云端到終端的轉(zhuǎn)移。

　　相信你一定還記得擊敗了李世石和柯潔的谷歌“阿爾法狗”(Alpha Go)，那你知道驅(qū)動(dòng)Alpha Go的是什么嗎?

本文引用地址：http://www.butianyuan.cn/article/201811/393690.htm

　　如果你覺(jué)得Alpha Go和人相似，只不過(guò)是把人腦換成了芯片，那么你就大錯(cuò)特錯(cuò)了。擊敗李世石的Alpha Go裝有48個(gè)谷歌的AI 芯片，而這48個(gè)芯片不是安裝在Alpha Go身體里，而是在云端。所以，真正驅(qū)動(dòng)Alpha Go的裝置，看上去是這樣的...

　　因此李世石和柯潔不是輸給了“機(jī)器人”，而是輸給了裝有AI芯片的云工作站。

　　然而近幾年，AI技術(shù)的應(yīng)用場(chǎng)景開(kāi)始向移動(dòng)設(shè)備轉(zhuǎn)移，比如汽車(chē)上的自動(dòng)駕駛、手機(jī)上的人臉識(shí)別等。產(chǎn)業(yè)的需求促成了技術(shù)的進(jìn)步，而AI芯片作為產(chǎn)業(yè)的根基，必須達(dá)到更強(qiáng)的性能、更高的效率、更小的體積，才能完成AI技術(shù)從云端到終端的轉(zhuǎn)移。

　　目前，AI芯片的研發(fā)方向主要分兩種：一是基于傳統(tǒng)馮·諾依曼架構(gòu)的FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列)和ASIC(專(zhuān)用集成電路)芯片，二是模仿人腦神經(jīng)元結(jié)構(gòu)設(shè)計(jì)的類(lèi)腦芯片。其中FPGA和ASIC芯片不管是研發(fā)還是應(yīng)用，都已經(jīng)形成一定規(guī)模;而類(lèi)腦芯片雖然還處于研發(fā)初期，但具備很大潛力，可能在未來(lái)成為行業(yè)內(nèi)的主流。

　　這兩條發(fā)展路線(xiàn)的主要區(qū)別在于，前者沿用馮·諾依曼架構(gòu)，后者采用類(lèi)腦架構(gòu)。你看到的每一臺(tái)電腦，采用的都是馮·諾依曼架構(gòu)。它的核心思路就是處理器和存儲(chǔ)器要分開(kāi)，所以才有了CPU(中央處理器)和內(nèi)存。而類(lèi)腦架構(gòu)，顧名思義，模仿人腦神經(jīng)元結(jié)構(gòu)，因此CPU、內(nèi)存和通信部件都集成在一起。

　　接下來(lái)小探將為讀者分別介紹兩種架構(gòu)的簡(jiǎn)要發(fā)展史、技術(shù)特點(diǎn)和代表性產(chǎn)品。

從GPU到FPGA和ASIC芯片

　　2007年以前，受限于當(dāng)時(shí)算法和數(shù)據(jù)等因素，AI對(duì)芯片還沒(méi)有特別強(qiáng)烈的需求，通用的CPU芯片即可提供足夠的計(jì)算能力。比如現(xiàn)在在讀這篇文章的你，手機(jī)或電腦里就有CPU芯片。

　　之后由于高清視頻和游戲產(chǎn)業(yè)的快速發(fā)展，GPU(圖形處理器)芯片取得迅速的發(fā)展。因?yàn)镚PU有更多的邏輯運(yùn)算單元用于處理數(shù)據(jù)，屬于高并行結(jié)構(gòu)，在處理圖形數(shù)據(jù)和復(fù)雜算法方面比CPU更有優(yōu)勢(shì)，又因?yàn)锳I深度學(xué)習(xí)的模型參數(shù)多、數(shù)據(jù)規(guī)模大、計(jì)算量大，此后一段時(shí)間內(nèi)GPU代替了CPU，成為當(dāng)時(shí)AI芯片的主流。

　　GPU比CPU有更多的邏輯運(yùn)算單元(ALU) 圖片來(lái)自網(wǎng)絡(luò)，版權(quán)屬于作者

　　然而GPU畢竟只是圖形處理器，不是專(zhuān)門(mén)用于AI深度學(xué)習(xí)的芯片，自然存在不足，比如在執(zhí)行AI應(yīng)用時(shí)，其并行結(jié)構(gòu)的性能無(wú)法充分發(fā)揮，導(dǎo)致能耗高。

　　與此同時(shí)，AI技術(shù)的應(yīng)用日益增長(zhǎng)，在教育、醫(yī)療、無(wú)人駕駛等領(lǐng)域都能看到AI的身影。然而GPU芯片過(guò)高的能耗無(wú)法滿(mǎn)足產(chǎn)業(yè)的需求，因此取而代之的是FPGA芯片，和ASIC芯片。

　　那么這兩種芯片的技術(shù)特點(diǎn)分別是什么呢?又有什么代表性的產(chǎn)品呢?

“萬(wàn)能芯片”FPGA

　　FPGA(FIELD-PROGRAMMABLEGATEARRAY)，即“現(xiàn)場(chǎng)可編程門(mén)陣列”，是在PAL、GAL、CPLD等可編程器件的基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。

　　FPGA可以被理解為“萬(wàn)能芯片”。用戶(hù)通過(guò)燒入FPGA配置文件，來(lái)定義這些門(mén)電路以及存儲(chǔ)器之間的連線(xiàn)，用硬件描述語(yǔ)言(HDL)對(duì)FPGA的硬件電路進(jìn)行設(shè)計(jì)。每完成一次燒錄，F(xiàn)PGA內(nèi)部的硬件電路就有了確定的連接方式，具有了一定的功能，輸入的數(shù)據(jù)只需要依次經(jīng)過(guò)各個(gè)門(mén)電路，就可以得到輸出結(jié)果。

　　用大白話(huà)說(shuō)，“萬(wàn)能芯片”就是你需要它有哪些功能、它就能有哪些功能的芯片。

　　盡管叫“萬(wàn)能芯片”，F(xiàn)PGA也不是沒(méi)有缺陷。正因?yàn)镕PGA的結(jié)構(gòu)具有較高靈活性，量產(chǎn)中單塊芯片的成本也比ASIC芯片高，并且在性能上，F(xiàn)PGA芯片的速度和能耗相比ASIC芯片也做出了妥協(xié)。

　　也就是說(shuō)，“萬(wàn)能芯片”雖然是個(gè)“多面手”，但它的性能比不上ASIC芯片，價(jià)格也比ASIC芯片更高。

　　但是在芯片需求還未成規(guī)模、深度學(xué)習(xí)算法需要不斷迭代改進(jìn)的情況下，具備可重構(gòu)特性的FPGA芯片適應(yīng)性更強(qiáng)。因此用FPGA來(lái)實(shí)現(xiàn)半定制人工智能芯片，毫無(wú)疑問(wèn)是保險(xiǎn)的選擇。

　　目前，F(xiàn)PGA芯片市場(chǎng)被美國(guó)廠(chǎng)商Xilinx和Altera瓜分。據(jù)國(guó)外媒體Marketwatch的統(tǒng)計(jì)，前者占全球市場(chǎng)份額50%、后者占35%左右，兩家廠(chǎng)商霸占了85%的市場(chǎng)份額，專(zhuān)利達(dá)到6000多項(xiàng)，毫無(wú)疑問(wèn)是行業(yè)里的兩座大山。

　　Xilinx的FPGA芯片從低端到高端，分為四個(gè)系列，分別是Spartan、Artix、Kintex、Vertex，芯片工藝也從45到16納米不等。芯片工藝水平越高，芯片越小。其中Spartan和Artix主要針對(duì)民用市場(chǎng)，應(yīng)用包括無(wú)人駕駛、智能家居等;Kintex和Vertex主要針對(duì)軍用市場(chǎng)，應(yīng)用包括國(guó)防、航空航天等。

　　Xilinx的Spartan系列FPGA芯片圖片來(lái)自網(wǎng)絡(luò)，版權(quán)屬于作者

　　我們?cè)僬f(shuō)說(shuō)Xilinx的老對(duì)手Altera。Altera的主流FPGA芯片分為兩大類(lèi)，一種側(cè)重低成本應(yīng)用，容量中等，性能可以滿(mǎn)足一般的應(yīng)用需求，如Cyclone和MAX系列;還有一種側(cè)重于高性能應(yīng)用，容量大，性能能滿(mǎn)足各類(lèi)高端應(yīng)用，如Startix和Arria系列。Altera的FPGA芯片主要應(yīng)用在消費(fèi)電子、無(wú)線(xiàn)通信、軍事航空等領(lǐng)域。

　　專(zhuān)用集成電路ASIC

　　在AI產(chǎn)業(yè)應(yīng)用大規(guī)模興起之前，使用FPGA這類(lèi)適合并行計(jì)算的通用芯片來(lái)實(shí)現(xiàn)加速，可以避免研發(fā)ASIC這種定制芯片的高投入和風(fēng)險(xiǎn)。

　　但就像我們剛才說(shuō)到的，由于通用芯片的設(shè)計(jì)初衷并非專(zhuān)門(mén)針對(duì)深度學(xué)習(xí)，因此FPGA難免存在性能、功耗等方面的瓶頸。隨著人工智能應(yīng)用規(guī)模的擴(kuò)大，這類(lèi)問(wèn)題將日益突出。換句話(huà)說(shuō)，我們對(duì)人工智能所有的美好設(shè)想，都需要芯片追上人工智能迅速發(fā)展的步伐。如果芯片跟不上，就會(huì)成為人工智能發(fā)展的瓶頸。

　　所以，隨著近幾年人工智能算法和應(yīng)用領(lǐng)域的快速發(fā)展，以及研發(fā)上的成果和工藝上的逐漸成熟，ASIC芯片正在成為人工智能計(jì)算芯片發(fā)展的主流。

　　ASIC芯片是針對(duì)特定需求而定制的專(zhuān)用芯片。雖然犧牲了通用性，但ASIC無(wú)論是在性能、功耗還是體積上，都比FPGA和GPU芯片有優(yōu)勢(shì)，特別是在需要芯片同時(shí)具備高性能、低功耗、小體積的移動(dòng)端設(shè)備上，比如我們手上的手機(jī)。

　　但是，因?yàn)槠渫ㄓ眯缘?，ASIC芯片的高研發(fā)成本也可能會(huì)帶來(lái)高風(fēng)險(xiǎn)。然而如果考慮市場(chǎng)因素，ASIC芯片其實(shí)是行業(yè)的發(fā)展大趨勢(shì)。

　　為什么這么說(shuō)呢?因?yàn)閺姆?wù)器、計(jì)算機(jī)到無(wú)人駕駛汽車(chē)、無(wú)人機(jī)，再到智能家居的各類(lèi)家電，海量的設(shè)備需要引入人工智能計(jì)算能力和感知交互能力。出于對(duì)實(shí)時(shí)性的要求，以及訓(xùn)練數(shù)據(jù)隱私等考慮，這些能力不可能完全依賴(lài)云端，必須要有本地的軟硬件基礎(chǔ)平臺(tái)支撐。而ASIC芯片高性能、低功耗、小體積的特點(diǎn)恰好能滿(mǎn)足這些需求。

　ASIC芯片市場(chǎng)百家爭(zhēng)鳴

　　2016年，英偉達(dá)發(fā)布了專(zhuān)門(mén)用于加速AI計(jì)算的TeslaP100芯片，并且在2017年升級(jí)為T(mén)eslaV100。在訓(xùn)練超大型神經(jīng)網(wǎng)絡(luò)模型時(shí)，TeslaV100可以為深度學(xué)習(xí)相關(guān)的模型訓(xùn)練和推斷應(yīng)用提供高達(dá)125萬(wàn)億次每秒的張量計(jì)算(張量計(jì)算是AI深度學(xué)習(xí)中最經(jīng)常用到的計(jì)算)。然而在最高性能模式下，TeslaV100的功耗達(dá)到了300W，雖然性能強(qiáng)勁，但也毫無(wú)疑問(wèn)是顆“核彈”，因?yàn)樘M(fèi)電了。