GPU、FPGA、ASIC、TPU四大AI芯片“爭奇斗艷”

作者：時間：2018-09-29 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　AI芯片是當(dāng)前科技產(chǎn)業(yè)和社會關(guān)注的熱點，也是AI技術(shù)發(fā)展過程中不可逾越的關(guān)鍵一環(huán)，不管有什么好的AI算法，要想最終應(yīng)用，就必然要通過芯片實現(xiàn)。

本文引用地址：http://butianyuan.cn/article/201809/392496.htm

　　談AI芯片，就必須先對AI下一個定義。在萊迪斯半導(dǎo)體亞太區(qū)資深事業(yè)發(fā)展經(jīng)理陳英仁看來，“AI神經(jīng)網(wǎng)絡(luò)”不是簡單定義為某類產(chǎn)品，而是一個新的設(shè)計方法，“傳統(tǒng)的一些算法，是照規(guī)則、照邏輯的，神經(jīng)網(wǎng)絡(luò)是用數(shù)據(jù)訓(xùn)練出來的結(jié)果?！蹦墙裉煨【幘徒o大家剖析四大AI芯片。

　　四大AI芯片

　　GPU：又稱顯示核心、視覺處理器、顯示芯片，是一種專門在個人電腦、工作站、游戲機和一些移動設(shè)備(如平板電腦、智能手機等)上圖像運算工作的微處理器。其用途是將計算機系統(tǒng)所需要的顯示信息進(jìn)行轉(zhuǎn)換驅(qū)動，并向顯示器提供行掃描信號，控制顯示器的正確顯示，是連接顯示器和個人電腦主板的重要元件，也是“人機對話”的重要設(shè)備之一。

　　在當(dāng)前的人工智能芯片領(lǐng)域，GPU的應(yīng)用領(lǐng)域不容小覷。據(jù)數(shù)據(jù)顯示，在2008至2015年期間，除了2008年GPU市場規(guī)模稍有下降，其余年份全球獨立顯卡的出貨量和銷售額都呈現(xiàn)出明顯的上升趨勢，并且在2012至2015年有加速上升的表現(xiàn)。

　　FPGA：即現(xiàn)場可編程門陣列，它是在PAL、GAL、CPLD等可編程器件的基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。作為專用集成電路(ASIC)領(lǐng)域中的一種半定制電路而出現(xiàn)的芯片，既解決了定制電路的不足，又克服了原有可編程器件門電路數(shù)有限的缺點。系統(tǒng)設(shè)計師可以根據(jù)需要通過可編輯的連接把FPGA內(nèi)部的邏輯塊連接起來，就好像一個電路試驗板被放在了一個芯片里。

　　目前，國內(nèi)有許多創(chuàng)業(yè)企業(yè)，自動加入FPGA陣營，提供基于FPGA的解決方案。比如源于清華大學(xué)的深鑒科技，專注于深度學(xué)習(xí)處理器與編譯器技術(shù)，深鑒科技研發(fā)了一種名為“深度壓縮”的技術(shù)，它不僅可以將神經(jīng)網(wǎng)絡(luò)壓縮數(shù)十倍而不影響準(zhǔn)確度，還可以使用“片上存儲”來存儲深度學(xué)習(xí)算法模型，減少內(nèi)存讀取，大幅度減少功耗。

　　ASIC：即專用集成電路，是指應(yīng)特定用戶要求和特定電子系統(tǒng)的需要而設(shè)計、制造的集成電路。目前用CPLD(復(fù)雜可編程邏輯器件)和FPGA(現(xiàn)場可編程邏輯陣列)來進(jìn)行ASIC設(shè)計是最為流行的方式之一，它們的共性是都具有用戶現(xiàn)場可編程特性，都支持邊界掃描技術(shù)，但兩者在集成度、速度以及編程方式上具有各自的特點。

　　ASIC的特點是面向特定用戶的需求，品種多、批量少，要求設(shè)計和生產(chǎn)周期短，它作為集成電路技術(shù)與特定用戶的整機或系統(tǒng)技術(shù)緊密結(jié)合的產(chǎn)物，與通用集成電路相比具有體積更小、重量更輕、功耗更低、可靠性提高、性能提高、保密性增強、成本降低等優(yōu)點。

　　TPU(Tensor Processing Unit)：是谷歌研發(fā)的一種神經(jīng)網(wǎng)絡(luò)訓(xùn)練的處理器，主要用于深度學(xué)習(xí)、AI運算。TPU具有像GPU和CPU一樣的編程，以及一套CISC指令集。作為機器學(xué)習(xí)處理器，不僅僅支持某一種神經(jīng)網(wǎng)絡(luò)，還支持卷積神經(jīng)網(wǎng)絡(luò)、LSTM、全連接網(wǎng)絡(luò)等多種。TPU采用低精度(8位)計算，以降低每步操作使用的晶體管數(shù)量。

　　雖然降低精度對于深度學(xué)習(xí)的準(zhǔn)確度影響很小，但卻可以大幅降低功耗、加快運算速度。同時，TPU使用了脈動陣列的設(shè)計，用來優(yōu)化矩陣乘法與卷積運算，減少I/O操作。此外，TPU還采用了更大的片上內(nèi)存，以此減少對DRAM的訪問，從而更大程度地提升性能。