AI芯片發(fā)展現(xiàn)狀及前景分析

發(fā)布人：數(shù)據(jù)派THU 時間：2021-05-16 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來源：專知

引言

隨著深度學習領(lǐng)域[1-4]帶來的技術(shù)性突破，人工智能（artificial intelligence，AI）無論在科研還是在產(chǎn)業(yè)應(yīng)用方面都取得了快速的發(fā)展。深度學習算法需要大量的矩陣乘加運算，對大規(guī)模并行計算能力有很高的要求，CPU和傳統(tǒng)計算架構(gòu)無法滿足對于并行計算能力的需求[5]，需要特殊定制的芯片。目前，AI芯片行業(yè)已經(jīng)起步并且發(fā)展迅速[6]。

一、AI芯片定義及技術(shù)架構(gòu)

1.1 AI芯片定義

廣義上所有面向AI應(yīng)用的芯片都可以稱為AI芯片。目前一般認為是針對AI算法做了特殊加速設(shè)計的芯片?，F(xiàn)階段，這些人工智能算法一般以深度學習算法為主，也可以包括其他淺層機器學習算法[7-8]。

1.2 AI芯片功能

（1）訓練。對大量的數(shù)據(jù)在平臺上進行學習，并形成具備特定功能的神經(jīng)網(wǎng)絡(luò)模型。對AI芯片有高算力、高容量和訪問速率、高傳輸速率、通用性的要求。

（2）推理。利用已經(jīng)訓練好的模型通過計算對輸入的數(shù)據(jù)得到各種結(jié)論。對于 AI芯片主要注重算力功耗比、時延、價格成本的綜合能力。實驗證明低精度運算（如float16，int8）可達到幾乎和float32同等的推理效果，所以AI推理芯片有低精度算力的要求。

1.3 技術(shù)架構(gòu)

表1列出了AI芯片的幾種技術(shù)架構(gòu)，并對其優(yōu)缺點進行比較。

表1 AI芯片技術(shù)架構(gòu)

二、AI芯片應(yīng)用場景

2.1 數(shù)據(jù)中心（IDC）

用于云端訓練和推理，目前大多數(shù)的訓練工作都在云端完成[9]。移動互聯(lián)網(wǎng)的視頻內(nèi)容審核、個性化推薦等都是典型的云端推理應(yīng)用。Nvidia GPU在訓練方面一家獨大，在推理方面也保持領(lǐng)軍位置。FPGA和ASIC因為低功耗、低成本的優(yōu)勢，在持續(xù)搶奪GPU的市場的份額。

云端主要的代表芯片有Nvidia-TESLA V100、華為昇騰910、Nvidia-TESLA T4、寒武紀MLU270等。

2.2 移動終端

主要用于移動端的推理，解決云端推理因網(wǎng)絡(luò)延遲帶來的用戶體驗等問題。典型應(yīng)用如視頻特效、語音助手等。通過在手機系統(tǒng)芯片（system on chip，SoC）中加入增加協(xié)處理器或?qū)Ｓ眉铀賳卧獊韺崿F(xiàn)。受制于手機電量，對芯片的功耗有嚴格的限制。代表芯片有Apple A12 Neural Engine（加速引擎）和華為麒麟990。

2.3 安防

目前最為明確的AI芯片應(yīng)用場景，主要任務(wù)是視頻結(jié)構(gòu)化。攝像頭終端加入AI芯片，可以實現(xiàn)實時響應(yīng)、降低帶寬壓力。也可以將推理功能集成在邊緣的服務(wù)器級產(chǎn)品中。AI芯片要有視頻處理和解碼能力。主要考慮的是可處理的視頻路數(shù)以及單路視頻結(jié)構(gòu)化的成本[10]。代表芯片有華為Hi3559-AV100和比特大陸B(tài)M1684等。

2.4 自動駕駛

AI芯片作為無人車的大腦，需要對汽車上大量傳感器產(chǎn)生的數(shù)據(jù)做實時處理[11]，對芯片的算力、功耗、可靠性都有非常高的要求，同時芯片需要滿足車規(guī)標準，因此設(shè)計的難度較大[12]。面向自動駕駛的芯片目前主要有Nvidia Orin、Xavier和Tesla的FSD等。

2.5 智能家居

在AI+IoT時代，智能家居中的每個設(shè)備都需要具備一定的感知、推斷以及決策功能。為了得到更好的智能語音交互用戶體驗，語音AI芯片進入了端側(cè)市場。語音AI芯片相對來說設(shè)計難度低，開發(fā)周期短。代表芯片有思必馳TH1520和云知聲雨燕UniOne等。

三、AI芯片關(guān)鍵技術(shù)和基準測試平臺

3.1 關(guān)鍵技術(shù)和挑戰(zhàn)

（1）AI芯片當前的核心是利用乘加計算（multiplier and accumulation，MAC）陣列來實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)中最主要的卷積運算的加速。MAC陣列的大量運算，會造成功耗的增加。很多AI應(yīng)用的場景對于功耗都有嚴格的限制，如何達到優(yōu)異的性能功耗比是AI芯片研發(fā)的一個重要目標。

（2）深度學習算法中參與計算的數(shù)據(jù)和模型參數(shù)很多，數(shù)據(jù)量龐大，導致內(nèi)存帶寬成為了整個系統(tǒng)的一個瓶頸“，Memory Wall”也是需要優(yōu)化和突破的主要問題[13]。

（3）除了芯片本身硬件的設(shè)計以外，軟件對于AI芯片性能的發(fā)揮也有著十分重要的作用，編譯器和工具鏈軟件的優(yōu)化能力、易用性現(xiàn)在也得到越來越多的重視。

3.2 基準測試平臺

基準測試平臺（Benchmark）為AI芯片建立了標準的評估體系，主要職責和意義有：

（1）基于調(diào)研和集群信息收集，真實反映AI芯片的使用情況。

（2）引入評估和選型標準。

（3）對AI芯片的架構(gòu)定義和優(yōu)化指引方向?；鶞蕼y試平臺的評估指標包括延時（ms）、吞吐量（ims/s）、能效比（ims/s/W）、利用率（ims/s/T）等。主要的基準測試臺有MLPerf、DawnBench（Stanford）、DeepBench（百度）、AI Matrix（阿里巴巴）。

四、AI芯片未來趨勢和探索

4.1 神經(jīng)形態(tài)芯片

神經(jīng)形態(tài)芯片是指顛覆經(jīng)典的馮·諾依曼計算架構(gòu)，采用電子技術(shù)模擬已經(jīng)被證明了的生物腦的運作規(guī)則，從而構(gòu)建類似于生物腦的芯片[14]。

神經(jīng)形態(tài)芯片的優(yōu)點：

（1）計算和存儲融合，突破Memory Wall瓶頸。

（2）去中心化的眾核架構(gòu)，強大的細粒度互聯(lián)能力。

（3）更好的在線學習能力。清華大學、Intel、IBM等學校和企業(yè)都在做此方面的研究工作。

4.2 可重構(gòu)計算芯片

可重構(gòu)計算芯片也叫做軟件定義芯片[6]，主要針對目前AI芯片存在的以下問題和任務(wù)需求：

（1）高效性和靈活性難以平衡。

（2）復雜的AI任務(wù)需要不同類型AI算法任務(wù)的組合。

（3）不同任務(wù)需要的計算精度不同。可重構(gòu)計算芯片的設(shè)計思想在于軟硬件可編程，允許硬件架構(gòu)和功能隨軟件變化而變化，從而可以兼顧靈活性和實現(xiàn)超高的能效比。

五、云端和邊緣側(cè)AI芯片和應(yīng)用

5.1 云端和邊緣側(cè)AI芯片

本研究團隊從2017年開始研發(fā)AI芯片，并在當年發(fā)售了第一代云端專用AI芯片 BM1680。在2019年發(fā)布了第三代AI芯片BM1684。BM1684采用TSMC-12 nm工藝，有17.6Tops的int8和2.2Tflops的float32算力，典型功耗為16W，可以支持32路1080P的高清視頻解碼?；贐M1684芯片，研發(fā)了深度學習加速板卡SC5（如圖1所示）、高密度計算服務(wù)器SA5、邊緣計算盒子SE5、邊緣計算模組SM5等面向各種不同人工智能應(yīng)用的產(chǎn)品。

圖1 深度學習加速板卡SC5

5.2 研發(fā)產(chǎn)品的應(yīng)用

本團隊的AI產(chǎn)品已經(jīng)在云端和邊緣側(cè)的多種應(yīng)用場景下落地使用，包括智慧園區(qū)（如圖2所示）、城市大腦（如圖3所示）、視頻結(jié)構(gòu)化、人臉布控、智能支付等。

圖2 智慧園區(qū)解決方案

圖3 城市大腦應(yīng)用

六、結(jié)論

AI芯片行業(yè)尚處于起步階段，已經(jīng)有越來越多的項目開始落地和商業(yè)化，它的快速發(fā)展有助于推動整個人工智能產(chǎn)業(yè)的進展。本文對AI芯片的現(xiàn)狀和未來可能的技術(shù)方向做了調(diào)研和分析，希望可以幫助讀者更好地了解AI芯片行業(yè)，AI 芯片擁有巨大的產(chǎn)業(yè)價值和戰(zhàn)略地位，相信中國的科研機構(gòu)和企業(yè)會努力抓住機遇，讓中國的人工智能產(chǎn)業(yè)蓬勃發(fā)展。

文獻引用：

安寶磊.AI芯片發(fā)展現(xiàn)狀及前景分析[J].微納電子與智能制造, 2020, 2(1): 91-94.

《微納電子與智能制造》刊號：CN10-1594/TN

主管單位：北京電子控股有限責任公司

主辦單位：北京市電子科技科技情報研究所

北京方略信息科技有限公司

投稿郵箱：tougao@mneim.org.cn（網(wǎng)站：www.mneim.org.cn）

參考文獻：

[1] LECUN Y，BOTTOU L，BENGIO Y，et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE，1998，86( 11) : 2278-2324.

[2] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems.ACM, 2012: 1097-1105.

[3] VINCENT P，LAROCHELLE H，BENGIO Y，et al. Extracting and composing robust features wi- h denoising autoencoders[C]// Proc of the 25th International Conference on Machine Learning. ACM Press，2008: 1096- 1103.

[4] VINCENT P，LAROCHELLE H，LAJOIE I，et al. Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion [J]. Journal of Machine Learning Research，2010，11( 12) : 3371-3408.

[5] 施羽暇 . 人工智能芯片技術(shù)研究[J]. 電信網(wǎng)技術(shù), 2016, 12(12) : 11-13. SHI Y X. Research on artificial intelligence process chip technology[J]. Telecommunication network technology, 2016, 12(12) : 11-13.

[6] 清華大學 . 人工智能芯片技術(shù)白皮書 (2018)[R/OL]. (2018-12-11) [2010-01-20]. https://www.tsinghua.edu.cn/ publish/thunews/9659/2018/20181217102627644168087/ 20181217102627644168087_.html. Tsinghua University. 2018 White Paper on AI Chip Technologies[R/OL]. (2018-12-11)[2010-01-20]. https://www. tsinghua.edu.cn/publish/thunews/9659/2018/2018121710 2627644168087/20181217102627644168087_.html.

[7] BENGIO Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning，2009，2(1) : 1- 127.

[8] HINTON G E. Learning distributed representations of concepts[C]// Proc of the 8th Annual Conference of the Cognitive Science Society. 1986: 1-12.

[9] 尹首一, 郭珩, 魏少軍 . 人工智能芯片發(fā)展的現(xiàn)狀及趨勢[J]. 科技導報, 2018, 17: 45-51. YIN S Y, GUO H, WEI S J. Present situation and future trend of artificial intelligence chips[J]. Science & Technology Review, 2018, 17: 45-51.

[10] 湯煒偉 . AI 安防芯片的發(fā)展現(xiàn)狀與前景分析[J]. 中國安防, 2018, 7: 47-50. TANG W W. Analysis of the development and Prospect of AI security chip[J]. China Security&Protection, 2018, 7: 47-50.

[11] 尹首一 . 人工智能芯片概述[J]. 微納電子與智能制造, 2019, 2: 7-11. YIN S Y. Overview of artificial intelligence chip[J]. Micro/nano Electronics and Intelligent Manufacturing, 2019, 2: 7-11.

[12] 譚洪賀,余凱 . 端側(cè) AI 芯片的挑戰(zhàn)和展望[J]. 人工智能, 2018, 2: 113-121. TAN H H,YU K. The challenge and prospect of edge AI chip[J]. Artificial Intelligence, 2018, 2: 113-121.

[13] 邱賜云, 李禮, 張歡, 等 . 大數(shù)據(jù)時代——從馮 · 諾依曼到計算存儲融合[J]. 計算機科學, 2018, 45(2): 71- 75. QIU C Y, LI L, Z H, et al. Age of big data: from von neumann to computing storage fusion[J]. Computer Science, 2018, 45(2): 71-75.

[14] 趙正平 . 納電子學與神經(jīng)形態(tài)芯片的新進展[J]. 微納電子技術(shù), 2018, 55(1): 1-5. ZHAO Z P. New progress of nanoelectronics and neuromorphic chips[J]. Micronanoelectronic Technology, 2018, 55(1): 1-5

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

AI芯片發(fā)展現(xiàn)狀及前景分析

相關(guān)推薦

技術(shù)專區(qū)