國內(nèi)AI芯片百家爭鳴，何以抗衡全球技術寡頭

作者：時間：2018-04-04 來源：中科院自動化所集成中心

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

編者按：在人工智能芯片領域，國外芯片巨頭占據(jù)了絕大部分市場份額，不論是在人才聚集還是公司合并等方面，都具有絕對的領先優(yōu)勢。而國內(nèi)人工智能初創(chuàng)公司則又呈現(xiàn)百家爭鳴、各自為政的紛亂局面。

　　對標谷歌 TPU——比特大陸算豐

本文引用地址：http://butianyuan.cn/article/201804/377915.htm

　　作為比特幣獨角獸的比特大陸，在 2015 年開始涉足人工智能領域，其在 2017 年發(fā)布的面向 AI 應用的張量處理器算豐 Sophon BM1680，是繼谷歌 TPU 之后，全球又一款專門用于張量計算加速的專用芯片(ASIC)，適用于 CNN / RNN / DNN 的訓練和推理。

　　BM1680 單芯片能夠提供 2TFlops 單精度加速計算能力，芯片由 64 NPU 構成，特殊設計的 NPU 調(diào)度引擎(Scheduling Engine)可以提供強大的數(shù)據(jù)吞吐能力，將數(shù)據(jù)輸入到神經(jīng)元核心(Neuron Processor Cores)。BM1680 采用改進型脈動陣列結(jié)構。2018 年比特大陸將發(fā)布第 2 代算豐 AI 芯片 BM1682，計算力將有大幅提升。

　　百家爭鳴——百度、地平線及其他

　　在 2017 年的 HotChips 大會上，百度發(fā)布了XPU，這是一款 256 核、基于 FPGA 的云計算加速芯片，用于百度的人工智能、數(shù)據(jù)分析、云計算以及無人駕駛業(yè)務。在會上，百度研究員歐陽劍表示，百度設計的芯片架構突出多樣性，著重于計算密集型、基于規(guī)則的任務，同時確保效率、性能和靈活性的最大化。

　　歐陽劍表示：“FPGA 是高效的，可以專注于特定計算任務，但缺乏可編程能力。傳統(tǒng) CPU 擅長通用計算任務，尤其是基于規(guī)則的計算任務，同時非常靈活。GPU 瞄準了并行計算，因此有很強大的性能。XPU 則關注計算密集型、基于規(guī)則的多樣化計算任務，希望提高效率和性能，并帶來類似 CPU 的靈活性。

　　在 2018 年百度披露更多關于 XPU 的相關信息。

　　2017 年 12 月底，人工智能初創(chuàng)企業(yè)地平線發(fā)布了中國首款全球領先的嵌入式人工智能芯片——面向智能駕駛的征程(Journey)1.0 處理器和面向智能攝像頭的旭日(Sunrise)1.0 處理器，還有針對智能駕駛、智能城市和智能商業(yè)三大應用場景的人工智能解決方案?！靶袢?1.0”和 “征程 1.0” 是完全由地平線自主研發(fā)的人工智能芯片，具有全球領先的性能。

　　為了解決應用場景中的問題，地平線將算法與芯片做了強耦合，用算法來定義芯片，提升芯片的效率，在高性能的情況下可以保證它的低功耗、低成本。具體芯片參數(shù)尚無公開數(shù)據(jù)。

　　除了百度和地平線，國內(nèi)研究機構如中國科學院、北京大學和清華大學也有人工智能處理器相關的成果發(fā)布。

　　北京大學聯(lián)合商湯科技等提出一種基于 FPGA 的快速 Winograd 算法，可以大幅降低算法復雜度，改善 FPGA 上的 CNN 性能。論文中的實驗使用當前最優(yōu)的多種 CNN 架構(如 AlexNet 和 VGG16)，從而實現(xiàn)了 FPGA 加速之下的最優(yōu)性能和能耗。在 Xilinx ZCU102 平臺上達到了卷積層平均處理速度 1006.4 GOP/s，整體 AlexNet 處理速度 854.6 GOP/s，卷積層平均處理速度 3044.7 GOP/s，整體 VGG16 的處理速度 2940.7 GOP/s。

　　中國科學院計算機體系結(jié)構國家重點實驗室在頂級會議 HPCA2017 上提出了一種基于數(shù)據(jù)流的神經(jīng)網(wǎng)絡處理器架構，以便適應特征圖、神經(jīng)元和突觸等不同層級的并行計算，為了實現(xiàn)這一目標，該團隊對單個處理單元 PE 進行重新設計，使得操作數(shù)可以直接通過橫向或縱向的總線從片上存儲器獲取，而非傳統(tǒng) PE 只能從上至下或從左至右由相鄰單元獲取。該芯片采用了 TMSC 65nm 工藝，峰值性能為 490.7 GOPs/W。