新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 國(guó)內(nèi)AI芯片百家爭(zhēng)鳴,何以抗衡全球技術(shù)寡頭

國(guó)內(nèi)AI芯片百家爭(zhēng)鳴,何以抗衡全球技術(shù)寡頭

作者: 時(shí)間:2018-04-04 來(lái)源:中科院自動(dòng)化所集成中心 收藏
編者按:在人工智能芯片領(lǐng)域,國(guó)外芯片巨頭占據(jù)了絕大部分市場(chǎng)份額,不論是在人才聚集還是公司合并等方面,都具有絕對(duì)的領(lǐng)先優(yōu)勢(shì)。而國(guó)內(nèi)人工智能初創(chuàng)公司則又呈現(xiàn)百家爭(zhēng)鳴、各自為政的紛亂局面。

  對(duì)標(biāo)谷歌 TPU——比特大陸算豐

本文引用地址:http://butianyuan.cn/article/201804/377915.htm

  作為比特幣獨(dú)角獸的比特大陸,在 2015 年開(kāi)始涉足人工智能領(lǐng)域,其在 2017 年發(fā)布的面向 應(yīng)用的張量處理器算豐 Sophon BM1680,是繼谷歌 TPU 之后,全球又一款專(zhuān)門(mén)用于張量計(jì)算加速的專(zhuān)用芯片(ASIC),適用于 CNN / RNN / DNN 的訓(xùn)練和推理。

blob.png

  BM1680 單芯片能夠提供 2TFlops 單精度加速計(jì)算能力,芯片由 64 NPU 構(gòu)成,特殊設(shè)計(jì)的 NPU 調(diào)度引擎(Scheduling Engine)可以提供強(qiáng)大的數(shù)據(jù)吞吐能力,將數(shù)據(jù)輸入到神經(jīng)元核心(Neuron Processor Cores)。BM1680 采用改進(jìn)型脈動(dòng)陣列結(jié)構(gòu)。2018 年比特大陸將發(fā)布第 2 代算豐 芯片 BM1682,計(jì)算力將有大幅提升。

  百家爭(zhēng)鳴——百度、地平線(xiàn)及其他

  在 2017 年的 HotChips 大會(huì)上,百度發(fā)布了XPU,這是一款 256 核、基于 FPGA 的云計(jì)算加速芯片,用于百度的人工智能、數(shù)據(jù)分析、云計(jì)算以及無(wú)人駕駛業(yè)務(wù)。在會(huì)上,百度研究員歐陽(yáng)劍表示,百度設(shè)計(jì)的芯片架構(gòu)突出多樣性,著重于計(jì)算密集型、基于規(guī)則的任務(wù),同時(shí)確保效率、性能和靈活性的最大化。

  歐陽(yáng)劍表示:“FPGA 是高效的,可以專(zhuān)注于特定計(jì)算任務(wù),但缺乏可編程能力。傳統(tǒng) CPU 擅長(zhǎng)通用計(jì)算任務(wù),尤其是基于規(guī)則的計(jì)算任務(wù),同時(shí)非常靈活。GPU 瞄準(zhǔn)了并行計(jì)算,因此有很強(qiáng)大的性能。XPU 則關(guān)注計(jì)算密集型、基于規(guī)則的多樣化計(jì)算任務(wù),希望提高效率和性能,并帶來(lái)類(lèi)似 CPU 的靈活性。

  在 2018 年百度披露更多關(guān)于 XPU 的相關(guān)信息。


blob.png


  2017 年 12 月底,人工智能初創(chuàng)企業(yè)地平線(xiàn)發(fā)布了中國(guó)首款全球領(lǐng)先的嵌入式人工智能芯片——面向智能駕駛的征程(Journey)1.0 處理器和面向智能攝像頭的旭日(Sunrise)1.0 處理器,還有針對(duì)智能駕駛、智能城市和智能商業(yè)三大應(yīng)用場(chǎng)景的人工智能解決方案。“旭日 1.0”和 “征程 1.0” 是完全由地平線(xiàn)自主研發(fā)的人工智能芯片,具有全球領(lǐng)先的性能。

  為了解決應(yīng)用場(chǎng)景中的問(wèn)題,地平線(xiàn)將算法與芯片做了強(qiáng)耦合,用算法來(lái)定義芯片,提升芯片的效率,在高性能的情況下可以保證它的低功耗、低成本。具體芯片參數(shù)尚無(wú)公開(kāi)數(shù)據(jù)。

國(guó)內(nèi)AI芯片百家爭(zhēng)鳴,何以抗衡全球技術(shù)寡頭

  除了百度和地平線(xiàn),國(guó)內(nèi)研究機(jī)構(gòu)如中國(guó)科學(xué)院、北京大學(xué)和清華大學(xué)也有人工智能處理器相關(guān)的成果發(fā)布。

  北京大學(xué)聯(lián)合商湯科技等提出一種基于 FPGA 的快速 Winograd 算法,可以大幅降低算法復(fù)雜度,改善 FPGA 上的 CNN 性能。論文中的實(shí)驗(yàn)使用當(dāng)前最優(yōu)的多種 CNN 架構(gòu)(如 AlexNet 和 VGG16),從而實(shí)現(xiàn)了 FPGA 加速之下的最優(yōu)性能和能耗。在 Xilinx ZCU102 平臺(tái)上達(dá)到了卷積層平均處理速度 1006.4 GOP/s,整體 AlexNet 處理速度 854.6 GOP/s,卷積層平均處理速度 3044.7 GOP/s,整體 VGG16 的處理速度 2940.7 GOP/s。

blob.png

  中國(guó)科學(xué)院計(jì)算機(jī)體系結(jié)構(gòu)國(guó)家重點(diǎn)實(shí)驗(yàn)室在頂級(jí)會(huì)議 HPCA2017 上提出了一種基于數(shù)據(jù)流的處理器架構(gòu),以便適應(yīng)特征圖、神經(jīng)元和突觸等不同層級(jí)的并行計(jì)算,為了實(shí)現(xiàn)這一目標(biāo),該團(tuán)隊(duì)對(duì)單個(gè)處理單元 PE 進(jìn)行重新設(shè)計(jì),使得操作數(shù)可以直接通過(guò)橫向或縱向的總線(xiàn)從片上存儲(chǔ)器獲取,而非傳統(tǒng) PE 只能從上至下或從左至右由相鄰單元獲取。該芯片采用了 TMSC 65nm 工藝,峰值性能為 490.7 GOPs/W。

國(guó)內(nèi)AI芯片百家爭(zhēng)鳴,何以抗衡全球技術(shù)寡頭


評(píng)論


相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉