一文讀懂華為麒麟970為何選擇選擇寒武紀(jì)做AI

作者：時間：2017-09-05 來源：DeepTech

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　上周六，DT 君在柏林 IFA 現(xiàn)場深度報道了華為最新發(fā)布的移動端 AI 芯片。此后，DT 君獨(dú)家專訪了深度參與麒麟 970 方案設(shè)計的一位相關(guān)人士，但這位相關(guān)人士拒絕在文章中透露其姓名及身份。

本文引用地址：http://www.butianyuan.cn/article/201709/363905.htm

　　這位相關(guān)人士表示，麒麟 970 整合NPU(Neural Processing Unit，神經(jīng)處理單元)構(gòu)想早在五年前就已經(jīng)開始醞釀。

　　就當(dāng)初的情況而言，產(chǎn)業(yè)界已經(jīng)看到 CPU 的應(yīng)用瓶頸，而 GPU 雖然也開始參與計算工作，但其主要的顯示工作隨著分辨率的提高而負(fù)擔(dān)不斷加重，所以要讓這個已經(jīng)分身乏術(shù)的架構(gòu)繼續(xù)增加負(fù)荷，對整體性能以及功耗表現(xiàn)也是會產(chǎn)生負(fù)面影響。

　　可以說，為追求更高的應(yīng)用效率，以及更好的功耗表現(xiàn)，只讓 CPU 或 GPU 架構(gòu)參與計算已經(jīng)遠(yuǎn)遠(yuǎn)不夠滿足需求。

　　事實上，當(dāng)初的主流移動芯片架構(gòu)也已經(jīng)不會只內(nèi)建此兩種架構(gòu)，而多半會增加額外的 DSP 單元或者是 ISP 架構(gòu)，不僅分擔(dān)主系統(tǒng)的沉重計算負(fù)擔(dān)，也因為讓不同類型的計算工作可以擺到更適合的計算架構(gòu)上，整體功耗也有了明顯的改善。

　　可以說，AI 正是基于同樣的概念：讓適合的架構(gòu)來做適合的工作，效率才會得到提高。

　　圖丨余承東展示麒麟970

　　這位相關(guān)人士對 DT 君表示，華為在當(dāng)時就決定了未來 AI 相關(guān)計算，將會以專用架構(gòu)的設(shè)計方式進(jìn)行，這就好比繪圖工作會交給 GPU 而不是 CPU 是一樣的道理。

寒武紀(jì)的生態(tài)經(jīng)營和架構(gòu)優(yōu)勢贏得華為青睞

　　當(dāng)然，以華為旗下海思的芯片設(shè)計功力，如果要從無到有設(shè)計出專用的 NPU 單元，也不是不可能的事情——此類 NPU 架構(gòu)單純，設(shè)計難度也不會比 CPU 更高，但問題出在生態(tài)方面。

　　這位相關(guān)人士表示，如果完全自主開發(fā)，從無到有的經(jīng)營生態(tài)，華為有可能在未來方案推出時，缺乏市場開發(fā)者以及相關(guān)生態(tài)的支持，恐怕結(jié)果只會是事倍功半。

　　眾所周知，寒武紀(jì)的前身是中國科學(xué)院計算技術(shù)研究所下的一個課題組，由陳云霽、陳天石教授領(lǐng)導(dǎo)。

　　該課題組早在 2008 年就已經(jīng)開始研究神經(jīng)網(wǎng)絡(luò)算法以及芯片設(shè)計。寒武紀(jì)第一代方案在 2012 年推出，65nm 工藝下功耗為 0.485W，面積 3.02mm2。平均性能超過主流 CPU 核的 100 倍，但面積和功耗僅為 1/10，表現(xiàn)相當(dāng)驚人?！?/p>

　　圖丨寒武紀(jì)1A處理器(Cambricon-1A)

　　不過，當(dāng)初寒武紀(jì)有個非常直白的命名代號，叫做 DianNao，就是中文拼音的“電腦”——顧名思義就是拿來做計算工作的、用電的“大腦”。當(dāng)初，這個命名并不是中國人的主意，而是研究團(tuán)隊中法國人的建議——不用當(dāng)時已經(jīng)爛大街的神經(jīng)網(wǎng)絡(luò)芯片之類的命名，反其道而行用中文取名，外國人反覺得十分高大上，相當(dāng)有趣。

　　中科院在 DianNao 的基礎(chǔ)上開發(fā)出 DaDianNao(第二代，功能增強(qiáng))、PuDianNao(第三代，普電腦，通用型機(jī)器學(xué)習(xí)晶片)、ShiDianNao(視電腦，圖像識別處理器)、DianNaoYu(電腦語，神經(jīng)網(wǎng)絡(luò)指令集)等延伸規(guī)格，針對不同應(yīng)用或目的特化，也看得出研究團(tuán)隊對命名規(guī)則的堅持。

　　這位相關(guān)人士對 DT 君表示，寒武紀(jì)實際上是基于對整個軟硬件優(yōu)化的平臺，擁有成熟的硬件，以及軟件界面設(shè)計，生態(tài)支持能力絕佳，且因為知識產(chǎn)權(quán)完全自有，不怕受制于人。也因此，華為一方面為了節(jié)省成本，一方面又要有足夠競爭優(yōu)勢的架構(gòu)設(shè)計，考量二者得出的唯一解答：就是寒武紀(jì)了。

　　圖丨寒武紀(jì)科技

　　NPU到底有多強(qiáng)大?

　　NPU 本身可達(dá)到 1.92 TFLOPS 的半精度(16bits)計算能力，以 IFA Keynote 上提到的應(yīng)用案例為例，使用 NPU 可在一分鐘內(nèi)辨識超過兩千張圖片。換句話說，每秒可辨識超過 30 張圖片，這對于需要及時分析的場景識別或者是合成，所需要的數(shù)據(jù)分析，已經(jīng)可以達(dá)到幾乎實時的地步。

　　而就華為給出的 25 倍速度，50 倍效率推算，該 NPU 功耗全負(fù)載大約只有 CPU 的一半，如果以計算效率/功耗換算，大概是 0.8 TFLOPS/W，如果以 NVIDIA 的 V100 方案作比較，V100 約為 0.4 TFLOPS/W。

　　可見，麒麟970內(nèi)建的 NPU 效率之高了。

　從云端到本地端硬件的AI應(yīng)用

　　DT 君在之前的報道分析中也提及，云端性能強(qiáng)大，學(xué)習(xí)快速，但學(xué)習(xí)得出來的模型是通用模型，很難針對小眾有訂制化的調(diào)整，并滿足消費(fèi)者的應(yīng)用場景。

　　但過去本地端硬件性能不足，雖然可通過云端學(xué)習(xí)，但數(shù)據(jù)這么一來一往，效率極低，無法做到實時處理。若本地端硬件擁有強(qiáng)大的 AI 學(xué)習(xí)能力，那么就不需要把數(shù)據(jù)上傳到云端，直接在本地端處理即可，效率更高，且更能確保數(shù)據(jù)的安全與隱私。

　　這位相關(guān)人士表示，環(huán)顧業(yè)界，其實不是只有華為在做終端的 AI 計算工作，但華為提出的方案是以能夠?qū)崿F(xiàn)快速規(guī)?；?，并以成熟的商業(yè)思維為基礎(chǔ)。其他競爭業(yè)者，比如說高通或蘋果，也都在各自的技術(shù)領(lǐng)域有所成就。

　　然而，這個市場目前才處于剛剛在醞釀的時期，所以根本也不存在什么競爭問題。如果產(chǎn)業(yè)競爭者能夠共同把餅做大，讓生態(tài)更成熟，其實整個 AI 的市場規(guī)模足以撐起許多大型企業(yè)，而華為搶先卡位，自然是為了屆時能夠處在一個相對優(yōu)勢的市場地位。

　　但任何事物的發(fā)展都需要時間，所以只有把眼前的移動生態(tài)先做好，未來才能夠?qū)崿F(xiàn)對其他應(yīng)用場景的布局。

　那么生態(tài)系統(tǒng)的支持如何拓展?不同架構(gòu)是否會沖突?

　　當(dāng)然，目前業(yè)界采取的 AI 加速芯片設(shè)計，在結(jié)構(gòu)和理念上都各有不同，計算特性也不一致，但這名相關(guān)人士表示，其實也不用擔(dān)心未來會有不同架構(gòu)各據(jù)山頭，導(dǎo)致生態(tài)撕裂、餅做大前先起內(nèi)訌的狀況出現(xiàn)。

　　由于目前主流操作系統(tǒng)(包括Windows、Linux或Android)都已經(jīng)支持了針對終端 AI 計算的相關(guān)開放規(guī)范，也提供了共同的軟件界面，從而借以接入各種不同架構(gòu)的 AI 加速芯片。

　　未來 AI 加速芯片的設(shè)計會有標(biāo)準(zhǔn)功能，也會有作為差異化速求的額外附加功能，前者透過一般標(biāo)準(zhǔn)界面就可存取，后者也同樣是透過標(biāo)準(zhǔn)界面，但只需要小幅修改開發(fā)者端的程式碼即可取用，不會造成業(yè)界的混淆。

　　移動應(yīng)用是短期目標(biāo)，未來將打生態(tài)戰(zhàn)拓廣其他領(lǐng)域

　　這位相關(guān)人士也表示，華為在 IFA 上的應(yīng)用方向其實是短期目標(biāo)，由于手機(jī)生態(tài)成熟，也容易接受新技術(shù)的導(dǎo)入，而把 AI 加速能力放在手機(jī)方案上，最有機(jī)會得到回報。

　　就當(dāng)前的三大應(yīng)用方向而言，包含視覺處理、AR 以及自然語言，都是近來最熱門的高端智能手機(jī)應(yīng)用發(fā)展方向，如果華為能夠用更低的功耗，更好的效率來處理好這些事情，一來可以提升品牌價值，創(chuàng)造更高的利潤，二來熟悉相關(guān)終端 AI 處理技術(shù)之后，也可以把這些方案拓展到其他智能應(yīng)用上，而不是只有手機(jī)而已。

　　這位相關(guān)人士也強(qiáng)調(diào)，華為內(nèi)部也已經(jīng)有下一個三年計劃，針對未來 AI 技術(shù)的演進(jìn)，配合市場應(yīng)用的需要來進(jìn)行改善和微調(diào)，并隨著麒麟芯片的世代更替來推新架構(gòu)。

　　圖丨麒麟 970的細(xì)部架構(gòu)，NPU是最大亮點(diǎn)(資料來源：華為)

　　然而，雖然目前手機(jī)上的 AI 方案主要都著眼于 Inference(推理)，而 Learning(學(xué)習(xí))的部分則較少被提及。但憑借 NPU 的導(dǎo)入，一旦性能足夠之后，要做到小規(guī)模的學(xué)習(xí)也不是不可能的事情，這部分與個人化的使用體驗息息相關(guān)，各大廠都不會輕易放過這塊大餅。

　　初期以高端方案布局NPU應(yīng)用，未來將可能打入中端市場，擴(kuò)大生態(tài)的發(fā)展

　　麒麟 970 作為第一代整合 NPU 的應(yīng)用處理器芯片，定位最高端，也不吝于用最好的工藝，搭最頂尖的計算核心，但考慮到未來市場的走向，AI 應(yīng)用一定會普及化、平民化，所以未來在相關(guān) AI 芯片的布局規(guī)劃上，肯定會往中端，甚至低端的方向走，但是在 NPU 的規(guī)模方面恐怕就會有所調(diào)整，一方面是成本考量，一方面也是產(chǎn)品定位問題。

　　目前，華為正在積極和第三方軟件開發(fā)商合作，希望將整個生態(tài)基礎(chǔ)快速擴(kuò)大，這方面也不會僅止于 IFA 上所公布的三大應(yīng)用方向，而是會鼓勵產(chǎn)業(yè)合作伙伴積極嘗試，華為也會盡力協(xié)助合作廠商做出他們想要的 AI 應(yīng)用。

　　這位相關(guān)人士表示，麒麟 970 的發(fā)表只不過是短期指標(biāo)，長期來看還有不少需要加強(qiáng)的地方，但華為至少已經(jīng)踩出第一步了。雖不能說就已經(jīng)是立于不敗之地，但至少快了競爭對手一些，也讓華為可以提早思考下一步的布局。

新聞中心

一文讀懂華為麒麟970為何選擇選擇寒武紀(jì)做AI

評論

相關(guān)推薦

技術(shù)專區(qū)