新聞中心

EEPW首頁 > 手機與無線通信 > 業(yè)界動態(tài) > 一文讀懂華為麒麟970為何選擇選擇寒武紀做AI

一文讀懂華為麒麟970為何選擇選擇寒武紀做AI

作者: 時間:2017-09-05 來源:DeepTech 收藏

  上周六,DT 君在柏林 IFA 現(xiàn)場深度報道了最新發(fā)布的移動端 AI 芯片。此后,DT 君獨家專訪了深度參與麒麟 970 方案設(shè)計的一位相關(guān)人士,但這位相關(guān)人士拒絕在文章中透露其姓名及身份。

本文引用地址:http://butianyuan.cn/article/201709/363905.htm

  這位相關(guān)人士表示,麒麟 970 整合NPU(Neural Processing Unit,神經(jīng)處理單元)構(gòu)想早在五年前就已經(jīng)開始醞釀。


  就當初的情況而言,產(chǎn)業(yè)界已經(jīng)看到 CPU 的應用瓶頸,而 GPU 雖然也開始參與計算工作,但其主要的顯示工作隨著分辨率的提高而負擔不斷加重,所以要讓這個已經(jīng)分身乏術(shù)的架構(gòu)繼續(xù)增加負荷,對整體性能以及功耗表現(xiàn)也是會產(chǎn)生負面影響。

  可以說,為追求更高的應用效率,以及更好的功耗表現(xiàn),只讓 CPU 或 GPU 架構(gòu)參與計算已經(jīng)遠遠不夠滿足需求。

  事實上,當初的主流移動芯片架構(gòu)也已經(jīng)不會只內(nèi)建此兩種架構(gòu),而多半會增加額外的 DSP 單元或者是 ISP 架構(gòu),不僅分擔主系統(tǒng)的沉重計算負擔,也因為讓不同類型的計算工作可以擺到更適合的計算架構(gòu)上,整體功耗也有了明顯的改善。

  可以說,AI 正是基于同樣的概念:讓適合的架構(gòu)來做適合的工作,效率才會得到提高。

  圖丨余承東展示

  這位相關(guān)人士對 DT 君表示,在當時就決定了未來 AI 相關(guān)計算,將會以專用架構(gòu)的設(shè)計方式進行,這就好比繪圖工作會交給 GPU 而不是 CPU 是一樣的道理。


寒武紀的生態(tài)經(jīng)營和架構(gòu)優(yōu)勢贏得青睞

  當然,以華為旗下海思的芯片設(shè)計功力,如果要從無到有設(shè)計出專用的 NPU 單元,也不是不可能的事情——此類 NPU 架構(gòu)單純,設(shè)計難度也不會比 CPU 更高,但問題出在生態(tài)方面。

  這位相關(guān)人士表示,如果完全自主開發(fā),從無到有的經(jīng)營生態(tài),華為有可能在未來方案推出時,缺乏市場開發(fā)者以及相關(guān)生態(tài)的支持,恐怕結(jié)果只會是事倍功半。

  眾所周知,寒武紀的前身是中國科學院計算技術(shù)研究所下的一個課題組,由陳云霽、陳天石教授領(lǐng)導。

  該課題組早在 2008 年就已經(jīng)開始研究神經(jīng)網(wǎng)絡(luò)算法以及芯片設(shè)計。寒武紀第一代方案在 2012 年推出,65nm 工藝下功耗為 0.485W,面積 3.02mm2。平均性能超過主流 CPU 核的 100 倍,但面積和功耗僅為 1/10,表現(xiàn)相當驚人?!?/p>

  圖丨寒武紀1A處理器(Cambricon-1A)

  不過,當初寒武紀有個非常直白的命名代號,叫做 DianNao,就是中文拼音的“電腦”——顧名思義就是拿來做計算工作的、用電的“大腦”。當初,這個命名并不是中國人的主意,而是研究團隊中法國人的建議——不用當時已經(jīng)爛大街的神經(jīng)網(wǎng)絡(luò)芯片之類的命名,反其道而行用中文取名,外國人反覺得十分高大上,相當有趣。

  中科院在 DianNao 的基礎(chǔ)上開發(fā)出 DaDianNao(第二代,功能增強)、PuDianNao(第三代,普電腦,通用型機器學習晶片)、ShiDianNao(視電腦,圖像識別處理器)、DianNaoYu(電腦語,神經(jīng)網(wǎng)絡(luò)指令集)等延伸規(guī)格,針對不同應用或目的特化,也看得出研究團隊對命名規(guī)則的堅持。

  這位相關(guān)人士對 DT 君表示,寒武紀實際上是基于對整個軟硬件優(yōu)化的平臺,擁有成熟的硬件,以及軟件界面設(shè)計,生態(tài)支持能力絕佳,且因為知識產(chǎn)權(quán)完全自有,不怕受制于人。也因此,華為一方面為了節(jié)省成本,一方面又要有足夠競爭優(yōu)勢的架構(gòu)設(shè)計,考量二者得出的唯一解答:就是寒武紀了。

  圖丨寒武紀科技

  NPU到底有多強大?

  NPU 本身可達到 1.92 TFLOPS 的半精度(16bits)計算能力,以 IFA Keynote 上提到的應用案例為例,使用 NPU 可在一分鐘內(nèi)辨識超過兩千張圖片。換句話說,每秒可辨識超過 30 張圖片,這對于需要及時分析的場景識別或者是合成,所需要的數(shù)據(jù)分析,已經(jīng)可以達到幾乎實時的地步。

  而就華為給出的 25 倍速度,50 倍效率推算,該 NPU 功耗全負載大約只有 CPU 的一半,如果以計算效率/功耗換算,大概是 0.8 TFLOPS/W,如果以 NVIDIA 的 V100 方案作比較,V100 約為 0.4 TFLOPS/W。

  可見,內(nèi)建的 NPU 效率之高了。


 從云端到本地端硬件的AI應用

  DT 君在之前的報道分析中也提及,云端性能強大,學習快速,但學習得出來的模型是通用模型,很難針對小眾有訂制化的調(diào)整,并滿足消費者的應用場景。

  但過去本地端硬件性能不足,雖然可通過云端學習,但數(shù)據(jù)這么一來一往,效率極低,無法做到實時處理。若本地端硬件擁有強大的 AI 學習能力,那么就不需要把數(shù)據(jù)上傳到云端,直接在本地端處理即可,效率更高,且更能確保數(shù)據(jù)的安全與隱私。


  這位相關(guān)人士表示,環(huán)顧業(yè)界,其實不是只有華為在做終端的 AI 計算工作,但華為提出的方案是以能夠?qū)崿F(xiàn)快速規(guī)?;⒁猿墒斓纳虡I(yè)思維為基礎(chǔ)。其他競爭業(yè)者,比如說高通或蘋果,也都在各自的技術(shù)領(lǐng)域有所成就。

  然而,這個市場目前才處于剛剛在醞釀的時期,所以根本也不存在什么競爭問題。如果產(chǎn)業(yè)競爭者能夠共同把餅做大,讓生態(tài)更成熟,其實整個 AI 的市場規(guī)模足以撐起許多大型企業(yè),而華為搶先卡位,自然是為了屆時能夠處在一個相對優(yōu)勢的市場地位。

  但任何事物的發(fā)展都需要時間,所以只有把眼前的移動生態(tài)先做好,未來才能夠?qū)崿F(xiàn)對其他應用場景的布局。


 那么生態(tài)系統(tǒng)的支持如何拓展?不同架構(gòu)是否會沖突?

  當然,目前業(yè)界采取的 AI 加速芯片設(shè)計,在結(jié)構(gòu)和理念上都各有不同,計算特性也不一致,但這名相關(guān)人士表示,其實也不用擔心未來會有不同架構(gòu)各據(jù)山頭,導致生態(tài)撕裂、餅做大前先起內(nèi)訌的狀況出現(xiàn)。

  由于目前主流操作系統(tǒng)(包括Windows、Linux或Android)都已經(jīng)支持了針對終端 AI 計算的相關(guān)開放規(guī)范,也提供了共同的軟件界面,從而借以接入各種不同架構(gòu)的 AI 加速芯片。

  未來 AI 加速芯片的設(shè)計會有標準功能,也會有作為差異化速求的額外附加功能,前者透過一般標準界面就可存取,后者也同樣是透過標準界面,但只需要小幅修改開發(fā)者端的程式碼即可取用,不會造成業(yè)界的混淆。

  移動應用是短期目標,未來將打生態(tài)戰(zhàn)拓廣其他領(lǐng)域

  這位相關(guān)人士也表示,華為在 IFA 上的應用方向其實是短期目標,由于手機生態(tài)成熟,也容易接受新技術(shù)的導入,而把 AI 加速能力放在手機方案上,最有機會得到回報。

  就當前的三大應用方向而言,包含視覺處理、AR 以及自然語言,都是近來最熱門的高端智能手機應用發(fā)展方向,如果華為能夠用更低的功耗,更好的效率來處理好這些事情,一來可以提升品牌價值,創(chuàng)造更高的利潤,二來熟悉相關(guān)終端 AI 處理技術(shù)之后,也可以把這些方案拓展到其他智能應用上,而不是只有手機而已。

  這位相關(guān)人士也強調(diào),華為內(nèi)部也已經(jīng)有下一個三年計劃,針對未來 AI 技術(shù)的演進,配合市場應用的需要來進行改善和微調(diào),并隨著麒麟芯片的世代更替來推新架構(gòu)。

  圖丨麒麟 970的細部架構(gòu),NPU是最大亮點(資料來源:華為)

  然而,雖然目前手機上的 AI 方案主要都著眼于 Inference(推理),而 Learning(學習)的部分則較少被提及。但憑借 NPU 的導入,一旦性能足夠之后,要做到小規(guī)模的學習也不是不可能的事情,這部分與個人化的使用體驗息息相關(guān),各大廠都不會輕易放過這塊大餅。

  初期以高端方案布局NPU應用,未來將可能打入中端市場,擴大生態(tài)的發(fā)展

  麒麟 970 作為第一代整合 NPU 的應用處理器芯片,定位最高端,也不吝于用最好的工藝,搭最頂尖的計算核心,但考慮到未來市場的走向,AI 應用一定會普及化、平民化,所以未來在相關(guān) AI 芯片的布局規(guī)劃上,肯定會往中端,甚至低端的方向走,但是在 NPU 的規(guī)模方面恐怕就會有所調(diào)整,一方面是成本考量,一方面也是產(chǎn)品定位問題。

  目前,華為正在積極和第三方軟件開發(fā)商合作,希望將整個生態(tài)基礎(chǔ)快速擴大,這方面也不會僅止于 IFA 上所公布的三大應用方向,而是會鼓勵產(chǎn)業(yè)合作伙伴積極嘗試,華為也會盡力協(xié)助合作廠商做出他們想要的 AI 應用。

  這位相關(guān)人士表示,麒麟 970 的發(fā)表只不過是短期指標,長期來看還有不少需要加強的地方,但華為至少已經(jīng)踩出第一步了。雖不能說就已經(jīng)是立于不敗之地,但至少快了競爭對手一些,也讓華為可以提早思考下一步的布局。



關(guān)鍵詞: 華為 麒麟970

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉