AI芯片能力亟需提高，數(shù)據(jù)仍是AI核心

作者：時間：2018-05-04 來源：電子產(chǎn)品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

作者/上海兆芯集成電路有限公司GPU架構總設計師顧德明

本文引用地址：http://www.butianyuan.cn/article/201805/379457.htm

目前，全球技術正面臨著一場巨大的變革，智能無處不在的浪潮已然悄然到來！政府先后推出《新一代人工智能發(fā)展規(guī)劃》和《促進新一代人工智能發(fā)展三年行動計劃（2018-2020年）》，把AI提高到國家戰(zhàn)略層次，建立了相對完整的研發(fā)促進機制，協(xié)同推進AI發(fā)展。當下，傳統(tǒng)行業(yè)例如工業(yè)控制、醫(yī)療影像、零售、汽車、安防等都在思考如何向智能方向轉型。

作為AI核心的處理器技術，其最新發(fā)展為設計人員在統(tǒng)一的智能控制模型下實現(xiàn)創(chuàng)新帶來了良機。通過在控制層面對性能、功能作詳細分析，利用統(tǒng)一的標準處理器內(nèi)核架構，設計人員不但能夠以極具競爭力的價格獲得最優(yōu)解決方案，還可以通過軟件復用來降低軟件的開發(fā)成本，大幅縮短設計周期。

x86作為行業(yè)的主流處理器，其架構的優(yōu)點在于功能強大，而且通用性、兼容性、實用性強，應用范圍廣。傳統(tǒng)應用領域可以在不影響其核心業(yè)務的情況下，采用x86+AI加速器的方式獲得智能方向的新探索，從而讓應用快速落地。

除此之外，與深鑒科技、寒武紀科技等國內(nèi)AI創(chuàng)業(yè)公司在細分行業(yè)領域的垂直深耕不同，兆芯還注重于解決AI服務端的訓練和推理的芯片問題。這個領域難度高，挑戰(zhàn)大，對于國家安全和國內(nèi)AI產(chǎn)業(yè)未來的可持續(xù)性發(fā)展具有深遠的意義。

現(xiàn)階段，服務端的AI芯片仍被國外完全壟斷，以NVIDIA為首的GPU AI目前占有絕對的領先地位。Amazon、Google、Microsoft等國外公司也為自己的云服務平臺開發(fā)了專屬的ASIC芯片（雖然并不能像NVIDIA兼容龐大的生態(tài)，但是具有不錯的能耗比）。

好的服務端芯片，不僅要兼容各類AI框架軟件生態(tài)，還需要硬件擁有高能效比、可虛擬化等諸多特點。

兆芯研制的基于GPU框架的可編程AI芯片能很好地滿足服務端的需求，不僅可以兼容NVIDIA創(chuàng)造的生態(tài)環(huán)境，做到即插即用，其獨有的壓縮技術和AI加速器還能讓芯片具有傳統(tǒng)GPU無法達到的高能效比。

目前AI技術仍處于起步階段，監(jiān)督學習仍是主要的手段。AI的主流分支--深度學習技術也將隨著計算力的不斷提升，創(chuàng)造出更加智能的落地應用。

在兆芯看來，短期內(nèi)，AI的發(fā)展趨勢有如下特點：

1. 網(wǎng)絡的復雜度和訓練集的規(guī)模將會進一步提高，計算復雜度將達到一個新的高度。

2. 帶label的數(shù)據(jù)將成為AI發(fā)展階段最有價值的資源。

3. 傳統(tǒng)的AI是在設計好的網(wǎng)絡結構下訓練未知參數(shù)，而最新的方法利用GAN類似的機制，可以將網(wǎng)絡訓練成一個更高精度的全新網(wǎng)絡框架，而不需要設計者參與。這對于做框架算法的人也帶來了巨大的挑戰(zhàn)--他們該如何在這個重數(shù)據(jù)的AI時代突破重圍，將AI帶到更高的臺階。

4. CNN等網(wǎng)絡的安全性問題，例如pixel攻擊（通過干擾讓目標識別錯誤，或者認定為指定目標），這也對現(xiàn)有的應用安全落地帶來了極大的挑戰(zhàn)。因為在某些應用中安全性是致命的決定因素，如自動駕駛。

5. 另外新興的網(wǎng)絡如capsule是否有機會替代現(xiàn)有CNN網(wǎng)絡，這些對于不能軟件編程的AI芯片來說也許是致命的。

AI芯片設計面臨速度、安全及兼容的挑戰(zhàn)

這些動向對兆芯的處理器設計和AI芯片設計都提出了一系列的挑戰(zhàn)。

處理器技術決定互聯(lián)、智慧與傳統(tǒng)制造業(yè)的融合度，從而帶動產(chǎn)業(yè)鏈上下游企業(yè)競相入局。AI對處理器設計提出了更高的要求。如邊緣計算，AI設備需要高度集成，低功耗的專用解決方案，因此可以選擇將專用AI模塊集成到SoC內(nèi)部，并對SoC訪存系統(tǒng)進行優(yōu)化，滿足AI模塊的高帶寬需求，同時可以通過內(nèi)置硬件編解碼器，提升視頻的處理性能。在云端計算層面，可以選擇支持多PCI-E 3.0接口，連接GPU或AI加速卡，構建AI運算平臺。傳統(tǒng)行業(yè)設計人員可以復用部分原始軟件代碼，將智能功能調(diào)用AI完成，從而降低軟件的開發(fā)成本，并大幅縮短新產(chǎn)品設計周期。

而在AI芯片設計方面，具體挑戰(zhàn)如下：

1. 網(wǎng)絡復雜度提高，意味著需要更高的計算能力。如何在現(xiàn)有的工藝限定下，最大限度地提高有效計算力（有效計算力，指的是實際的處理速度，而不是物理上的計算單元數(shù)目）。這就要求大家能夠最大限度地解決帶寬、芯片互聯(lián)、功耗、同步等問題，這些是決定芯片效率的關鍵因素。

2. 由深度學習產(chǎn)生的非規(guī)則的網(wǎng)絡結構，雖然效果好，但是復雜的連接關系會令傳統(tǒng)ASIC AI芯片更加難以優(yōu)化加速。

3. 安全性問題是AI最為敏感話題，也是新的網(wǎng)絡結構的需求，或者說下一代的AI網(wǎng)絡結構需要解決的問題。

4. 新興網(wǎng)絡，如capsule,雖然解決了CNN網(wǎng)絡諸多問題，也引出了與現(xiàn)有硬件不太適應的問題。如何提好訓練效率，如何設計硬件讓其在可編程性和高效之間達到一個平衡點，來滿足不斷演進的算法需求，是芯片設計商的設計原則。

x86+外接AI PCIe加速卡及AI計算芯片

兆芯是國內(nèi)僅有的同時掌握中央處理器（CPU）、圖形處理器（GPU）、芯片組（Chipset）三大核心技術的公司，擁有三大核心芯片及相關IP的完全自主設計研發(fā)能力，全部研發(fā)環(huán)節(jié)透明可控。因此，我們可以利用自身優(yōu)勢，針對AI應用需求，優(yōu)化產(chǎn)品設計，為客戶提供高效、高性能、低功耗的解決方案。

目前，兆芯產(chǎn)品已經(jīng)廣泛應用于臺式機、筆記本、一體機、存儲服務器、磁盤陣列、工控整機等多種形態(tài)產(chǎn)品，是國內(nèi)唯一具備無縫替代國外同類產(chǎn)品條件的國產(chǎn)自主可控通用CPU。

面對AI需求的迅速崛起，我們正在思考如何對這些產(chǎn)品形態(tài)進行智能升級，通過x86+外接AI PCIe加速卡的方式構建運算平臺加速應用落地。

與此同時，兆芯已經(jīng)利用自己GPU技術的獨特優(yōu)勢，設計了全新的AI計算芯片：

1. 基于兆芯GPU的AI硬件加速框架很好的解決了：

2多計算單元的并行性管理和可擴展性問題

2軟件生態(tài)的兼容性問題，支持OpenCL，CUDA等GPGPU API

2. 獨有專用加速器在能效比和可編程性之間做了很好的折中

3. 新型壓縮技術大幅降低了芯片的帶寬需求，從而有效的提高了計算單元和加速器利用率

4. 支持硬件虛擬化

5. 靈活的GPGPU編程，可以適應多樣算法變革，全新同步機制可以高效完成多局部和多芯片同步，較好的適應新興的網(wǎng)絡結構

6. 在解決安全的方向上，如視覺攻擊，兆芯利用自主設計的視覺芯片和深度學習相結合的方式大幅度降低了攻擊成功的概率

總之，對于AI來講，目前仍處于一個開始的階段，數(shù)據(jù)仍是整個AI的核心，硬件和軟件架構都在不斷的相互變化中，每一次硬件變革都會帶來軟件變化，軟件變化，工藝變化又會促進硬件的進一步改良。對于兆芯來講，我們一方面會不斷演進加速器設計，讓其更好的加速主流算法，同時會保留足夠通用編程靈活性，給新的算法創(chuàng)造好的并行計算環(huán)境，也為國內(nèi)AI高端芯片自主可控發(fā)展貢獻力量。