靠譜嗎？這家新公司在做“存算一體AI芯片”

作者：王瑩時間：2018-07-05 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　做AI(人工智能)芯片已經(jīng)很了不起，拓寬計算、存儲之間的狹路也很不易，二者都是世界性的熱點課題。沒想到，今年3月才開始運營的這家公司聲稱要做“存算一體化”AI 芯片，目前研發(fā)人員只有十幾名!

本文引用地址：http://www.butianyuan.cn/article/201807/382812.htm

　　這家公司究竟有何高招?

　　近日在京舉辦的“安創(chuàng)成長營”第五期路演上，北京知存科技有限公司CEO王紹迪博士介紹了他們做的存算一體化的AI 芯片，特點是低成本、低功耗，目標是讓AI設(shè)備無所不在。

　　AI潛力巨大

　　AI目前還處于發(fā)展階段，當前落地的應(yīng)用場景較少，沒有達到社會的期望。隨著AI算法的進步以及芯片算力的提升，未來將會出現(xiàn)一個更大的爆發(fā)點，會涌現(xiàn)更多的應(yīng)用落地。

　　AI芯片作為AI的載體，被大家寄予厚望。據(jù)有關(guān)預(yù)測， 2020年AI芯片市場預(yù)計達到千億量級。傳統(tǒng)芯片巨頭諸如arm、Intel、NVIDIA都通過自研和收購?fù)瞥隽藬?shù)款芯片，互聯(lián)網(wǎng)巨頭諸如Google、亞馬遜和微軟等也都正推出和開發(fā)AI芯片。這個領(lǐng)域的創(chuàng)業(yè)公司就更多了，中國的幾家頭部公司就做得非常好。

　　AI適合“存算一體”

　　AI依賴的算法是一個龐大和復(fù)雜的網(wǎng)絡(luò)，有很多參數(shù)要存儲，也需要完成大量的計算，這些計算中又會產(chǎn)生大量數(shù)據(jù)。在完成大量計算的過程中，一般芯片的設(shè)計思路是將大量增加并行的運算單元，例如上千個卷積單元，需要調(diào)用的存儲資源也在增大，然而存儲資源一直是有限的。隨著運算單元的增加，每個運算單元能夠使用的存儲器的帶寬和大小在逐漸減小，可見存儲器是AI芯片的瓶頸。

　　在很多AI推理運算中，90%以上的運算資源都消耗在數(shù)據(jù)搬運的過程。芯片內(nèi)部到外部的帶寬以及片上緩存空間限制了運算的效率?，F(xiàn)在工業(yè)界和學(xué)術(shù)界很多人認為存算一體化是未來的趨勢。

　　存算一體的分類

　　存算一體化分為幾種：DRAM和SSD中植入計算芯片或者邏輯計算單元，可以被叫做存內(nèi)處理或者近數(shù)據(jù)計算，這種方式非常適合云端的大數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)訓(xùn)練等應(yīng)用;另一種就是存儲和計算完全結(jié)合在一起，使用存儲的器件單元直接完成計算，比較適合神經(jīng)網(wǎng)絡(luò)推理類應(yīng)用。

　　知存研發(fā)的是后者，即將存儲和計算結(jié)合到閃存單元中的存算一體。閃存技術(shù)的該技術(shù)已經(jīng)非常成熟，商用幾十年了，成本很低。

　　知存的獨特技術(shù)

　　具體地，當前商用的神經(jīng)網(wǎng)絡(luò)非常龐大，擁有數(shù)百萬至數(shù)千萬的權(quán)重參數(shù)，或者推理過程中需要完成幾百萬到上千萬個乘加法運算。傳統(tǒng)的計算系統(tǒng)需要將網(wǎng)絡(luò)權(quán)重參數(shù)存在片外的非易失性存儲器中，例如NAND Flash或NOR Flash。

　　運算過程中，需要把部分需要的權(quán)重參數(shù)搬運到DRAM，再把小部分參數(shù)傳入到芯片中的SRAM和eDRAM中，之后導(dǎo)入寄存器和運算單元完成運算。神經(jīng)網(wǎng)絡(luò)運算需要大面積SRAM和eDRAM來減少片內(nèi)外數(shù)據(jù)搬運和提高運算效率，但是由于片上存儲成本的限制，也需要高成本、高速度的DRAM來緩存片上無法容納的權(quán)重參數(shù)和臨時數(shù)據(jù)。

　　知存科技的存算一體化原理是：知存科技的Flash存儲單元本身就可以存儲神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)，同時又可以完成和此權(quán)重相關(guān)的乘加法運算，就是將乘加法運算和存儲全部融合到一個Flash單元里。

　　例如，只需要100萬個Flash單元，就可以存儲100萬個權(quán)重參數(shù)，同時并行完成100萬次乘加法運算。

　　知存做的是這樣一款芯片：深度學(xué)習(xí)網(wǎng)絡(luò)被映射到多個Flash陣列，這些Flash陣列不僅存儲，還和深度學(xué)習(xí)網(wǎng)絡(luò)同時完成網(wǎng)絡(luò)的推理，這個過程不需要邏輯計算電路。

　　這種方式的運算效率非常高，成本很低，單個Flash單元能夠完成7、8 bit的乘加法運算。

　　前文提到知存科技的芯片有兩個特點：1.運算效率高，相比于現(xiàn)在基于馮?諾依曼架構(gòu)的深度學(xué)習(xí)芯片，大概能夠提高運算效率10~50倍;2.產(chǎn)品成本低，節(jié)省了DRAM、SRAM、片上并行計算單元的面積消耗，簡化了系統(tǒng)的設(shè)計，同時無需采用先進的芯片加工工藝，可以數(shù)倍地降低生產(chǎn)成本，幾十倍地降低流片和研發(fā)成本。

　　當前階段，知存科技主攻的是對成本和運算效率(功耗)敏感的應(yīng)用，例如終端的低功耗、低成本的語音識別應(yīng)用。未來，隨著AI和物聯(lián)網(wǎng)的發(fā)展，知存科技會拓展更多的應(yīng)用場景，例如低成本、低功耗的感知應(yīng)用和人機交互。

　　知存的人力資源

　　2014年，知存科技的創(chuàng)始人開始在美國加州大學(xué)圣芭芭拉分校的實驗室做這項技術(shù)的研發(fā)，完成過6次流片和技術(shù)驗證。2017年底在北京注冊了公司，2018年3月正式開始運營，僅5個月就把設(shè)計送去流片。如果進展順利，三四個月后就會完成芯片測試，爭取2019年量產(chǎn)。

　　知存科技的團隊成員畢業(yè)于北京大學(xué)、北京航空航天大學(xué)、美國加州大學(xué)洛杉磯分校、加州大學(xué)圣芭芭拉分校等學(xué)校。核心團隊成員大部分都有十年以上的行業(yè)經(jīng)驗。團隊目前有11個人，2018年年末會擴大團隊規(guī)模。

　　如何看待XPoint存儲技術(shù)?

　　Intel與美光2015年共同研制了3D XPoint技術(shù)，去年Intel推出了傲騰內(nèi)存模組，特點也是提速AI和數(shù)據(jù)中心等的計算與存儲之間的連接速度。知存如何評價它們?

　　王紹迪博士稱：這是一項很新的技術(shù)，這項技術(shù)的selector做得很好。但目前主要問題是成本和系統(tǒng)支持度的問題。不過，隨著產(chǎn)業(yè)鏈的發(fā)展，成本會越來越低，速度也會更快，系統(tǒng)也會更好地支持XPoint兼有的高速和非易失性的特性。

　　可見，作為存儲器、內(nèi)存或者他們的統(tǒng)一體(存算一體化)類應(yīng)用，未來成本降低之后，會有非常大的優(yōu)勢。Intel在這個技術(shù)的市場推廣上也投入很多精力，其他后來者可能會坐享其成。

　　評論：靠譜嗎?

　　具體的技術(shù)細節(jié)，知存很少透露。但至少該公司的想象力很靠譜!

　　當下正如火如荼地舉行“世界杯”足球賽，很多人買了彩票。筆者認為，知存能否成功，這有點像投資人買了彩票，興許賭一把能贏呢?