神經(jīng)網(wǎng)絡(luò)加速器大戰(zhàn)一觸即發(fā)
隨著許多嵌入式系開始變得「智能」且「自主」,以人工智能(AI)神經(jīng)網(wǎng)絡(luò)為導(dǎo)向的嵌入式系統(tǒng)市場即將起飛,神經(jīng)網(wǎng)絡(luò)加速器大戰(zhàn)一觸發(fā)。..
本文引用地址:http://butianyuan.cn/article/201707/362302.htm嵌入式神經(jīng)網(wǎng)絡(luò)加速器市場持續(xù)升溫,從智能音箱、無人機(jī)到智能燈泡等越來越多的系統(tǒng)準(zhǔn)備在本地執(zhí)行神經(jīng)網(wǎng)絡(luò),以取代傳送至云端進(jìn)行運(yùn)算的途徑。
Movidius副總裁兼總經(jīng)理Remi El-Ouazzane日前在接受《EE Times》訪問時(shí),將這個(gè)成長中的趨勢定義為「讓事情變得更智能與自主的一場競賽」。
Remi El-Ouzaane,Movidius副總裁兼總經(jīng)理Remi El-Ouazzane
英特爾旗下子公司Movidius在上周推出了一款采用USB外形的獨(dú)立式人工智能(AI)加速器。 El-Ouazzane說,這款名為Movidius神經(jīng)運(yùn)算棒(Neural Compute Stick)的AI加速器設(shè)計(jì),可輕松簡單地插入Raspberry Pi或X86 PC,讓大學(xué)研究人員、獨(dú)立軟件開發(fā)人員與程序增補(bǔ)人員易于為嵌入式系統(tǒng)進(jìn)行編譯、調(diào)整以及加速深度學(xué)習(xí)應(yīng)用。
Movidius在去年秋天被英特爾收購后,如今已成為英特爾新技術(shù)部門的一部份。 Movidius之前曾經(jīng)開發(fā)出業(yè)界首款視覺處理器——Myriad 2 VPU。 如今,El-Ouazzane表示,推出這款運(yùn)算棒的最終目標(biāo)在于讓Movidius VPU成為可在邊緣執(zhí)行神經(jīng)網(wǎng)絡(luò)的「參考架構(gòu)」。
Movidius Myria 2 VPU方塊圖 (來源:Intel/Movidius)
盡管目標(biāo)遠(yuǎn)大,但業(yè)界分析師隨即指出,Movidius Myriad 2 VPU當(dāng)然不是嵌入式系統(tǒng)中可在邊緣執(zhí)行神經(jīng)網(wǎng)絡(luò)的唯一選擇。
催生新產(chǎn)品類別:神經(jīng)加速器
Tirias Research首席分析師Jim McGregor表示:「從技術(shù)上來看,您可以使用任何具有處理組件的開發(fā)板,并用于執(zhí)行一種模型。 例如機(jī)器學(xué)習(xí)(Machine learning)/AI模型已經(jīng)執(zhí)行于各種廣泛的處理器和SoC了,特別是針對(duì)行動(dòng)領(lǐng)域。 」
高通(Qualcomm)以Snapdragon系列實(shí)現(xiàn)的影像辨識(shí)可說是最佳的例子。 高通從Snapdragon 820開始采用自家開發(fā)的模型,McGregor說:「Snapdragon基本上就是推理引擎」。
具有平行處理組件(如GPU、DSP和FPGA)的處理解決方案非常適于作為推理引擎。 McGregor解釋說,許多正在開發(fā)中的客制化芯片解決方案都采用可內(nèi)建于SoC的DSP或FPGA。
Linley Gwennap首席分析師Linley Gwennap對(duì)此表示贊同。 他在最近出刊的《微處理器報(bào)告》(Microprocessor Report)中寫道:高通、蘋果(Apple)和英特爾(Movidius)都在「打造一種新的產(chǎn)品類別:神經(jīng)加速器。 」
Gwennap解釋說,對(duì)于這些以客戶端為基礎(chǔ)的加速器需求來自于要求極低延遲的自動(dòng)駕駛車。 Gwennap在該報(bào)告的評(píng)論中指出,在本地進(jìn)行處理的新技術(shù)將會(huì)開始「滲透至一些較低成本的應(yīng)用」。 他預(yù)測,「在消費(fèi)裝置中,小型的神經(jīng)加速器可能是SoC中的一個(gè)重要區(qū)塊,就像是繪圖核心或圖像處理器一樣。 幾家知識(shí)產(chǎn)權(quán)(IP)供貨商開始提供這一類加速器,期望盡可能地降低額外的硬件成本。 」
Gwennap在《EE Times》的訪談中指出,Movidius Neural Compute Stick對(duì)于開發(fā)人員幾乎沒有什么不同。 「對(duì)于開發(fā)人員來說,這并沒什么不起。 典型的PC就能產(chǎn)生至少100GFLOPS,特別是如果它還內(nèi)建繪圖卡,直接在PC上進(jìn)行開發(fā)會(huì)更好。 對(duì)于需要較低功率處理器的嵌入式系統(tǒng),高通Snapdragon 835提供超過250GOPS的效能,對(duì)于大多數(shù)的推理應(yīng)用來說都?jí)蛄恕?」
不過,Movidius的El-Ouazzane并不贊同這樣的看法。
首先,Movidius Neural Compute Stick利用USB讓神經(jīng)網(wǎng)絡(luò)更易于存取,有利于制造商或程序增補(bǔ)人員用于開發(fā)深度神經(jīng)網(wǎng)絡(luò)原型或進(jìn)行調(diào)整。
其次是電源效率的問題。 El-Ouazzane指出,Movidius的解決方案可讓神經(jīng)網(wǎng)絡(luò)在邊緣運(yùn)算時(shí)旳功耗小于2瓦(W)。
然后,還有成本的考慮。 El-Ouazzane說:「我認(rèn)為這是一個(gè)殺手級(jí)因素。 Movidius Neural Compute Stick要價(jià)79美元,可望讓神經(jīng)網(wǎng)絡(luò)的發(fā)展變得『超級(jí)普遍』。 」
他預(yù)期開發(fā)人員能使用Movidius的神經(jīng)運(yùn)算平臺(tái)(Neural Compute Platform)應(yīng)用程序編程接口(API),「將經(jīng)過訓(xùn)練的Caffe、前饋卷積神經(jīng)網(wǎng)絡(luò)(CNN)輸入工具套件中,并進(jìn)行配置,然后編譯成一種可用于嵌入式部署的調(diào)整版本。 」
以AI為導(dǎo)向的嵌入式應(yīng)用?
隨著許多嵌入式系開始變得「智能」且「自主」,El-Ouazzane預(yù)計(jì)以AI為導(dǎo)向的嵌入式系統(tǒng)即將爆發(fā)。
但是,不久的將來即將出現(xiàn)什么樣的AI裝置?
McGregor預(yù)測,「我認(rèn)為在2025年以前,每個(gè)人所接觸的每一款新系統(tǒng)/平臺(tái)都將具有某種程度的AI元素,它可能內(nèi)建于裝置本身,或存在于網(wǎng)絡(luò)、云端,或是分散在其間。 」
他補(bǔ)充說:「它可能就像是用戶接口或應(yīng)用一樣簡單,或者是像虛擬助理或自主控制般復(fù)雜的某種裝。 目前已經(jīng)有許多應(yīng)用已經(jīng)導(dǎo)入了AI,包括虛擬助理、搜索引擎、財(cái)務(wù)建模、與文章寫作。..。. 等等。 」
他說:「而在裝置上,AI將因各種不同的原因而持續(xù)成長,特別是數(shù)據(jù)的安全、實(shí)時(shí)互動(dòng)/處理以及帶寬限制等。 然而,在裝置上進(jìn)行訓(xùn)練才是真正的挑戰(zhàn),最終可能需要新的處理模型。 」
英特爾想掌握一切。..
當(dāng)然,Movidus現(xiàn)在是英特爾的子公司,但其目標(biāo)并不僅限于有更多嵌入式系統(tǒng)在邊緣執(zhí)行神經(jīng)網(wǎng)絡(luò)。 El-Ouazzane將其產(chǎn)品發(fā)布架構(gòu)在英特爾端對(duì)端AI產(chǎn)品組合的更大脈絡(luò)之下。
他指出,英特爾擁有廣泛的AI產(chǎn)品組合,并為其提供一整套完整的開發(fā)工具和資源。
「無論是在英特爾Nervana云端上訓(xùn)練AI神經(jīng)網(wǎng)絡(luò)、優(yōu)化新興的工作負(fù)載(如AI、、VR和AR),以及使用英特爾Xeon Scalable處理器實(shí)現(xiàn)自動(dòng)駕駛,或是以Movidius視覺處理器技術(shù)將AI導(dǎo)入邊緣,」英特爾宣稱該公司已為下一代AI驅(qū)動(dòng)的產(chǎn)品和服務(wù)提供了全面的AI產(chǎn)品組合、工具、訓(xùn)練和部署選擇。
然而,Movidus是否真的能在即將變得無所不在的AI嵌入式系統(tǒng)中成為其關(guān)鍵參考架構(gòu),目前還不而知。
Tirias Research的McGregor盡管認(rèn)同Neural Compute Stick是「一款可在新設(shè)計(jì)中快速評(píng)估AI模型訓(xùn)練效能的有利工具,」但他仍指出,「設(shè)計(jì)人員仍然必須在最后的系統(tǒng)設(shè)計(jì)時(shí)間執(zhí)行類測試,特別是如果他們并未使用Moviduis的芯片和/或Caffe架構(gòu)。 」
The Linley Group的Gwennap還認(rèn)為,Movidius無法達(dá)到其目標(biāo)——實(shí)現(xiàn)在邊緣運(yùn)算神經(jīng)網(wǎng)絡(luò)的嵌入式系統(tǒng)設(shè)計(jì)。
區(qū)隔推理引擎與訓(xùn)練
Gwennap指出,「值得注意的是,新的AI時(shí)代并不會(huì)有『參考架構(gòu)』。 諸如TensorFlow和Caffe等架構(gòu)將會(huì)把軟件(神經(jīng)網(wǎng)絡(luò))和硬件分開來。 」他補(bǔ)充說:「映像到Myriad VPU的網(wǎng)絡(luò)可以輕易地映像到Snapdragon或其他處理器上。 因此,AI處理器將在性能和效率的基礎(chǔ)上進(jìn)行競爭,而不是鎖定于指令集。 」
同樣地,他也不認(rèn)同「同樣的工具適用于訓(xùn)練和推理」的論點(diǎn)。 Gwennap說:「一旦網(wǎng)絡(luò)開始接受訓(xùn)練,就可以輕松地部署在支持主流架構(gòu)的任何平臺(tái)上。 而且,主流的架構(gòu)都是開放源碼,以避免單一家廠商鎖定。 」。
El-Ouazzane看好AI處理器抽取底層硬件的能力,它讓設(shè)計(jì)者可將推論與練訓(xùn)分離開來。 但他重申先前的觀點(diǎn),從長遠(yuǎn)來看,能夠使用相同的工具進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和部署,才有助于系統(tǒng)設(shè)計(jì)人員。
他以Movidius的開發(fā)藍(lán)圖為例表示,未來三年,深度學(xué)習(xí)的效能預(yù)計(jì)將會(huì)增加50倍。 「為了在不增加功耗的情況下實(shí)現(xiàn)這一目標(biāo),我們可以在訓(xùn)練方面設(shè)計(jì)許多架構(gòu)技巧。 」El-Ouazzane補(bǔ)充說:「當(dāng)你在斟酌這些技巧時(shí),讓學(xué)習(xí)和推理方面置于同一平臺(tái)是至關(guān)重要的。 」
評(píng)論