沈緒榜院士談嵌入式系統(tǒng)的挑戰(zhàn)與新機遇

作者：沈緒榜時間：2019-01-29 來源：電子產品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　作者/沈緒榜中國航天科技集團公司九院七七一研究所研究員、博士生導師、中國科學院院士

本文引用地址：http://www.butianyuan.cn/article/201901/397255.htm

　　編者按：不久前，在第十六屆中國計算機學會(CCF) 全國嵌入式系統(tǒng)大會上，沈緒榜院士介紹了嵌入式系統(tǒng)發(fā)展的新趨勢、新挑戰(zhàn)和新機遇。

　　嵌入式系統(tǒng)發(fā)展的新趨勢

　　最近幾年， 物聯(lián)網、信息物理系統(tǒng)CPS(Cyber-Physical System)、 VR/AR技術、人工智能技術、自動駕駛技術以及區(qū)塊鏈技術等新興技術的出現(xiàn)和發(fā)展，嵌入式系統(tǒng)設計呈現(xiàn)新的發(fā)展趨勢。

　　針對高性能低成本低功耗的嵌入式系統(tǒng)的硬件設計，要從算法優(yōu)化、體系結構、軟硬件協(xié)同等幾個方面統(tǒng)籌考慮?！蚓w榜

　　第一，功能需求越來越多。自動駕駛技術要求能夠針對語音、 NLP、圖像、視頻等數(shù)據進行處理;要求能夠支持paddle等多個深度學習框架，靈活支持訓練和預測; 還要求對雷達、攝像頭等傳感器的多路數(shù)據進行快速地處理。

　　第二，低功耗、低延遲、低成本、高可靠性是該領域需求趨勢。 物聯(lián)網、信息物理系統(tǒng)、自動駕駛技術都要利用神經網絡算法對其數(shù)據進行快速地的處理，算力大、低延時是基本要求。由于復雜的外部環(huán)境，可移動設備、可穿戴設備和自動駕駛等對功耗和可靠性也有很高的要求。

　　第三，嵌入式系統(tǒng)的優(yōu)化越來越依賴專用算法優(yōu)化、硬件體系結構的優(yōu)化以及軟硬件協(xié)同的優(yōu)化。嵌入式系統(tǒng)是硬件、中間層、操作系統(tǒng)和上層應用軟件的集合體。從專用算法、硬件體系結構和軟硬件協(xié)同三個角度考慮，才能夠統(tǒng)籌全局，有利于設計出低功耗、低延遲、低成本、高可靠性的嵌入式系統(tǒng)。

　　嵌入式系統(tǒng)面臨的新挑戰(zhàn)

　　第一，專用算法上，像很多新興算法，可能會因為模型復雜度太高或者其他原因，不能直接用于實現(xiàn)。比如自動駕駛領域的算法層面，目前還沒有一家公司可以保證自家的算法完全可以投產商用。

　　第二，系統(tǒng)架構上，傳統(tǒng)的嵌入式系統(tǒng)，處理器之間采用分布式設計，相互之間通過片外的高速通信總線等方式進行信息交換，不僅硬件設計難度較高，而且處理器軟件系統(tǒng)之間的協(xié)同性與穩(wěn)定性一直是困擾研發(fā)工程師的難題之一。

　　第三，算法與架構協(xié)調上，特殊的專用算法與通用處理器架構之間的協(xié)同不充分，既不能發(fā)揮處理器的計算能力，又不能達到該應用領域的算力和功耗的要求。

　　第四，系統(tǒng)軟件上，對于異構處理器，雖然OpenCL標準和“AllProgrammable”平臺都提供了統(tǒng)一的編譯環(huán)境，滿足了用軟件設計語言實現(xiàn)CPU、GPU、DSP、FPGA等的編譯要求，但不可避免地帶來了編譯器和編譯方法的復雜性、編譯效率低、存取開銷和時間開銷大等眾多軟件開發(fā)問題。

　　第五，網絡帶寬上，傳輸速度跟不上大數(shù)據云端分析的需求。根據國際電信聯(lián)盟電信標準分局(ITU-T)的研究報告，到2018年，世界上三分之一的人口將擁有智能手機或者可穿戴設備，到2020年，這些設備將生成43萬億GB的數(shù)據。而機器學習的訓練環(huán)節(jié)目前只能在云端實現(xiàn)。GPU、FPGA、ASIC(例如GoogleTPU1.0/2.0)等都已應用于云端訓練環(huán)境。處理這些數(shù)據需要進一步擴展數(shù)據中心，這再次引起了人們對網絡流量壓力的廣泛關注。IDC也發(fā)布了相關預測，到2018年，50%的物聯(lián)網網絡將面臨網絡帶寬的限制。

　　嵌入式系統(tǒng)的新機遇

　　第一，專用算法的優(yōu)化上有兩類：一方面，復雜算法模型和協(xié)議不斷地被優(yōu)化，比如區(qū)塊鏈底層協(xié)議、簽名機制和共識機制的不斷優(yōu)化，吞吐率也在不斷提高，功耗逐漸降低;另一方面，針對海量數(shù)據的分析與儲存對網絡帶寬提出了巨大的挑戰(zhàn)，邊緣計算可以利用適合數(shù)據管理任務的空閑計算資源，在邊緣節(jié)點處過濾或者分析以減少網絡等待時間。

　　第二，硬件體系結構上有兩種類型。第一種是對于能效、功耗和散熱要求都比較高的領域，其數(shù)據處理單元往往經過如下演進過程：CPU構建初始模型，多核異構(CPU+GPU+FPGA+DSP)處理單元搭建硬件加速引擎，定制AISC專用處理單元三個階段。比如比特幣礦機芯片、AI深度學習處理系統(tǒng)、自動駕駛處理系統(tǒng)等，對算力、功耗有極高的要求，但由于通用芯片效能顯然無法滿足功耗、散熱等問題，其體系結構只能經過異構處理階段，最終已經或者將要走向AISC硬件加速階段。第二種是對功耗要求不是那么高的領域，多核異構技術確實是一種不錯的方案，可以兼有不同體系結構各自的優(yōu)點。在云端模型訓練中，NVIDIA的GPU占主導地位，多GPU并行架構是云端訓練常用的基礎架構方案。在云端識別中，基于功耗與運算速度的考量，單獨基于GPU的方式并非最優(yōu)方案，利用CPU、GPU、FPGA、ASIC各自的優(yōu)勢，采用異構計算(CPU+GPU+FPGA/ASIC)是目前主流方案。在高速數(shù)據采集與處理行業(yè)解決方案中，利用ARM+DSP+FPGA多核異構技術的特點，有效地應對了人工智能領域所提出的技術要求，如大規(guī)模并行數(shù)據處理。

　　第三，算法與硬件的協(xié)同設計上，在修改機器學習算法以使它們對硬件更友好的同時還維持準確度方面，研究界在減少計算量、數(shù)據傳輸和存儲要求方面不斷地有新的進展。通過在這些方面的研究，使得硬件的處理速度更快，硬件資源更少，功耗更低。　　

結論

　　基于以上嵌入式系統(tǒng)新挑戰(zhàn)和新機遇的考慮，針對高性能低成本低功耗的嵌入式系統(tǒng)的硬件設計，要從算法優(yōu)化、體系結構、軟硬件協(xié)同等幾個方面統(tǒng)籌考慮。這些方面統(tǒng)籌考慮為設計出更高性能、更低功耗的嵌入式系統(tǒng)硬件提供了新思路。

本文來源于中國科技期刊《電子產品世界》2019年第2期第1頁，歡迎您寫論文時引用，并注明出處