借助自適應(yīng)計算迎接更加智能和互聯(lián)的世界
不斷變化和演進(jìn)的 5G、數(shù)據(jù)中心、汽車和工業(yè)等應(yīng)用,要求在保持嚴(yán)苛的電源包絡(luò)的同時,持續(xù)提升計算能力。隨著人工智能( AI )技術(shù)商用進(jìn)程持續(xù)加速,其成為提升計算密度的一個主要因素。
本文引用地址:http://www.butianyuan.cn/article/202202/431440.htm無論是部署在云端、邊緣還是終端,人工智能推斷都需要更高的處理性能和嚴(yán)格的功耗預(yù)算,因而,人工智能推斷工作負(fù)載,通常都需要專用的人工智能硬件來進(jìn)行加速。
與此同時,人工智能算法的發(fā)展速度,遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)芯片開發(fā)周期的速度。由于先進(jìn)的人工智能模型的快速創(chuàng)新,固定芯片解決方案,如人工智能網(wǎng)絡(luò)的 ASIC 實現(xiàn),有可能很快就會被淘汰。
自適應(yīng)計算是應(yīng)對上述挑戰(zhàn)的答案
因為基于在產(chǎn)品制造之后依然可以針對特定應(yīng)用而進(jìn)行優(yōu)化的自適應(yīng)硬件而打造,自適應(yīng)計算因而擁有獨特的價值。由于優(yōu)化可以在硬件制造完成之后按需進(jìn)行,因此它可以保持與最新的人工智能模型與時俱進(jìn)金。相反,ASIC 因為基于固定的硬件架構(gòu),一旦制造完成就無法改變。
自適應(yīng)計算的這種靈活的優(yōu)化能力,可以支持無限次地反復(fù)執(zhí)行。甚至在器件被完全部署到量產(chǎn)環(huán)境后,依然可以進(jìn)行硬件的變更。就像一個量產(chǎn)型 CPU 可以被用來運行一個新程序一樣,一個自適應(yīng)平臺也可以靈活適應(yīng)新的硬件配置,甚至可以在一個實時的生產(chǎn)環(huán)境中。
自適應(yīng)硬件與其它替代方案的對比
CPU 和 GPU 各自具有其獨特的能力,非常適合某些任務(wù)。CPU 是需要評估復(fù)雜邏輯的決策功能的最佳選擇。GPU 是處理高吞吐量但對時延要求不高的離線數(shù)據(jù)的最佳選擇。而自適應(yīng)計算, 則是那些同時需要高吞吐量和低時延數(shù)據(jù)處理的最佳選擇,如實時視頻流、5G 通信和汽車傳感器融合等應(yīng)用。
自適應(yīng)計算之所以能夠在保證低時延的情況下提供高性能,是因為它能夠?qū)崿F(xiàn)領(lǐng)域?qū)S玫募軜?gòu)( DSA ),從而保障特定應(yīng)用在特定領(lǐng)域架構(gòu)上的最佳實現(xiàn)。相反,CPU 和 GPU 基于固定的、馮-諾依曼的架構(gòu),不允許對其底層架構(gòu)進(jìn)行針對特定領(lǐng)域的優(yōu)化。
DSA 也可以使用專用(固定)芯片器件來構(gòu)建,通常被稱為特定應(yīng)用標(biāo)準(zhǔn)產(chǎn)品或ASSP 。但是,在固定 ASSP 中實現(xiàn) DSA,既有 有優(yōu)勢,也有劣勢。這里介紹兩種主要的劣勢。
首先是創(chuàng)新步伐。為了跟上創(chuàng)新步伐,制造商被期望用更短的時間打造和提供新的服務(wù)。更具體來講,這個時間要比設(shè)計開發(fā)新的固定芯片 DSA 所需的時間還要短。這就造成了市場的創(chuàng)新需求與企業(yè)設(shè)計制造 ASSP 所需時間之間的根本性市場錯位。行業(yè)標(biāo)準(zhǔn)改變或其他需求波動,會很快導(dǎo)致這些器件過時。
第二個考量因素是定制芯片的成本。設(shè)計與制造獨特的芯片設(shè)計(如復(fù)雜的 7nm ASIC)的一次性成本,可能導(dǎo)致數(shù)億美元的非重復(fù)性工程( NRE )成本。隨著器件工藝縮小到 5nm 及更小,預(yù)計成本還將進(jìn)一步上升。成本的攀升,正在延緩 ASSP 對先進(jìn)節(jié)點的采用,而這,可能導(dǎo)致其用戶固守過時低效的技術(shù)。
自適應(yīng)計算平臺介紹
自適應(yīng)平臺都是基于相同的自適應(yīng)硬件( FPGA )而打造,然而,它們所涵括的組件和 技術(shù)遠(yuǎn)遠(yuǎn)超過了芯片硬件和器件本身。自適應(yīng)平臺包含了一套全面的運行時軟件,軟硬件相結(jié)合為打造高度靈活和高效的應(yīng)用,提供了一種獨特的能力。
自適應(yīng)平臺使得自適應(yīng)計算能夠為廣泛的軟件和系統(tǒng)開發(fā)者所使用,并為其打造眾多創(chuàng)新產(chǎn)品奠定了基礎(chǔ)。采用自適應(yīng)平臺的優(yōu)勢包括:
● 縮短上市時間。使用 Alveo? 數(shù)據(jù)中心加速器卡這樣的平臺,可以支持其無需定制硬件,就可以通過專門為特定應(yīng)用加速而打造的硬件構(gòu)建應(yīng)用。而且,僅需將 PCIe 卡連接到服務(wù)器,就可以用現(xiàn)有軟件應(yīng)用程序直接調(diào)用加速庫。
● 降低運營成本。與基于 CPU 的解決方案相比,由于計算密度的提升,基于自適應(yīng)平臺的優(yōu)化應(yīng)用能大幅提供每節(jié)點的效率。
● 靈活和動態(tài)變化的工作負(fù)載。自適應(yīng)平臺可根據(jù)當(dāng)前需求重新配置。開發(fā)者可以在自適應(yīng)平臺內(nèi)輕松切換已部署應(yīng)用,使用相同設(shè)備即可滿足不斷變化的工作負(fù)載需求。
● 兼容未來。自適應(yīng)平臺能不斷進(jìn)行調(diào)整。如果現(xiàn)有應(yīng)用需要新的功能,則可以對硬件重新編程,以最佳方式實現(xiàn)這些功能,減少硬件升級需求,進(jìn)而延長系統(tǒng)使用壽命。
● 加速整體應(yīng)用。AI 推斷很少單獨存在。它是更大的數(shù)據(jù)分析與處理鏈條的一部分,往往與使用傳統(tǒng)(非 AI )實現(xiàn)方案的多個上游級和下游級并存。這些系統(tǒng)中的嵌入式 AI部分得益于 AI 加速,而非 AI 部分也能從加速中獲益。自適應(yīng)計算的天然靈活性適合為 AI 和非 AI 處理任務(wù)進(jìn)行加速,這被稱為“整體應(yīng)用加速”。隨著計算密集型 AI 推斷滲透到更多應(yīng)用中,“整體應(yīng)用加速”的重要性也在日益提升。
● 易用性。過去,運用 FPGA 技術(shù)需要開發(fā)者構(gòu)建自己的硬件板,并用硬件描述語言( HDL )配置 FPGA。相比之下,自適應(yīng)平臺則支持開發(fā)者使用自己熟悉的軟件框架和語言(例如 C++、Python、TensorFlow 等),直接發(fā)揮自適應(yīng)計算的效能。軟件和 AI 開發(fā)者現(xiàn)在也可以直接使用自適應(yīng)計算,而無需構(gòu)建電路板或成為硬件專家。
不同類型的自適應(yīng)計算平臺
根據(jù)應(yīng)用和需求,存在多種類型的自適應(yīng)平臺,包括數(shù)據(jù)中心加速器卡和標(biāo)準(zhǔn)化邊緣模塊。多種平臺的存在,旨在為開發(fā)所需應(yīng)用提供盡可能最佳的起點。不同的自適應(yīng)平臺所面向的應(yīng)用類型也十分廣泛,既有自動駕駛和實時視頻流等時延敏感型應(yīng)用,也有高度復(fù)雜的 5G 信號處理和非結(jié)構(gòu)化數(shù)據(jù)庫的數(shù)據(jù)處理。
自適應(yīng)計算能夠部署到云端、網(wǎng)絡(luò)、邊緣甚至終端,將最新的架構(gòu)創(chuàng)新帶到單獨及端到端的應(yīng)用。鑒于存在各種自適應(yīng)平臺,部署位置也可以是多樣化的——從數(shù)據(jù)中心內(nèi) PCIe 加速器卡上的大容量器件,到適用于物聯(lián)網(wǎng)設(shè)備所需終端處理的小型低功耗器件。
邊緣端的自適應(yīng)平臺,包括賽靈思 Kria? 自適應(yīng)系統(tǒng)模塊( SOM ),數(shù)據(jù)中心中的自適應(yīng)平臺包括 Alveo 加速器卡。Alveo 加速器卡采用行業(yè)標(biāo)準(zhǔn)的 PCIe,為任意數(shù)據(jù)中心應(yīng)用提供了硬件卸載能力。
Kria自適應(yīng)SOM
AI引擎的引入
自適應(yīng)計算領(lǐng)域最大的創(chuàng)新之一,就是是賽靈思推出的 AI 引擎。
AI 引擎是一種革命性的新方法,其為計算密集型應(yīng)用提供了前所未有的計算密度。AI 引擎從根本上說仍然是一個可配置的塊,但它也可以像 CPU 一樣進(jìn)行編程。AI 引擎不是由標(biāo)準(zhǔn)的 FPGA 處理硬件組成的,而是包含高性能的標(biāo)量和單指令多數(shù)據(jù)( SIMD )矢量處理器。這些處理器經(jīng)過優(yōu)化,用以高效實現(xiàn)人工智能推斷和無線通信中出現(xiàn)的各種計算密集型功能。
人工智能引擎陣列,仍然與類似于 FPGA 的、靈活應(yīng)變的數(shù)據(jù)互連相關(guān)接,從而能夠為目標(biāo)應(yīng)用建立高效、優(yōu)化的數(shù)據(jù)路徑。這種計算密集型的、類似 CPU 的處理元素與類似 FPGA 的互連組合,正引領(lǐng)人工智能和通信產(chǎn)品邁入一個新時代。
賽靈思AI引擎架構(gòu)
迎接一個更加互聯(lián)和智能的世界
從根本上說,自適應(yīng)計算建立在現(xiàn)有的 FPGA 技術(shù)上,但使其比以往任何時候都更容易被更多的開發(fā)者和應(yīng)用所接受。軟件和人工智能開發(fā)者現(xiàn)在可以借助這種對他們來說曾經(jīng)遙不可及的用自適應(yīng)計算硬件技術(shù),快速打造優(yōu)化的應(yīng)用。
使硬件適應(yīng)特定應(yīng)用的能力,是自適應(yīng)計算區(qū)別于 CPU、GPU 和 ASSP 的獨特所在,后者的核心是固定的硬件架構(gòu)。自適應(yīng)計算允許硬件為應(yīng)用量身定做,從而實現(xiàn)更高效率,而且如果未來工作負(fù)載或標(biāo)準(zhǔn)發(fā)生變化,其還能夠根據(jù)需求進(jìn)行調(diào)整。
隨著世界變得更加互聯(lián)和智能,自適應(yīng)計算將繼續(xù)占據(jù)優(yōu)化、加速應(yīng)用的前沿,助力各種各樣的開發(fā)者加速將創(chuàng)意變成現(xiàn)實,讓我們的明天更美好。
評論