智能攝像頭將邁入64 位處理技術(shù)
本文引用地址:http://butianyuan.cn/article/202201/430725.htm
隨著筆記本電腦和智能手機的應(yīng)用處理技術(shù)已經(jīng)遷移到 64 位,智能攝像頭也開始轉(zhuǎn)向采用 64 位處理技術(shù),使得利用更先進功能的前沿應(yīng)用也可以在智能視覺系統(tǒng)中無縫平滑實現(xiàn)。例如,在世界各地的智慧城市中,我們看到攝像頭能夠運行AI算法來檢測人、寵物、包裹、車牌和其他物體。而且,隨著攝像頭本地算力的提升以及AI技術(shù)在智能攝像頭中應(yīng)用的不斷擴展,智能視覺處理工作負載不僅有可能在攝像頭內(nèi)置的 CPU以及日趨普遍的加速器上直接運行,而且這種邊緣部署方式將越來越顯示其優(yōu)勢,并有望成為主流。在這些技術(shù)發(fā)展的助力下,未來將有可能同時檢測數(shù)百人或識別超速汽車的車牌,而無需再將大量數(shù)據(jù)傳輸?shù)皆贫?,影響處理的實時性。
為什么采用 64 位處理技術(shù)至關(guān)重要?
通過遷移至 64 位處理技術(shù),可以更好地利用先進的64位CPU 硬件與身俱來的更高性能和效率。最重要的是,64 位 CPU 架構(gòu)具有增強的寄存器支持和更大的內(nèi)存映射。寄存器數(shù)量和寬度的增加意味著可以在減少內(nèi)存訪問次數(shù)的情況下處理更大的數(shù)據(jù)集,從而加快數(shù)據(jù)處理速度。更強的寄存器支持也意味著開發(fā)者可以利用先進的編譯器優(yōu)化技術(shù),從而進一步提高性能。由于數(shù)據(jù)集在進出本地內(nèi)存的交換會影響性能,因此,當提升的寄存器支持結(jié)合了 64 位架構(gòu)帶來的內(nèi)存映射增加,軟件就可以直接訪問更多的本地數(shù)據(jù)進行處理,從而減少了對內(nèi)存交換的需求。
隨著智能攝像頭的成像要求日益提高,低端攝像頭和中高端攝像頭分別開始采用 4K、8K 分辨率。從 1080p 提升至 4K 意味著在相同的編碼方案下,攝像頭傳入視頻流的數(shù)據(jù)率翻倍。此外,為了更好地識別物體,幀率需要從 15fps 增加到 30fps 甚至 60fps,對數(shù)據(jù)率和性能的需求也將相應(yīng)地繼續(xù)擴增。更高的幀率將使攝像頭能夠以更高的精度檢測、識別和辨別更小的物體與快速移動的物體。從多個視頻流進行同步 4K 編碼的需求,也對 CPU 性能提出了更高的要求。而這些都能很好地通過 64 位處理器獲得滿足。
此外,為了滿足成像和機器學習工作負載對于性能和帶寬不斷增長的需求,智能攝像頭需要支持浮點運算。Armv8-A 64 位架構(gòu)將單精度的每周期 FLOPS性能提高了 2 倍,雙精度中提高了 5 倍,從而改善了用戶體驗。
另外,從 Armv8 架構(gòu)中的可收縮矢量擴展(Scalable Vector Extension, SVE)和 Armv9 架構(gòu)中的 SVE2 開始,Arm 通過對 Neon 的擴展在成像和機器學習方面取得了進展,這一點也很重要。
圖 1:面向當前和未來智能攝像頭的 Arm 64 位 CPU
提升機器學習性能
Arm 64 位架構(gòu)(稱為 AArch64)提供了更快、更大的內(nèi)存訪問,使機器學習模型能夠更快地加載到內(nèi)存。這種性能的提升可以加快執(zhí)行來自智能攝像頭的輸入視頻流的推理任務(wù),從而更快地檢測、識別和辨別圖像中的物體。
為了充分利用視頻編碼器/解碼器等片上加速器和處理器核心外部的機器學習硬件來實現(xiàn)高效的數(shù)據(jù)傳輸,必須優(yōu)化內(nèi)存帶寬。提高系統(tǒng)內(nèi)存流性能可以加快數(shù)據(jù)進出內(nèi)存的速度,以供許多不同的硬件單元使用。圖2顯示了最常見的內(nèi)存流基準,并展示了從 32 位 CPU 遷移到 64 位 CPU 時,性能可以提高 3.75 倍。
圖 2:從 Cortex-A7 (32 位) CPU 遷移到 Cortex-A35( 64 位) CPU 時的內(nèi)存流性能提升
實現(xiàn)高級安全功能
64 位 ARMv8-A 架構(gòu)在其 CPU 中提供了原生安全功能,其中加密指令 AES、SHA 和 CRC 可以在軟件加密的基礎(chǔ)上提供 3 至11 倍的性能提升,可用于小粒度加密技術(shù)。隨著 Arm 繼續(xù)提高關(guān)鍵加密操作的性能,智能攝像頭能夠持續(xù)改進其加密算法,以支持物聯(lián)網(wǎng)應(yīng)用對隱私和安全的持續(xù)需求。
圖 3:從 Cortex-A7 (32 位) CPU 遷移到 Cortex-A35 (64 位) CPU(帶有加密擴展)時的加密性能提升
對開發(fā)者的影響:軟件和工具
與所有其他應(yīng)用領(lǐng)域一樣,軟件和工具也將持續(xù)在智能攝像頭領(lǐng)域發(fā)揮著重要作用,為廣大的開發(fā)者持續(xù)創(chuàng)新提供動力,使新功能和應(yīng)用源源不斷地產(chǎn)生。隨著對 64 位 Linux 發(fā)行版的支持繼續(xù)擴大,越來越多公司增加了對各種新功能的支持,如運行基于最新 Arm 架構(gòu)的容器調(diào)度器。
此外,Arm 繼續(xù)利用最新 CPU 中的新功能來增強開源的 GNU編譯器工具鏈。Arm 還增加了對領(lǐng)先的計算機視覺、圖像處理和機器學習開源庫OpenCV的支持,從而賦能更多的開發(fā)者能夠輕松開發(fā)智能攝像頭應(yīng)用和產(chǎn)品。
來自 Arm 和更廣泛生態(tài)系統(tǒng)的支持
Arm 將持續(xù)在最新的 64 位架構(gòu)規(guī)格版本中提供與數(shù)字信號處理、矢量處理、機器學習和安全有關(guān)的增強功能,所有這些都是未來幾代智能攝像頭需要的關(guān)鍵計算處理能力。
在所有智能攝像頭中采用基于 64 位的 Arm處理器有諸多益處,其中關(guān)鍵的是可以得到來自生態(tài)系統(tǒng)的廣泛支持。例如,AWS 已經(jīng)通過其 AWS Sagemaker Neo 服務(wù),在任何支持 64 位 Armv8-A 的設(shè)備上增加了對機器學習推理的支持,使得那些計劃使用 AWS云服務(wù)進行機器學習部署的公司可從中受益。
Project Cassini 等生態(tài)系統(tǒng)計劃解決了物聯(lián)網(wǎng)部署的兩個主要障礙:可擴展性和碎片化。對于芯片合作伙伴、ODM、OEM、ISV、系統(tǒng)集成商和開發(fā)者來說,Project Cassini 通過加快在不同的Arm 64 位平臺上部署云原生應(yīng)用,釋放了邊緣和物聯(lián)網(wǎng)計算潛力。而要能充分利用 Project Cassini 和 SystemReady? 計劃的優(yōu)勢, 64 位的計算平臺是必不可缺的要素。
為了加速邊緣設(shè)備的開發(fā)和部署,Arm在2021年10月發(fā)布了 Arm 物聯(lián)網(wǎng)全面解決方案(Arm Total Solutions for IoT),其產(chǎn)品路線圖呈現(xiàn)了包括 Arm 虛擬硬件在內(nèi)的全面解決方案的愿景,使客戶能夠在芯片流片前啟動軟件開發(fā)的工作。
總結(jié)
如果您想要在智能攝像頭生態(tài)系統(tǒng)中超越競爭對手,那么采用 64 位處理技術(shù)至關(guān)重要。Arm 樂于隨時為開發(fā)者社區(qū)和合作伙伴提供支持,協(xié)助應(yīng)對向 64 位處理技術(shù)過渡過程中的任何技術(shù)挑戰(zhàn)。向 64 位遷移將會開創(chuàng)“雙贏”局面。它將在性能、效率和安全方面為整個生態(tài)系統(tǒng)帶來諸多裨益,并有助于攝像頭滿足未來的創(chuàng)新,進而改變我們的世界。
注:本文作者為Arm物聯(lián)網(wǎng)兼嵌入式事業(yè)部業(yè)務(wù)拓展 副總裁 馬健
評論