智能駕駛芯片TOP20排名

發(fā)布人：旺材芯片時間：2024-02-15 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

智能駕駛芯片排名并不簡單只看AI算力，CPU、存儲帶寬、功耗和AI算力數(shù)值一樣重要。

在智能駕駛系統(tǒng)中，CPU算力扮演著至關(guān)重要的角色。由于軟件系統(tǒng)的復(fù)雜性，它需要消耗大量的CPU運算資源。軟件系統(tǒng)包含眾多中間件，如SOME/IP、自適應(yīng)AUTOSAR、DDS、ROS等，以及基礎(chǔ)軟件如定制的Linux BSP、OS抽象層、虛擬機等。此外，與底層硬件關(guān)聯(lián)的內(nèi)存管理、各種驅(qū)動、通訊協(xié)議等也大量消耗CPU資源。

在應(yīng)用層中，路徑規(guī)劃、高精度地圖、行為決策等也是CPU資源的主要消耗部分。同時，CPU還負責管理AI運算時的任務(wù)調(diào)度和存儲搬運指令等任務(wù)。盡管AI在圖像特征提取、分類、BEV變換、矢量地圖映射或空間分布等方面具有重要作用，但CPU仍然是核心，而AI只是其附屬功能。

在衡量算力方面，權(quán)重排名依次為AI算力、存儲帶寬、CPU算力、GPU算力和制造工藝。存儲帶寬和AI算力具有同等重要性。盡管GPU在某些情況下可以處理FP32數(shù)據(jù)，發(fā)揮重要作用，但大部分車載AI處理部分僅對應(yīng)INT8位數(shù)據(jù)。

為了更準確地衡量算力，MAC陣列數(shù)量是一個關(guān)鍵指標。例如，谷歌的TPU V1具有65000個FP16 MAC，運行頻率為0.7GHz，其算力為91TOPS。而特斯拉第一代FSD的兩個NPU，每個具有9216個INT8 MAC，運行頻率為2GHz，其總算力為73.7TOPS。至于制造工藝，更先進的工藝意味著更低的功耗。

智能駕駛芯片TOP20

圖片來源：公開資料整理如何計算存儲帶寬，芯片本身都有存儲管理器，這通常是CPU的一部分，決定存儲帶寬的有兩點，首先是CPU支持的存儲類型，即存儲的物理層和控制器，其次是CPU的存儲帶寬，LPDDR的存儲帶寬最高一般是256比特，GDDR可以到384比特，HBM可以到4096甚至8192比特，這些都關(guān)聯(lián)成本，廠家在設(shè)計芯片時，會在成本和性能之間找一個平衡點，有些廠家偏重成本，那就64比特甚至32比特，有些偏重性能，如真正的AI芯片，無一例外都是HBM的，成本都在1500美元以上。
常見汽車內(nèi)存性能與價格對比

圖片來源：公開資料整理上表為常見汽車內(nèi)存性能與價格對比，顯然，一分價錢一分貨。英偉達H100是HBM3的最大采購者，每GB的采購價格大約14美元。還有一點需要指出，目前沒有車規(guī)級GDDR6存儲芯片。
目前智能駕駛芯片除了百度和特斯拉，都采用了LPDDR。
歷代LPDDR的參數(shù)

圖片來源：公開資料整理

存儲帶寬在智能駕駛系統(tǒng)中扮演著至關(guān)重要的角色，其計算方式是將CPU的存儲位寬與存儲器的Data transfer rate（DDR）相乘，再除以8換算為大寫的GB。以英偉達Orin和特斯拉一代FSD為例，Orin的存儲位寬為256比特，支持LPDDR5，傳輸速率為6400MT/s，其存儲帶寬為204.8GB/s；而特斯拉一代FSD的存儲位寬為128比特，支持LPDDR4，傳輸速率為3200MT/s，其存儲帶寬為51.2GB/s。

Roof-line模型是解決計算量和訪存量問題的理論工具。計算量指的是模型進行一次完整前向傳播所發(fā)生的浮點運算個數(shù)，即模型的時間復(fù)雜度。而訪存量指的是模型完成一次前向傳播過程中所發(fā)生的內(nèi)存交換總量，即模型的空間復(fù)雜度。計算量除以訪存量可以得到模型的計算強度I，表示此模型在計算過程中每Byte內(nèi)存交換到底用于進行多少次浮點運算。

由于智能駕駛系統(tǒng)軟件異常復(fù)雜，會消耗大量的CPU運算資源，軟件系統(tǒng)包含眾多中間件諸如SOME/IP、自適應(yīng)AUTOSAR、DDS、ROS等，基礎(chǔ)軟件包括訂制的Linux BSP、OS抽象層、虛擬機等。除此之外，應(yīng)用層中的路徑規(guī)劃、高精度地圖、行為決策等也大量消耗CPU資源。同時CPU也管理AI運算時的任務(wù)調(diào)度、存儲搬運指令等，整體的任務(wù)調(diào)度、決策自然也是CPU的任務(wù)。

在智能駕駛系統(tǒng)中，CPU算力占據(jù)核心地位。為了確保系統(tǒng)的流暢運行和高效性能，必須綜合考慮AI算力、存儲帶寬、CPU和GPU算力以及制造工藝等多種因素。

算力決定“屋頂”的高度（綠色線段），帶寬決定“房檐”的斜率（紅色線段）

在智能駕駛系統(tǒng)中，模型計算的理論性能受到硬件最大理論性能的限制。如果一個模型所需的算力超過了計算平臺的理論性能，那么計算平臺的利用率將達到100%，此時風險在于處理圖像的幀率或FPS可能無法達到目標幀率。對于智能駕駛來說，主流幀率是30FPS，而高速行駛則需要更高的幀率。

如果模型的算力需求過高，計算平臺即使?jié)M負荷運轉(zhuǎn)也無法適應(yīng)，導(dǎo)致幀率下降。在這種情況下，高速行駛會帶來風險。一般來說，廠家不會推薦使用算力需求遠超理論性能上限的模型。

當計算平臺的利用率低于100%時，模型處于Memory-Bound狀態(tài)。在這個狀態(tài)下，模型的理論性能P完全由計算平臺的帶寬上限（房檐的斜率）和模型自身的計算強度I（Intensity）決定。因此，在帶寬瓶頸的前提下，計算平臺的帶寬越陡峭，或者模型的計算強度越大，模型的理論性能P可以呈線性增長。

斜率較低意味著即使計算強度快速增加，計算平臺算力的增加也很緩慢，導(dǎo)致計算平臺的利用率很低。例如，如果計算平臺的理論算力是100TOPS，斜率很低，那么即使很高的計算強度模型的利用率也可能不到50%。這意味著存儲帶寬決定了計算平臺的性能利用率。因此，存儲帶寬的重要性絲毫不亞于算力，甚至可能高于算力。這也是特斯拉二代FSD排名第二的主要原因，因為GDDR6的帶寬相對于LPDDR具有壓倒性優(yōu)勢。

特斯拉第二代FSD

圖片來源：網(wǎng)絡(luò)

特斯拉第二代FSD芯片采用了三星的7納米工藝，這一選擇主要是出于價格和地理因素的考慮。首先，三星的代工價格遠低于臺積電，大約只有臺積電價格的一半左右。其次，臺積電的亞利桑那工廠效率相對較低，從2020年開工建設(shè)到預(yù)計2025年投產(chǎn)，進度緩慢。而三星的德克薩斯奧斯汀二代工廠僅用兩年就完工投產(chǎn)，且距離特斯拉總部較近。

第一代FSD使用的是三星的14納米工藝。根據(jù)WikiChip的數(shù)據(jù)，三星7納米LPP HD高密度cell方案的晶體管密度高達95.08 MTr/mm2，而HP高性能方案的晶體管密度為77.01 MTr/mm2。相比之下，三星14納米UHP方案的晶體管密度為26.22 MTr/mm2，HP方案晶體管密度為32.94 MTr/mm2?；旧?，三星7納米的晶體管密度是14納米的3倍以上。這意味著特斯拉的第二代FSD芯片可以容納更多的MAC陣列，從而實現(xiàn)AI性能的三倍提升。考慮到第一代FSD的AI性能為73.7TOPS@INT8，三倍的提升即為221.1TOPS。如果再結(jié)合稀疏模型加速技術(shù)，算力數(shù)字還可以再增長一倍。另外，根據(jù)推測，由于二代FSD芯片面積明顯大于一代，并且NPU增加到3個，因此其算力可能在500TOPS上下。

特斯拉在二代FSD中還大幅度加強了CPU的性能，采用了三星的Exynos 20核心配置。這進一步證明了CPU在智能駕駛中的重要性。

安霸的CV3可能不為大多數(shù)人所熟知，但它在存儲帶寬方面表現(xiàn)出色，支持最高的LPDDR5X規(guī)格，并且具有最高的256比特位寬。這款芯片采用三星的5納米工藝制造，目前已經(jīng)得到了德國大陸汽車公司的支持。

綜上所述，無論是特斯拉還是安霸，都在積極探索更先進的制程工藝和存儲技術(shù)，以提高AI性能和系統(tǒng)整體表現(xiàn)。隨著智能駕駛技術(shù)的不斷發(fā)展，這些創(chuàng)新將為未來的汽車帶來更高效、更安全的駕駛體驗。

安霸CV3-AD內(nèi)部框架圖

圖片來源：Ambarella

安霸CV3-AD是一款高性能的汽車AI芯片，最高包括了16核心的Coretex-A78AE，具有極高的CPU算力。同時，它也通過了ASIL-B級認證，這意味著它具有高度的可靠性和安全性。在AI算力方面，安霸CV3-AD等效于500TOPS，表現(xiàn)出色。

英偉達、特斯拉和Mobileye等也是汽車AI芯片領(lǐng)域的知名企業(yè)。英偉達的芯片位寬為256比特，而特斯拉和Mobileye的芯片大多是128比特。至于征程6的存儲信息，目前尚未公布。

另外，值得一提的是百度旗下的昆侖芯科技。雖然較少人知曉，但昆侖芯科技其實是百度智能芯片及架構(gòu)部獨立后的產(chǎn)物，全稱為昆侖芯（北京）科技有限公司。該公司在2021年4月完成了獨立融資，估值約為130億元。在2022年11月29日的百度Apollo Day技術(shù)開放日上，第二代昆侖芯宣布已完成在百度無人駕駛車輛RoboTaxi的駕駛系統(tǒng)上的完整適配，并在高階自動駕駛系統(tǒng)中運行正常。

昆侖芯科技的歷史可以追溯到2011年，當時它開始從事AI計算相關(guān)工作，早期使用FPGA芯片對AI進行計算加速。在接下來的幾年里，昆侖芯科技在百度數(shù)據(jù)中心部署了超過5000片F(xiàn)PGA芯片，并在2017年累計部署超過12000片。到了2018年，昆侖芯科技決定自研AI芯片，并正式啟動昆侖芯系列產(chǎn)品的研發(fā)和設(shè)計。

第一代昆侖芯于2020年開始大規(guī)模部署，采用14納米工藝和先進的HBM內(nèi)存、2.5D封裝技術(shù)。這款芯片剛量產(chǎn)就在百度數(shù)據(jù)中心里部署了超過2萬片。一年后，第二代昆侖芯量產(chǎn)，采用了更先進的7納米工藝和XPU第二代的架構(gòu)。同時，它也是業(yè)界第一顆采用GDDR6高速顯存技術(shù)的AI芯片。目前，昆侖芯科技正在研發(fā)更先進的第三代AI芯片，針對高階自動駕駛系統(tǒng)，未來可能會推出定制的車規(guī)高性能SoC（系統(tǒng)級芯片）。

綜上所述，汽車AI芯片領(lǐng)域的市場競爭激烈，各大廠商都在積極研發(fā)高性能、高可靠性和高安全性的產(chǎn)品。而隨著技術(shù)的不斷進步和應(yīng)用場景的不斷拓展，這個市場還有很大的發(fā)展空間和潛力。

圖片來源：昆侖芯科技
英偉達對存儲系統(tǒng)一向比較重視，全線都是最高的256比特。高通SA8650與座艙領(lǐng)域的SA8255非常近似，CPU和GPU基本完全相同，AI算力做了特別加強，存儲位寬是比較少見的96比特，SA8650是取代上一代SA8540P的，主要是增加了針對功能安全的部分，增加了4個Cortex-R52內(nèi)核。Mobileye對成本異常重視，也從不公布其存儲帶寬和支持存儲類型，只能猜測。Xavier雖是早期產(chǎn)品，但存儲位寬是最高的256比特，所以排名很靠前。

來源：佐思汽車研究

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

智能駕駛芯片TOP20排名

相關(guān)推薦

技術(shù)專區(qū)