大模型如何助力自動駕駛數(shù)據(jù)閉環(huán)?
生成式AI 大模型進入自動駕駛系統(tǒng)的速度越來越快了。7 月初的智駕系統(tǒng)發(fā)布會上,理想汽車推出了全鏈路一體式端到端+ 視覺語言模型的雙系統(tǒng)方案。7 月23 日的科技創(chuàng)新日上,蔚來汽車推出世界模型NWM,雖然尚未量產(chǎn),但也宣誓了蔚來汽車要將生成式AI 大模型搬上車端自動駕駛系統(tǒng)的決心。7 月30 日的智駕系統(tǒng)發(fā)布會上,小鵬汽車宣布全量推送搭載大語言模型技術的XBrain 與XPlanner、XNet 三網(wǎng)合一的端到端大模型。到了10 月下旬,理想汽車全量推送了接棒分段式端到端無圖NOA 方案的雙系統(tǒng)方案。至此,頭部智駕車企以生成式AI 大模型解決傳統(tǒng)端到端方案缺陷的技術路線已經(jīng)相當明朗了,不過,這并非生成式AI大模型與自動駕駛領域的初次相遇,更早之前,世界模型和大語言模型就已經(jīng)用在了自動駕駛系統(tǒng)的數(shù)據(jù)閉環(huán)里。
本文引用地址:http://butianyuan.cn/article/202412/465475.htm在這樣的語境和事實下,兩個值得探討的問題是:大模型為什么能夠用于自動駕駛數(shù)據(jù)閉環(huán),大模型又是怎樣助力數(shù)據(jù)閉環(huán)的呢?
圖片來源:地平線
1 數(shù)據(jù)閉環(huán)與大模型的適配
時代的變遷從來都不是忽如一夜春風來,千樹萬樹梨花開,是一天又一天潤物細無聲的悄然改變,讓你在多日之后回頭一看方驚覺已經(jīng)變了天。自動駕駛技術路線的變遷也像郭德綱成名那樣,并非發(fā)生在具體的哪一天,而是發(fā)生在每一個夜晚。隨著自動駕駛系統(tǒng)中感知定位、決策規(guī)劃和控制模塊的實現(xiàn)方式由基于規(guī)則的代碼向AI 模型慢慢轉變,自動駕駛系統(tǒng)開發(fā)范式也從規(guī)則驅動逐漸過渡到了數(shù)據(jù)驅動,自動駕駛系統(tǒng)越來越依賴數(shù)據(jù)驅動,意味著數(shù)據(jù)閉環(huán)對自動駕駛系統(tǒng)越來越關鍵了。
所謂數(shù)據(jù)閉環(huán),指的是從數(shù)據(jù)采集到存儲,到挖掘、標注、模型訓練,再到仿真驗證、集成部署的整個開發(fā)工作流。數(shù)據(jù)閉環(huán)完成的是對數(shù)據(jù)價值的提取工作,其本質是將隱藏在一個又一個駕駛數(shù)據(jù)片段中的人類駕駛知識慢慢地乾坤大挪移到自動駕駛系統(tǒng)模型的參數(shù)文件里。
圖片來源:輝羲智能
在海量數(shù)據(jù)驅動的端到端大模型時代。如何高效地采集、處理數(shù)據(jù),如何高效地訓練模型并驗證模型能力成了決定系統(tǒng)迭代速度的關鍵。顯然,決定數(shù)據(jù)采集和駛知識慢慢地乾坤大挪移到自動駕駛系統(tǒng)模型的參數(shù)文件里。
在海量數(shù)據(jù)驅動的端到端大模型時代。如何高效地采集、處理數(shù)據(jù),如何高效地訓練模型并驗證模型能力成了決定系統(tǒng)迭代速度的關鍵。顯然,決定數(shù)據(jù)采集和價值提取效率的數(shù)據(jù)閉環(huán),決定著自動駕駛系統(tǒng)能力升級的效率。提到效率,AI大模型的價值之一就是變革工作流,提升各個環(huán)節(jié)的效率,所以,AI大模型順理成章地被各路玩家應用到了自動駕駛的數(shù)據(jù)閉環(huán)里。
圖片來源:華為
在《技術的本質》一書里,作者鮮明地指出,技術方案的一端連著用戶需求,另一端連著技術的能力。將這種認知方法論套用過來,對于自動駕駛數(shù)據(jù)閉環(huán)而言,鏈條的一端是目的或需求,數(shù)據(jù)閉環(huán)的需求在于數(shù)據(jù)標注和挖掘、模型訓練和仿真,鏈接的另一端是能夠達到目的或滿足需求的技術能力,大模型的技術能力在于帶來了兩個關鍵能力的根本性提升:超強的理解能力和超強的生成能力。
所以,就大模型的技術能力和自動駕駛數(shù)據(jù)閉環(huán)需求的匹配而言,大模型超強的理解能力可以滿足數(shù)據(jù)標注、場景挖掘的需求,其超強的生成能力可以滿足用于模型訓練與仿真的場景重建和生成。那么,展開來講,大模型是如何加持自動駕駛數(shù)據(jù)閉環(huán)的數(shù)據(jù)標注、場景挖掘、場景重建和生成的呢?
2 大模型賦能數(shù)據(jù)標注和場景挖掘
數(shù)據(jù)標注的主要作用在于從原始圖像、雷達數(shù)據(jù)中生成精標數(shù)據(jù),通過精確標注的數(shù)據(jù)構建模型的訓練集、驗證集和測試集,用于自動駕駛模型的訓練和評估。具體而言,在自動駕駛模型的訓練中,通過精標訓練數(shù)據(jù)集提供的真值和模型輸出做對比,計算損失函數(shù),再以反向傳播的方式更新模型的參數(shù),使得模型輸出可以愈來愈逼近訓練數(shù)據(jù)的真值。在自動駕駛模型的性能評估和驗證中,通過標注數(shù)據(jù)構建驗證集和測試集,將模型預測結果與標注的真實結果作比較,評估模型的性能。
圖片來源:高通
場景挖掘的主要作用是搜索或檢索帶有相似語義標簽的場景數(shù)據(jù),在模型訓練階段,通過特定場景庫的訓練讓自動駕駛模型學習該類場景的特征,提升在該類場景下的感知、決策準確性和泛化能力。在模型驗證和評估階段,通過場景挖掘構建測試場景庫,驗證模型是否可以有效應對此類場景。如果拿日常生活片段做類比,數(shù)據(jù)標注是將所有衣物都進行清洗,場景挖掘則是建立一個又一個帶標簽的小抽屜,把這些衣物分門別類地放在了小抽屜里。
圖片來源:特斯拉
早在幾年前,頭部玩家們就已經(jīng)借助AI 能力實現(xiàn)了自動標注,相較于傳統(tǒng)的人工標注,自動標注的效率提高了幾個數(shù)量級。
大模型問世之后,通過海量數(shù)據(jù)的預訓練和精標數(shù)據(jù)的精調訓練,具有圖文理解能力的大模型可以進一步提高標注的速度和準確性。更為難得的是,為了挑戰(zhàn)OpenAI,部分大模型頭部玩家采用了開源的戰(zhàn)略,使得自動駕駛行業(yè)的從業(yè)者們可以奉行拿來主義,近乎于直接采用具備精確標注能力的開源大模型進行數(shù)據(jù)標注。
圖片來源:一汽紅旗
大模型對場景挖掘的加持主要得益于圖文大模型的場景理解能力。借助之前那個小抽屜的比喻,場景挖掘的核心工作是給視頻片段打標簽、做分類,大模型具備超強的語義理解能力,可以代替人工打標簽,以極高的效率完成對海量視頻片段的處理。
圖片來源:百度
3 大模型賦能場景重建和生成
自動駕駛系統(tǒng)能力提升的過程是覆蓋一個又一個長尾場景的過程。長尾場景遵循動態(tài)的定義,因人而異,因時而異,對比亞迪智駕系統(tǒng)成立的長尾場景對華為ADS和小鵬XNGP不一定成立,對半年前的智駕系統(tǒng)成立的長尾場景對今天的智駕系統(tǒng)也未必成立。簡而言之,系統(tǒng)處理不了的都是長尾場景,處理得了,無論場景有多么復雜,也不再稱其為長尾場景。
雖然現(xiàn)實世界千奇百怪,但是,大部分人過的都是一個又一個平平淡淡的日子,換言之,通過真實車輛收集駕駛長尾場景的速度實在太慢了。根據(jù)頭部智駕方案供應商Momenta的估計,自動駕駛系統(tǒng)要達到L4 等級,需要1,000 億公里的累計駕駛里程才能收集完罕見長尾問題。目前,國內(nèi)累計智駕里程最多的理想汽車累計里程也不過才25億公里,和1000億公里還有著遠超十萬八千里的差距。
既然通過真實車輛收集長尾場景的時間太漫長,那么,秉持“有困難要上,沒有困難創(chuàng)造困難也要上”的態(tài)度,可以以虛擬仿真和數(shù)字孿生的方式制造長尾場景,利用大模型的生成能力將Corner case 變成小case。具體的,首先通過3D 高斯濺射或Nerf 神經(jīng)輻射場重建駕駛場景,然后利用大模型的生成能力對重建的駕駛場景做泛化,做數(shù)據(jù)增強,生成各種天氣、光照、交通參與者下的長尾場景。
圖片來源:地平線
寫在最后
過去領跑自動駕駛賽道的玩家更早地布局自動駕駛數(shù)據(jù)閉環(huán)的建設,再加上代表自動駕駛最新技術路線的端到端更加依賴數(shù)據(jù)驅動,所以,雖然大模型對各家自動駕駛數(shù)據(jù)閉環(huán)的各個階段都能有所助益,但是,從大模型這個大家伙那里獲得最大收益的,依然是頭部玩家華為、特斯拉、蔚小理!
圖片來源:Momenta
(注:本文來源于《EEPW》202412)
評論