AI老司機(jī),駕齡等于人類2萬年:計(jì)劃兩年登上百萬臺(tái)車
毫末智行的 HPilot,不到一年時(shí)間就站上了國內(nèi)智能駕駛第一。
自動(dòng)駕駛前進(jìn)的速度,比我們想象得要快一些:今年,全場景輔助駕駛就會(huì)在國內(nèi)落地了。
4 月 19 日,毫末智行在 AI DAY 活動(dòng)正式推出「城市智慧領(lǐng)航輔助駕駛系統(tǒng)」NOH,并預(yù)計(jì)將于年中量產(chǎn)落地。
「2021 年,毫末智行提出中國自動(dòng)駕駛的新范式,也就是毫末智行的致勝公式:以領(lǐng)先的數(shù)據(jù)智能體系,乘以穩(wěn)定的量產(chǎn)能力乘以安全,之后再乘上生態(tài)的 N 次方。毫末智行的致勝公式源于毫末對(duì)自動(dòng)駕駛行業(yè)的深刻理解,是毫末智行自動(dòng)駕駛技術(shù)產(chǎn)業(yè)化落地的重要舉措,」毫末智行董事長張凱在活動(dòng)中說道。
隨著技術(shù)的發(fā)展,高級(jí)別智能駕駛正處在大規(guī)模量產(chǎn)的前夜。為毫末所有智能駕駛產(chǎn)品提供技術(shù)動(dòng)力支撐的自研數(shù)據(jù)智能體系 MANA 正發(fā)揮出巨大優(yōu)勢。
智能駕駛領(lǐng)域里,毫末智行已經(jīng)進(jìn)入領(lǐng)先者隊(duì)列,這家公司剛剛公布了最新輔助駕駛總里程記錄:已突破 700 萬公里,用戶使用總時(shí)長超過 13 萬小時(shí)。
在毫末產(chǎn)品規(guī)模量產(chǎn)的進(jìn)展上,去年 3 月,毫末智行在品牌開放日活動(dòng)中展示了 HPilot 1.0 系統(tǒng),5 月實(shí)現(xiàn)量產(chǎn)落地。截止今年 4 月,HPilot 已登陸魏牌摩卡、坦克 300 城市版、魏牌瑪奇朵 DHT、魏牌拿鐵 DHT、哈弗神獸、坦克 500 六款車型,成為國內(nèi)應(yīng)用量最多的自動(dòng)駕駛系統(tǒng)。
「最近一年,自動(dòng)駕駛的基礎(chǔ)技術(shù)發(fā)生了很多變化,車載芯片算力不斷提升,Transformer 跨模態(tài)模型獲得應(yīng)用,攝像頭清晰度增加。在感知技術(shù)進(jìn)化的前提下,輔助駕駛實(shí)現(xiàn)的方法也在發(fā)生改變,」毫末智行 CEO 顧維灝說道。
在城市輔助駕駛?cè)蝿?wù)上,MANA 從感知到認(rèn)知層面的能力都有了大幅度升級(jí)。
MANA 進(jìn)化:學(xué)會(huì)看紅綠燈,多模態(tài) Transformer
從高速路到城市輔助駕駛,路況的復(fù)雜程度成倍增長,讓汽車學(xué)會(huì)如何看紅綠燈并識(shí)別對(duì)應(yīng)的車道線就是重要的挑戰(zhàn)之一。
從 AI 技術(shù)的角度看,這就是一個(gè)小目標(biāo)檢測問題:交通燈的狀態(tài)會(huì)動(dòng)態(tài)變化,又具有明顯地方特色,橫著的、豎著的、三個(gè)的、五個(gè)的、有待轉(zhuǎn)的、有倒計(jì)時(shí)的,形色各異。智能駕駛系統(tǒng)必須區(qū)分每個(gè)燈具體指示哪條線路。
毫末給出的解決方法是通過圖像合成和遷移學(xué)習(xí)加快技術(shù)的迭代,其中主要的挑戰(zhàn)是實(shí)現(xiàn)真實(shí)數(shù)據(jù)和合成數(shù)據(jù)的混合訓(xùn)練。通過圖像合成技術(shù),毫末的工程師擴(kuò)大了機(jī)器學(xué)習(xí)的樣本量,彌補(bǔ)了真實(shí)場景數(shù)據(jù)樣本不均衡的問題。
在不完全依賴高精地圖的情況下,若想成功實(shí)現(xiàn)紅綠燈識(shí)別,需要完成燈型和狀態(tài)的檢測,同時(shí)也要完成在視野中多組紅綠燈中識(shí)別目標(biāo)燈組的綁路操作。毫末智行設(shè)計(jì)了一個(gè)針對(duì)紅綠燈檢測及綁路的「雙流」感知模型,將紅綠燈檢測和綁路問題分解成兩個(gè)通道。
據(jù)毫末介紹,這種技術(shù)類似于人腦的視覺感知通道,其中 ventral stream 主要攜帶物體檢測及識(shí)別信息,主要負(fù)責(zé)識(shí)別通路(what),dorsal stream 主要攜帶視野中位置及空間關(guān)系的信息,主要負(fù)責(zé)尋找路線(where)。
在雙流模型中,ventral 通路主要負(fù)責(zé)紅綠燈的識(shí)別信息,包含對(duì)紅綠燈燈箱的檢測和燈型的分類,分別輸出紅綠燈的顏色、形狀和朝向信息。Dorsal 通路主要負(fù)責(zé)紅綠燈綁路,輸出目標(biāo)車道的紅綠燈燈組,其通過訓(xùn)練生成特征圖,獲得真實(shí)圖像中經(jīng)常出現(xiàn)紅綠燈位置的位置概率。
隨后,模型利用空間注意力機(jī)制將二者結(jié)合起來,雙流模型將輸出綁路后的目標(biāo)車道紅綠燈通行狀態(tài)。
訓(xùn)練完成后,毫末智行對(duì)這些模型進(jìn)行了大量測試,在不同城市、不同距離、不同轉(zhuǎn)向目標(biāo)、不同光線的條件下均實(shí)現(xiàn)了準(zhǔn)確的效果。
Transformer 架構(gòu)是當(dāng)前人工智能領(lǐng)域最熱門的技術(shù)。過去一年里,視覺 Transformer(ViT)已經(jīng)成為視覺識(shí)別的強(qiáng)大支柱。由于性能強(qiáng)大,其在自動(dòng)駕駛的各獨(dú)立傳感器中都獲得了應(yīng)用。
人們發(fā)現(xiàn),Transformer 結(jié)構(gòu)可為自動(dòng)駕駛帶來幾種優(yōu)勢:更高效地利用模型體量和數(shù)據(jù),通過注意力結(jié)構(gòu)融合多模態(tài)數(shù)據(jù),減少對(duì)于標(biāo)注數(shù)據(jù)的依賴。
在多傳感器融合的嘗試中,交叉注意力機(jī)制(Cross Attention)被用來作為多模態(tài)數(shù)據(jù)的融合工具,大量減少了人工先驗(yàn)的介入,可以讓基于優(yōu)化的端到端算法和數(shù)據(jù)驅(qū)動(dòng)更方便的結(jié)合,進(jìn)一步發(fā)揮 Transformer 架構(gòu)的潛力。
毫末智行根據(jù)智能駕駛?cè)蝿?wù)的特點(diǎn)提出了自己的 BEV Transfomer,利用注意力機(jī)制解決了多相機(jī)視角拼接問題,在車道線識(shí)別任務(wù)上取得了進(jìn)步。
具體來說,新系統(tǒng)在得到攝像頭數(shù)據(jù)后,首先對(duì) 2D 圖像用 Resnet + FPN 進(jìn)行處理,之后進(jìn)行 BEV Mapping,利用 Cross Attention 來動(dòng)態(tài)的確定某一幀圖像中的內(nèi)容在相機(jī)所屬 BEV 空間中的位置。通過多個(gè) Cross Attention,最終組成一個(gè)完整的 BEV 空間。
當(dāng)視覺特征完成 BEV 投射之后,就天然具備了和 LiDAR 模型的融合能力。最后,算法又通過 History BEV 加入與時(shí)間有關(guān)的特征,進(jìn)一步提升識(shí)別的準(zhǔn)確率和連續(xù)性。
在自動(dòng)駕駛中應(yīng)用 Transformer 可謂最前沿的嘗試,獲得的回報(bào)也非??捎^。特斯拉 AI 總監(jiān) Andrej Karpathy 曾介紹了特斯拉 FSD 基于 Transformer 的 BEV 網(wǎng)絡(luò)結(jié)構(gòu),由于 BEV 空間下的感知結(jié)果與決策規(guī)劃所在的坐標(biāo)系是統(tǒng)一的,因此感知與后續(xù)模塊通過 BEV 變換可以緊密聯(lián)系到一起。此外,BEV 方法可以有效融合多傳感器的輸出,讓近處大目標(biāo)尺寸估計(jì)和追蹤都變得更加準(zhǔn)確。該方法的使用確立了 FSD 在視覺感知的領(lǐng)先地位。
那毫末 BEV Transfomer 的實(shí)現(xiàn)效果如何呢?毫末表示新的方法對(duì)自車姿態(tài)的容忍度更高,在復(fù)雜路面縱向誤差表現(xiàn)更好,對(duì)于路面起伏的魯棒性更高。另外,利用多相機(jī)輸出內(nèi)容相互輔助,擴(kuò)充了檢測視野,自動(dòng)駕駛對(duì)周圍事物的響應(yīng)也更快。
目前在業(yè)內(nèi),只有毫末智行和特斯拉在自動(dòng)駕駛視覺上大規(guī)模應(yīng)用了 Transformer 架構(gòu)。此類感知算法在穩(wěn)定成熟后,將逐步替換基于 CNN 的感知算法。
用大模型實(shí)現(xiàn)自動(dòng)駕駛「認(rèn)知」能力
城市自動(dòng)駕駛面臨的復(fù)雜問題往往超過感知層面。在更高層次的認(rèn)知問題上,毫末智行也有一些新成果。比如非常微妙的路口博弈場景的左轉(zhuǎn)待轉(zhuǎn)時(shí),輔助駕駛車輛需要等待前方掉頭車,還需觀察避讓對(duì)向直行車輛、與對(duì)向右轉(zhuǎn)車交互。
處理這樣的場景,過去自動(dòng)駕駛算法需要寫非常多的規(guī)則式場景判定和參數(shù),代碼難以調(diào)試。當(dāng)規(guī)則越來越多的時(shí)候,就會(huì)引發(fā)邏輯爆炸,導(dǎo)致規(guī)則失效。毫末則使用機(jī)器學(xué)習(xí)模型來替換手寫規(guī)則和參數(shù),獲得更廣泛的適用性。
毫末提出的 TarsGo 模型目前可以處理很多復(fù)雜的輔助駕駛場景,如環(huán)島、輔路匯入、壓速變道等等。
去年,阿里提出了 10 萬億參數(shù)超大規(guī)模中文預(yù)訓(xùn)練模型 M6,成為國內(nèi)首個(gè)實(shí)現(xiàn)商業(yè)化落地的多模態(tài)大模型。毫末智行和阿里達(dá)摩院進(jìn)行了合作,使用 M6 對(duì)自動(dòng)駕駛數(shù)據(jù)進(jìn)行圖像可解釋性標(biāo)注,獲得了前所未有的效果。
通過注意力機(jī)制,AI 模型可以用熱力圖方式量化出與周圍交通參與者的安全風(fēng)險(xiǎn),近距離用紅色表示,輸出 Attention High,而中距離用黃色表示,輸出 Attention Middle。
M6 在自動(dòng)駕駛領(lǐng)域的應(yīng)用體現(xiàn)了 AI 能力的普惠化 —— 以往被其他行業(yè)使用的數(shù)據(jù),現(xiàn)在也可以迭代提升自動(dòng)駕駛能力了。
毫末智行還與阿里合作,基于 128 卡 A100 集群,實(shí)現(xiàn)了 Swin Transformer 模型分布式訓(xùn)練,探索了混合精度訓(xùn)練、算子和編譯的優(yōu)化,使大模型訓(xùn)練成本降低了 60%,加速比超過 96%。
在機(jī)器學(xué)習(xí)任務(wù)中,數(shù)據(jù)處理經(jīng)常占用大部分時(shí)間。毫末智行還通過標(biāo)注過程自動(dòng)化,將數(shù)據(jù)標(biāo)注的效率自動(dòng)化率提升到了 80%,大幅減少了自動(dòng)駕駛算法訓(xùn)練的成本。
通過與大算力平臺(tái)深度融合,自動(dòng)駕駛認(rèn)知能力得到了飛速提升,這些技術(shù)進(jìn)步終于讓城市智能駕駛成為了可能。
國內(nèi)首個(gè)量產(chǎn)城市輔助駕駛系統(tǒng) HPILOT 3.0,今年上線
目前,國內(nèi)高速公路里程約 16 萬公里,城市道路里程則早已突破 1000 萬公里,在其范圍內(nèi)還有 40 萬個(gè)城市路口和 130 萬個(gè)紅綠燈。根據(jù)毫末的數(shù)據(jù),在城市場景下的通勤,有 85% 是擁堵和半擁堵情況。擁堵變道、借道繞障、路口博弈、非機(jī)動(dòng)車出現(xiàn)是城市輔助駕駛必須面臨的問題。
毫末目前已完成了城市 NOH 的全部功能開發(fā),其數(shù)據(jù)智能體系 MANA 的學(xué)習(xí)時(shí)長達(dá) 197273 小時(shí),虛擬駕齡相當(dāng)于人類司機(jī) 2 萬年。
毫末即將推出的下一代城市智能駕駛系統(tǒng) HPilot 3.0 將配備 AI 算力 360T,高速緩存 144M,CPU 計(jì)算能力達(dá)到 200K+DMIPS 的新一代自動(dòng)駕駛芯片。全車搭載 2 個(gè)激光雷達(dá)、12 個(gè)攝像頭,5 個(gè)毫米波雷達(dá)形成的多冗余感知體系。
城市 NOH 能夠根據(jù)導(dǎo)航路線在城市環(huán)境中應(yīng)對(duì)各種復(fù)雜交通場景,實(shí)現(xiàn)城市區(qū)域內(nèi)點(diǎn)到點(diǎn)安全、輕松的智慧出行。根據(jù)目前的測試,該系統(tǒng)實(shí)現(xiàn)了 70% 路口通過率,變道成功率 90%。
僅用一年多時(shí)間,毫末智行就幫助長城完成了智能駕駛能力的升級(jí),率先站在了下一階段城市智能駕駛的起跑線上。在國內(nèi)除毫末智行外,目前僅有小鵬明確表示將在今年上線城市輔助駕駛能力。
毫末為今年制定的目標(biāo)是 NOH 系統(tǒng)覆蓋超過 30 款新車。在未來兩年,搭載毫末輔助駕駛系統(tǒng)的乘用車數(shù)量將超過 100 萬臺(tái)。按照這一目標(biāo),毫末將在未來持續(xù)保持中國量產(chǎn)自動(dòng)駕駛第一名的位置。
「隨著自動(dòng)駕駛、輔助駕駛的成熟,這些新技術(shù)不僅能夠有效保障交通參與者的生命安全,還能夠逐步釋放駕駛者的駕駛時(shí)間,緩解駕駛疲勞,獲得出行效用的提升,」顧維灝表示。
在大規(guī)模量產(chǎn)后,毫末智行智能駕駛的核心——MANA數(shù)據(jù)智能,勢必將會(huì)隨數(shù)據(jù)和技術(shù)的積累,在業(yè)內(nèi)樹立標(biāo)桿。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。