博客專欄

EEPW首頁 > 博客 > 全民自動駕駛5年內(nèi)真的會來嗎?這是Lyft的自動駕駛2.0

全民自動駕駛5年內(nèi)真的會來嗎?這是Lyft的自動駕駛2.0

發(fā)布人:數(shù)據(jù)派THU 時間:2021-09-19 來源:工程師 發(fā)布文章

來源:機器之心

過去十年,盡管機器學習已經(jīng)在圖像識別、決策制定、NLP 和圖像合成等領(lǐng)域取得很多成功,但卻在自動駕駛技術(shù)領(lǐng)域沒有太多進展。這是哪些原因造成的呢?近日,Lyft 旗下 Level 5 自動駕駛部門的研究者對這一問題進行了深入的探討。他們提出了自動駕駛領(lǐng)域的「Autonomy 2.0」概念:一種機器學習優(yōu)先的自動駕駛方法。

1.png

論文地址:

https://arxiv.org/pdf/2107.08142.pdf

自 2005 至 2007 年的 DARPA 超級挑戰(zhàn)賽(DARPA Grand Challenge,由美國 DARPA 部門出資贊助的無人駕駛技術(shù)大獎賽)以來,自動駕駛汽車(SDV)就已經(jīng)成為了一個活躍的研究領(lǐng)域,并經(jīng)常成為頭條新聞。許多企業(yè)都在努力開發(fā) Level 4 SDV,有些企業(yè)已經(jīng)在該領(lǐng)域耕耘了十多年。

已經(jīng)有一些研究展示了小規(guī)模的 SDV 測試,雖然很多預測都認為「僅需要 5 年就可以迎來無處不在的 SDV 時代」,但應(yīng)看到生產(chǎn)級的部署似乎依然遙不可及。鑒于發(fā)展進程受限,我們不可避免地會遇到一些問題,比如為什么研究社區(qū)低估了問題的困難度?當今 SDV 的發(fā)展中是否存在一些根本性的限制?

在 DARPA 挑戰(zhàn)賽之后,大多數(shù)業(yè)內(nèi)參與者將 SDV 技術(shù)分解為 HD 地圖繪制、定位、感知、預測和規(guī)劃。隨著 ImageNet 數(shù)據(jù)庫帶來的各種突破,感知和預測部分開始主要通過機器學習(ML)來處理。但是,行為規(guī)劃和模擬很大程度上仍然基于規(guī)則,即通過人類編寫的越來越詳細的關(guān)于 SDV 應(yīng)如何驅(qū)動的規(guī)則實現(xiàn)性能提升。一直以來有種說法,在感知非常準確的情況下,基于規(guī)則的規(guī)劃方法可能足以滿足人類水平的表現(xiàn)。這種方法被稱為 Autonomy 1.0。

2.png

圖 3:Autonomy 1.0 的典型技術(shù)堆棧,展示了各個組件中使用到的 ML 數(shù)量。從圖中可以看到,感知和預測組件是基于 ML 的,但規(guī)劃和模擬依然依賴于非擴展、基于規(guī)則的系統(tǒng)。

但是,生產(chǎn)級的性能需要大規(guī)模地擴展以發(fā)現(xiàn)和妥當處理小概率事件的「長尾效應(yīng)(long tail)」。研究者認為 Autonomy 1.0 無法實現(xiàn)這一點,原因有以下三點:

一是基于規(guī)則的規(guī)劃器和模擬器無法有效地建模駕駛行為的復雜度和多樣性,需要針對不同的地理區(qū)域進行重新調(diào)整,它們基本上沒有從深度學習技術(shù)的進展中獲得增益;

二是由于基于規(guī)則的模擬器在功效上受限,因此評估主要通過路測完成,這無疑延遲了開發(fā)周期;

三是 SDV 路測的成本高昂,且擴展性差。

因此,針對這些擴展瓶頸,研究者提出將整個 SDV 堆棧轉(zhuǎn)變成一個 ML 系統(tǒng),并且該系統(tǒng)可以使用包含多樣化且真實的人類駕駛數(shù)據(jù)的大規(guī)模數(shù)據(jù)集來訓練和離線驗證。他們將這個 ML 系統(tǒng)稱為 Autonomy 2.0,它是一個數(shù)據(jù)優(yōu)先的范式:ML 將堆棧的所有組件(包括規(guī)劃和模擬)轉(zhuǎn)化為數(shù)據(jù)問題,并且通過更好的數(shù)據(jù)集而不是設(shè)計新的駕駛規(guī)則來實現(xiàn)性能的提升。這樣做極大地釋放了處理小概率事件長尾效應(yīng)和擴展至新的地理區(qū)域所需要的擴展性,唯一需要做的是收集規(guī)模足夠大的數(shù)據(jù)集并重新訓練系統(tǒng)。

Autonomy 1.0 與 Autonomy 2.0 的開發(fā)流程對比,可以看到 Autonomy 1.0 的可擴展性低、SDV 行為由工程師賦予、驗證方法為路測、硬件成本高,而 Autonomy 2.0 的可擴展性高、SDV 行為從人類駕駛中學得、驗證方法為離線模擬、硬件成本在可負擔范圍內(nèi)。

3.png

不過,Autonomy 2.0 也面臨著以下幾項主要挑戰(zhàn):

將堆棧表示為端到端可微網(wǎng)絡(luò);

在閉環(huán)中利用機器學習的模擬器進行離線驗證;

收集訓練這些模擬器需要大量人類駕駛數(shù)據(jù)。

Autonomy 2.0

Autonomy 2.0 是一種 ML 優(yōu)先的自動駕駛方法,專注于實現(xiàn)高可擴展性。它基于三個關(guān)鍵原則:i) 閉環(huán)模擬,即模型從收集的真實駕駛?cè)罩局袑W習;ii) 將 SDV 分解為端到端的可微分神經(jīng)網(wǎng)絡(luò);iii) 訓練規(guī)劃器和模擬器所用的數(shù)據(jù)是使用商品傳感器大規(guī)模收集的。

數(shù)據(jù)驅(qū)動的閉環(huán)反應(yīng)模擬

Autonomy 2.0 中的大部分評估都是在模擬中離線完成的?;谝?guī)則的模擬具有一些局限性,這與 Autonomy 1.0 對路測的依賴形成鮮明對比。但這并不意味著 Autonomy 2.0 完全放棄了路測,不過其目標在開發(fā)周期中不太突出,主要用于驗證模擬器的性能。為了使模擬成為開發(fā)道路測試的有效替代品,它需要三個屬性:

適用于任務(wù)的模擬狀態(tài)表征;

能夠以高保真度和強大的反應(yīng)能力合成多樣化和逼真的駕駛場景;

應(yīng)用于新的場景和地域時,性能隨著數(shù)據(jù)量的增加而提升。

4.png

模擬結(jié)果必須非常真實,因為模擬和現(xiàn)實之間的任何差異都會導致性能估計不準確,但它不需要是照片般逼真的 [29],而是只關(guān)注規(guī)劃器的表示。該研究推斷,為了達到高水平的真實感,模擬本身必須直接從現(xiàn)實世界中學習。最近,[28] 展示了如何使用鳥瞰圖表示從先前收集的真實世界日志中構(gòu)建逼真的和反應(yīng)性的模擬。如圖 4 所示,然后可以部署此模擬將任何日志轉(zhuǎn)換為反應(yīng)式模擬器,用于測試自動駕駛策略。

從人類演示中訓練出來的完全可微的堆棧

Autonomy 1.0 具有手工設(shè)計的基于規(guī)則的組件,以及感知、預測、規(guī)劃和模擬之間的人類可解釋接口。與 之不同,Autonomy 2.0 堆棧完全可以通過人類演示進行訓練,因此其復雜性與訓練數(shù)據(jù)量成正比。為了訓練這樣一個系統(tǒng),需要滿足幾個條件:

每個組件,包括規(guī)劃,都需要可訓練且端到端的可微分;

可使用人工演示進行訓練;

性能與訓練數(shù)據(jù)量成正比。

下圖 5 是完全可微的 Autonomy 2.0 堆棧架構(gòu),可以從數(shù)據(jù)進行端到端的訓練,而無需設(shè)計單個塊和接口。其中, d、h、f 和 g 是可學習的神經(jīng)網(wǎng)絡(luò)。d 和 h 給出了規(guī)劃發(fā)生的場景的潛在表示。f 代表 SDV 和場景中代理的策略。g 是狀態(tài)轉(zhuǎn)移函數(shù)。I_0 是網(wǎng)絡(luò)的輸入,而 {I_1, ··, I_3} 在訓練期間提供監(jiān)督。

5.png

大規(guī)模低成本數(shù)據(jù)采集

到目前為止討論的系統(tǒng)使用人類演示作為訓練數(shù)據(jù),即具有由人類駕駛員選擇的相應(yīng)軌跡的傳感器數(shù)據(jù)作為監(jiān)督。要解鎖生產(chǎn)級性能,這些數(shù)據(jù)需要具備:

足夠的規(guī)模和多樣性以包括罕見事件的長尾;

足夠的傳感器保真度,即用于收集數(shù)據(jù)的傳感器需要足夠準確才能有效地訓練規(guī)劃器和模擬器;

足夠便宜,可以以這種規(guī)模和保真度收集。

雖然最近第一個帶有人類演示的公開數(shù)據(jù)集已發(fā)布,但這些數(shù)據(jù)僅限于幾千英里的數(shù)據(jù)。觀察長尾可能需要收集數(shù)億英里的數(shù)據(jù),因為大多數(shù)駕駛都是平安無事的,例如在美國,每百萬英里大約有 5 起撞車事故 。

應(yīng)該使用哪些傳感器呢?感知算法的最新進展表明,在 KITTI 基準測試 [44] 上,高清和商用傳感器(如相機 和稀疏激光雷達 [42])之間的感知精度差距縮小了,如下表 1 所示。

6.png

表 1:收集數(shù)據(jù)時面臨傳感器可擴展性和保真度之間的權(quán)衡,這會直接影響感知精度

未來需要解決哪些問題

研究者概述了 Autonomy 2.0 的范式,旨在使用 ML 優(yōu)先的方法解決自動駕駛問題。并且,通過消除人在回路(human-in-the-loop),這一范式的擴展性更強,這也是實現(xiàn)高性能自動駕駛汽車技術(shù)的主要痛點。雖然 Autonomy 2.0 范式的發(fā)展前景很好,但依然有需要解決的問題,具體如下:

模擬和規(guī)劃的恰當狀態(tài)表示是什么?我們應(yīng)如何衡量場景概率?

我們應(yīng)如何檢測異常值(outlier)以及從未見過的情況(case)?

與使用搜索進行的實時推理相比,通過人類演示進行離線訓練的極限在哪里?

我們需要在模擬上投入多少?又應(yīng)如何衡量離線模擬本身的性能?

我們在訓練高性能規(guī)劃和模擬組件上需要多少數(shù)據(jù)?在大規(guī)模數(shù)據(jù)收集時又應(yīng)該使用什么傳感器呢?

解答這些問題對于自動駕駛和其他現(xiàn)實世界的機器人問題至關(guān)重要,并且可以激發(fā)研究社區(qū)盡早解鎖高性能 SDV。

編輯:王菁

校對:林亦霖

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

衰減器相關(guān)文章:衰減器原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉