全民自動駕駛5年內(nèi)真的會來嗎？這是Lyft的自動駕駛2.0

發(fā)布人：數(shù)據(jù)派THU 時間：2021-09-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來源：機器之心

過去十年，盡管機器學習已經(jīng)在圖像識別、決策制定、NLP 和圖像合成等領(lǐng)域取得很多成功，但卻在自動駕駛技術(shù)領(lǐng)域沒有太多進展。這是哪些原因造成的呢？近日，Lyft 旗下 Level 5 自動駕駛部門的研究者對這一問題進行了深入的探討。他們提出了自動駕駛領(lǐng)域的「Autonomy 2.0」概念：一種機器學習優(yōu)先的自動駕駛方法。

論文地址：

https://arxiv.org/pdf/2107.08142.pdf

自 2005 至 2007 年的 DARPA 超級挑戰(zhàn)賽（DARPA Grand Challenge，由美國 DARPA 部門出資贊助的無人駕駛技術(shù)大獎賽）以來，自動駕駛汽車（SDV）就已經(jīng)成為了一個活躍的研究領(lǐng)域，并經(jīng)常成為頭條新聞。許多企業(yè)都在努力開發(fā) Level 4 SDV，有些企業(yè)已經(jīng)在該領(lǐng)域耕耘了十多年。

已經(jīng)有一些研究展示了小規(guī)模的 SDV 測試，雖然很多預測都認為「僅需要 5 年就可以迎來無處不在的 SDV 時代」，但應(yīng)看到生產(chǎn)級的部署似乎依然遙不可及。鑒于發(fā)展進程受限，我們不可避免地會遇到一些問題，比如為什么研究社區(qū)低估了問題的困難度？當今 SDV 的發(fā)展中是否存在一些根本性的限制？

在 DARPA 挑戰(zhàn)賽之后，大多數(shù)業(yè)內(nèi)參與者將 SDV 技術(shù)分解為 HD 地圖繪制、定位、感知、預測和規(guī)劃。隨著 ImageNet 數(shù)據(jù)庫帶來的各種突破，感知和預測部分開始主要通過機器學習（ML）來處理。但是，行為規(guī)劃和模擬很大程度上仍然基于規(guī)則，即通過人類編寫的越來越詳細的關(guān)于 SDV 應(yīng)如何驅(qū)動的規(guī)則實現(xiàn)性能提升。一直以來有種說法，在感知非常準確的情況下，基于規(guī)則的規(guī)劃方法可能足以滿足人類水平的表現(xiàn)。這種方法被稱為 Autonomy 1.0。

圖 3：Autonomy 1.0 的典型技術(shù)堆棧，展示了各個組件中使用到的 ML 數(shù)量。從圖中可以看到，感知和預測組件是基于 ML 的，但規(guī)劃和模擬依然依賴于非擴展、基于規(guī)則的系統(tǒng)。

但是，生產(chǎn)級的性能需要大規(guī)模地擴展以發(fā)現(xiàn)和妥當處理小概率事件的「長尾效應(yīng)（long tail）」。研究者認為 Autonomy 1.0 無法實現(xiàn)這一點，原因有以下三點：

一是基于規(guī)則的規(guī)劃器和模擬器無法有效地建模駕駛行為的復雜度和多樣性，需要針對不同的地理區(qū)域進行重新調(diào)整，它們基本上沒有從深度學習技術(shù)的進展中獲得增益；

二是由于基于規(guī)則的模擬器在功效上受限，因此評估主要通過路測完成，這無疑延遲了開發(fā)周期；

三是 SDV 路測的成本高昂，且擴展性差。

因此，針對這些擴展瓶頸，研究者提出將整個 SDV 堆棧轉(zhuǎn)變成一個 ML 系統(tǒng)，并且該系統(tǒng)可以使用包含多樣化且真實的人類駕駛數(shù)據(jù)的大規(guī)模數(shù)據(jù)集來訓練和離線驗證。他們將這個 ML 系統(tǒng)稱為 Autonomy 2.0，它是一個數(shù)據(jù)優(yōu)先的范式：ML 將堆棧的所有組件（包括規(guī)劃和模擬）轉(zhuǎn)化為數(shù)據(jù)問題，并且通過更好的數(shù)據(jù)集而不是設(shè)計新的駕駛規(guī)則來實現(xiàn)性能的提升。這樣做極大地釋放了處理小概率事件長尾效應(yīng)和擴展至新的地理區(qū)域所需要的擴展性，唯一需要做的是收集規(guī)模足夠大的數(shù)據(jù)集并重新訓練系統(tǒng)。

Autonomy 1.0 與 Autonomy 2.0 的開發(fā)流程對比，可以看到 Autonomy 1.0 的可擴展性低、SDV 行為由工程師賦予、驗證方法為路測、硬件成本高，而 Autonomy 2.0 的可擴展性高、SDV 行為從人類駕駛中學得、驗證方法為離線模擬、硬件成本在可負擔范圍內(nèi)。

不過，Autonomy 2.0 也面臨著以下幾項主要挑戰(zhàn)：

將堆棧表示為端到端可微網(wǎng)絡(luò)；

在閉環(huán)中利用機器學習的模擬器進行離線驗證；

收集訓練這些模擬器需要大量人類駕駛數(shù)據(jù)。

Autonomy 2.0

Autonomy 2.0 是一種 ML 優(yōu)先的自動駕駛方法，專注于實現(xiàn)高可擴展性。它基于三個關(guān)鍵原則：i) 閉環(huán)模擬，即模型從收集的真實駕駛?cè)罩局袑W習；ii) 將 SDV 分解為端到端的可微分神經(jīng)網(wǎng)絡(luò)；iii) 訓練規(guī)劃器和模擬器所用的數(shù)據(jù)是使用商品傳感器大規(guī)模收集的。

數(shù)據(jù)驅(qū)動的閉環(huán)反應(yīng)模擬

Autonomy 2.0 中的大部分評估都是在模擬中離線完成的?；谝?guī)則的模擬具有一些局限性，這與 Autonomy 1.0 對路測的依賴形成鮮明對比。但這并不意味著 Autonomy 2.0 完全放棄了路測，不過其目標在開發(fā)周期中不太突出，主要用于驗證模擬器的性能。為了使模擬成為開發(fā)道路測試的有效替代品，它需要三個屬性：

適用于任務(wù)的模擬狀態(tài)表征；

能夠以高保真度和強大的反應(yīng)能力合成多樣化和逼真的駕駛場景；

應(yīng)用于新的場景和地域時，性能隨著數(shù)據(jù)量的增加而提升。

模擬結(jié)果必須非常真實，因為模擬和現(xiàn)實之間的任何差異都會導致性能估計不準確，但它不需要是照片般逼真的 [29]，而是只關(guān)注規(guī)劃器的表示。該研究推斷，為了達到高水平的真實感，模擬本身必須直接從現(xiàn)實世界中學習。最近，[28] 展示了如何使用鳥瞰圖表示從先前收集的真實世界日志中構(gòu)建逼真的和反應(yīng)性的模擬。如圖 4 所示，然后可以部署此模擬將任何日志轉(zhuǎn)換為反應(yīng)式模擬器，用于測試自動駕駛策略。

從人類演示中訓練出來的完全可微的堆棧

Autonomy 1.0 具有手工設(shè)計的基于規(guī)則的組件，以及感知、預測、規(guī)劃和模擬之間的人類可解釋接口。與之不同，Autonomy 2.0 堆棧完全可以通過人類演示進行訓練，因此其復雜性與訓練數(shù)據(jù)量成正比。為了訓練這樣一個系統(tǒng)，需要滿足幾個條件：

每個組件，包括規(guī)劃，都需要可訓練且端到端的可微分；

可使用人工演示進行訓練；

性能與訓練數(shù)據(jù)量成正比。

下圖 5 是完全可微的 Autonomy 2.0 堆棧架構(gòu)，可以從數(shù)據(jù)進行端到端的訓練，而無需設(shè)計單個塊和接口。其中， d、h、f 和 g 是可學習的神經(jīng)網(wǎng)絡(luò)。d 和 h 給出了規(guī)劃發(fā)生的場景的潛在表示。f 代表 SDV 和場景中代理的策略。g 是狀態(tài)轉(zhuǎn)移函數(shù)。I_0 是網(wǎng)絡(luò)的輸入，而 {I_1, ··, I_3} 在訓練期間提供監(jiān)督。

大規(guī)模低成本數(shù)據(jù)采集

到目前為止討論的系統(tǒng)使用人類演示作為訓練數(shù)據(jù)，即具有由人類駕駛員選擇的相應(yīng)軌跡的傳感器數(shù)據(jù)作為監(jiān)督。要解鎖生產(chǎn)級性能，這些數(shù)據(jù)需要具備：

足夠的規(guī)模和多樣性以包括罕見事件的長尾；

足夠的傳感器保真度，即用于收集數(shù)據(jù)的傳感器需要足夠準確才能有效地訓練規(guī)劃器和模擬器；

足夠便宜，可以以這種規(guī)模和保真度收集。

雖然最近第一個帶有人類演示的公開數(shù)據(jù)集已發(fā)布，但這些數(shù)據(jù)僅限于幾千英里的數(shù)據(jù)。觀察長尾可能需要收集數(shù)億英里的數(shù)據(jù)，因為大多數(shù)駕駛都是平安無事的，例如在美國，每百萬英里大約有 5 起撞車事故。

應(yīng)該使用哪些傳感器呢？感知算法的最新進展表明，在 KITTI 基準測試 [44] 上，高清和商用傳感器（如相機和稀疏激光雷達 [42]）之間的感知精度差距縮小了，如下表 1 所示。

表 1：收集數(shù)據(jù)時面臨傳感器可擴展性和保真度之間的權(quán)衡，這會直接影響感知精度

未來需要解決哪些問題

研究者概述了 Autonomy 2.0 的范式，旨在使用 ML 優(yōu)先的方法解決自動駕駛問題。并且，通過消除人在回路（human-in-the-loop），這一范式的擴展性更強，這也是實現(xiàn)高性能自動駕駛汽車技術(shù)的主要痛點。雖然 Autonomy 2.0 范式的發(fā)展前景很好，但依然有需要解決的問題，具體如下：

模擬和規(guī)劃的恰當狀態(tài)表示是什么？我們應(yīng)如何衡量場景概率？

我們應(yīng)如何檢測異常值（outlier）以及從未見過的情況（case）？

與使用搜索進行的實時推理相比，通過人類演示進行離線訓練的極限在哪里？

我們需要在模擬上投入多少？又應(yīng)如何衡量離線模擬本身的性能？

我們在訓練高性能規(guī)劃和模擬組件上需要多少數(shù)據(jù)？在大規(guī)模數(shù)據(jù)收集時又應(yīng)該使用什么傳感器呢？

解答這些問題對于自動駕駛和其他現(xiàn)實世界的機器人問題至關(guān)重要，并且可以激發(fā)研究社區(qū)盡早解鎖高性能 SDV。

編輯：王菁

校對：林亦霖

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。