最新綜述 | 復雜環(huán)境中的計算機視覺問題介紹及解決!(2)
模型和算法:交通流量變量包括交通量、密度、速度和排隊長度。用于檢測和跟蹤目標以從視頻中估計交通流量變量的算法和模型,可分為一階段和兩階段方法。在一階段方法中,根據檢測結果估計變量,并且沒有進一步的分類和位置優(yōu)化,例如:1) YOLOv3+DeepSORT跟蹤器;2) YOLOv2+空間金字塔池化;3) AlexNet+光流+高斯混合模型;4) 基于無人機視頻的CNN+光流;5) 基于無人機視頻的SSD(單鏡頭檢測)。兩階段方法首先生成包含輸入圖像中所有潛在目標的區(qū)域建議,然后進行分類和位置優(yōu)化,兩階段方法的例子是:1)Faster R-CNN+SORT跟蹤器[81];2) Faster R-CNN[82],[83];3) 基于無人機視頻的Faster R-CNN[84],[85]。
當前克服挑戰(zhàn)的方法:[86]中提出了ITS邊緣的DL方法,該方法在交通監(jiān)控視頻中執(zhí)行實時車輛檢測、跟蹤和計數(shù)。神經網絡通過YOLOv3對象檢測方法捕獲外觀特征,在單幀級別檢測單個車輛,該方法部署在邊緣設備上,以最小化帶寬和功耗。[61]中討論了一種在惡劣天氣條件下實現(xiàn)各種交通環(huán)境中準確度和檢測速度之間最佳權衡的車輛檢測和跟蹤方法。此外,還引入了一個名為DAWN的新數(shù)據集,用于在大霧、雨、雪和沙塵暴等惡劣天氣條件下進行車輛檢測和跟蹤,以減少訓練偏差。
2)交通擁堵檢測模型和算法:基于計算機視覺的交通擁堵檢測方法也可分為單階段方法和多步驟方法。單階段方法從視頻圖像中識別車輛并直接執(zhí)行交通擁堵檢測。
當前克服挑戰(zhàn)的方法:使用基于多個傳感器的解決方案(包括雷達、激光和傳感器融合)可以提高擁塞檢測性能,因為在現(xiàn)實場景中使用單個傳感器很難實現(xiàn)理想的性能和精度。決策算法廣泛用于處理從多個傳感器獲取的融合數(shù)據[93]。利用惡劣天氣條件數(shù)據集訓練的基于CNN的模型可以提高檢測性能[94],同時也應用了基于生成對抗網絡(GAN)的風格轉移方法[95]。這些方法有助于最大限度地減少與可推廣性相關的模型挑戰(zhàn),從而提高真實世界的性能。
3)自動駕駛感知:檢測模型和算法:輔助AD的常見檢測任務分為交通標志檢測、交通信號檢測、道路/車道檢測、行人檢測和車輛檢測。
當前克服挑戰(zhàn)的方法:在交通標志檢測中,現(xiàn)有的交通標志數(shù)據集在挑戰(zhàn)條件的類型和嚴重程度方面受到限制。與這些條件相對應的元數(shù)據是不可用的,由于許多條件同時發(fā)生變化,因此無法調查單個因素的影響。為了克服這一問題,[126]引入了CURE TSDReal數(shù)據集,該數(shù)據集基于與真實世界環(huán)境相對應的模擬條件。[127]中提出了一種端到端交通標志檢測框架特征聚合多路徑網絡(FAMN)。它由兩個主要結構組成,即特征聚合和多路徑網絡結構,以解決交通標志檢測中的小對象檢測和細粒度分類問題。[128]中提出了一種用于夜間車輛檢測的車輛亮點信息輔助神經網絡,其中包括兩項創(chuàng)新:基于車輛亮點建立車輛標簽層次結構和設計多層融合車輛亮點信息網絡。[129]中給出了夜間情況下的實時車輛檢測,其中圖像包括占據大圖像區(qū)域的閃光,并且車輛的實際形狀沒有很好地定義。通過使用全局圖像描述符和中央凹分類器網格,可以準確有效地估計車輛位置。AugGAN[95]是用于車輛檢測領域自適應的非配對圖像到圖像轉換網絡。由于更好的圖像對象保存,它在數(shù)量上超過了競爭方法,以實現(xiàn)更高的夜間車輛檢測精度。[130]中提出了一種逐步域自適應(SDA)檢測方法,以通過最小化跨域目標檢測任務中的差異來進一步提高CycleGAN的性能。在第一步中,訓練一個未配對的圖像到圖像翻譯器,通過將源圖像翻譯成目標域中的相似圖像來構造假目標域。在第二步中,為了進一步最小化跨域的差異,設計了一個自適應的CenterNet,以對抗性學習的方式在特征級別對齊分布。
4)自動駕駛感知:分割模型和算法:圖像分割包含三個子任務:語義分割、實例分割和全景分割。語義分割是一項精細的預測任務,用相應的對象類標記圖像的每個像素,實例分割旨在識別和分割屬于每個對象實例的像素,而全景分割統(tǒng)一了語義分割和實例分割,從而為所有像素提供了類標簽和實例ID。
當前克服挑戰(zhàn)的方法:最近的分割方向包括弱監(jiān)督語義分割[139]、[140]、領域自適應[141]、[142]、多模態(tài)數(shù)據融合[143]、[144]和實時語義分割[145]、[146]、[147]。TS Yolo[148]是一個基于CNN的模型,用于在惡劣天氣條件下使用數(shù)據增強的新樣本進行準確的交通檢測。使用復制粘貼策略進行數(shù)據擴充,并從現(xiàn)有交通標志實例構建了大量新樣本?;赮oloV5,MixConv還用于在單個卷積運算中混合不同的內核大小,從而可以捕獲具有不同分辨率的模式。從大的輸入圖像中檢測和分類現(xiàn)實生活中的小交通標志是困難的,因為它們相對于較大的目標占用較少的像素。為了解決這一問題,Dense RefineDet[149]應用了單鏡頭目標檢測框架,以保持適當?shù)木?速度權衡。[127]中提出了一種端到端交通標志檢測框架特征聚合多徑網絡,以解決交通標志檢測中的小對象檢測和細粒度分類問題。
5)合作感知模型和算法:在互聯(lián)自主車輛(CAV)中,根據數(shù)據類型,可以在三個級別上執(zhí)行協(xié)作感知:早期融合(原始數(shù)據)、中間融合(預處理數(shù)據)和后期融合(處理數(shù)據),其中提取和傳輸中間神經特征,其中共享檢測輸出(3D邊界盒位置、置信分數(shù)),合作感知研究如何利用相鄰連接車輛和基礎設施的視覺線索來提高整體感知性能[150]!
1) 早期融合:[151]使用原始數(shù)據級LiDAR 3D點云融合從連接車輛的不同位置和角度收集的傳感器數(shù)據,并提出了一種基于點云的3D目標檢測方法,以處理對齊點云的多樣性。DiscoNet利用知識蒸餾,通過將相應的特征約束到網絡中用于早期融合的特征來增強訓練。
2) 中間融合:F-Cooper為邊緣應用提供了一個新的框架,為自動駕駛車輛提供服務,也為3D融合檢測提供了新的策略。[154]提出了一種用于感知和預測的車對車(V2V)方法,該方法傳輸P&P神經網絡的壓縮中間表示。[155]提出了一種注意力中間融合pipelines,以更好地捕獲網絡內連接的代理之間的交互,[150]中提出了一種使用新型vit的具有車輛對一切(V2X)通信的魯棒協(xié)作感知框架。
3) 后期融合:基于Car2X的感知被建模為虛擬傳感器,以便將其集成到高級傳感器數(shù)據融合架構中。
當前克服挑戰(zhàn)的方法:
為了減少通信負載和開銷,提出了一種用于集體感知中消息生成規(guī)則的改進算法[157],該算法通過重組集體感知消息的傳輸和內容來提高V2X通信的可靠性。[158]提出并評估了一個統(tǒng)一的合作感知框架,該框架包含分散的數(shù)據關聯(lián)和融合過程,該過程可根據參與方差進行擴展。通過采用現(xiàn)有模型以及單個車輛車載傳感器視野的簡化算法,評估考慮了自組織V2V網絡中的通信損失和交通中的隨機車輛運動的影響。AICP在[159]中提出,這是第一個解決方案,其重點是通過在網絡和應用層進行有效過濾來優(yōu)化普適合作感知系統(tǒng)的信息性。為了促進系統(tǒng)聯(lián)網,他們還使用了一個網絡協(xié)議棧,該協(xié)議棧包括專用數(shù)據結構和專門用于信息密集型應用的輕量級路由協(xié)議!
6)道路使用者行為預測模型和算法:來自視頻的軌跡預測對于自動駕駛、交通預測和擁堵管理非常有用。該領域中較老的工作集中于同質代理,例如高速公路上的汽車或人群中的行人,而異構代理僅在稀疏場景中考慮,具有某些假設,如基于車道的駕駛。
當前克服挑戰(zhàn)的方法:[172]中的切換線性動態(tài)系統(tǒng)(SLDS)描述了易受傷害道路使用者的動態(tài),并使用從車載立體攝像機提取的特征中提取的上下文擴展了動態(tài)貝葉斯網絡,重點關注靜態(tài)和動態(tài)線索。該方法可以實時工作,提供道路用戶軌跡的準確預測,它可以通過增加交通燈和人行橫道等環(huán)境來改善。[173]中探討了機載相機和激光雷達以及V2V通信的使用,以使用隨機森林和LSTM架構預測軌跡。YOLO用于檢測汽車并提供邊界框,而LiDAR提供位置的細微變化,V2V通信傳輸轉向角等原始值,以減少預測的不確定性和延遲。在[174]中,TRAF數(shù)據集用于靜態(tài)或移動相機的魯棒端到端實時軌跡預測。多車輛跟蹤采用Mask R-CNN和互速障礙物算法。如[74]所示,最后3秒的跟蹤用于預測接下來5秒的軌跡,具有端到端可訓練的額外優(yōu)勢,不需要注釋的軌跡數(shù)據。本文還提供了TrackNPred,這是一個基于python的庫,包含不同軌跡預測方法的實現(xiàn)。它是許多軌跡預測方法的通用接口,可用于在真實世界密集和異構交通數(shù)據集上使用標準誤差測量度量進行性能比較。大多數(shù)用于軌跡預測的DL方法都沒有揭示潛在的獎勵函數(shù),相反,它們只依賴于以前看到的示例,這阻礙了可推廣性并限制了其范圍。在[175]中,反向強化學習被用于找到獎勵函數(shù),從而可以說該模型有一個具體的目標,允許其部署在任何環(huán)境中。[176]中執(zhí)行基于變換器的運動預測,以在Agroverse數(shù)據集中實現(xiàn)最先進的多模態(tài)軌跡預測。該網絡對道路幾何形狀和車輛之間的相互作用進行建模。[177]中,通過時空圖上的圖卷積網絡預測復雜城市場景中的行人意圖,該方法考慮了等待穿越的行人與車輛運動之間的關系。雖然在多個數(shù)據集上實現(xiàn)了80%的準確率,但它可以提前一秒預測跨越的意圖。另一方面,將行人建模為機器人,結合SVM而不需要姿勢信息,導致更長的預測,但缺乏對上下文信息的考慮[178]。
7)交通異常檢測模型和算法:交通監(jiān)控攝像頭可用于自動檢測交通異常,如停車和排隊。[68]已使用車輛拐角等低級別圖像特征的檢測來演示隊列檢測和隊列長度估計,而無需在不同照明條件下進行對象跟蹤或背景去除?;诠饬鞯母櫡椒ú粌H可以提供隊列長度,還可以提供速度、車輛數(shù)量、等待時間和車頭時距。
當前克服挑戰(zhàn)的方法:異常檢測依賴于監(jiān)控攝像頭,通常可以提供道路遠處的視野,但遠處的車輛僅占用幾個像素,這使得檢測變得困難。因此,[182]除了多粒度的box級跟蹤之外,還使用像素級跟蹤。關鍵思想是基于幀差的掩模提取和基于高斯混合模型的車輛軌跡跟蹤,以消除移動車輛,并結合基于幀變化的分割來消除停車區(qū)。異常融合使用具有回溯優(yōu)化的box和像素級跟蹤特征來細化預測。監(jiān)控攝像機容易在風中抖動,因此在使用Faster R-CNN和級聯(lián)R-CNN形式的兩階段車輛檢測之前,進行了視頻穩(wěn)定預處理[183]。從監(jiān)控視頻中進行異常檢測的有效實時方法將外觀和運動學習分離為兩部分[184]。首先,自動編碼器學習外觀特征,然后3D卷積層可以使用來自多個過去幀的潛在代碼來預測未來幀的特征。預測特征和實際特征之間的顯著差異表明異常,該模型可以部署在交通攝像頭附近的邊緣節(jié)點上,與像素方法相比,潛在特征似乎對照明和天氣變化具有魯棒性。為了擺脫對異常注釋數(shù)據的依賴,[185]中的無監(jiān)督單類方法應用時空卷積自動編碼器來獲取潛在特征,將它們堆疊在一起,序列到序列LSTM學習時間模式。該方法在多個真實世界監(jiān)控錄像數(shù)據集上表現(xiàn)良好,但并不比監(jiān)督訓練方法更好。其優(yōu)點是,它可以在正常交通數(shù)據上無限期地訓練,而沒有任何標記的異常。
8)邊緣計算模型和算法:ITS中的計算機視覺需要高效的基礎架構來實時分析數(shù)據。如果將所有獲取的視頻流發(fā)送到單個服務器,則所需的帶寬和計算將無法提供可用的服務。例如,[193]中探討了使用視頻有用性度量進行實時自動故障檢測的邊緣計算架構。只有被認為有用的視頻才被傳輸?shù)椒掌?,而監(jiān)控攝像機的故障或視線受阻會被自動報告?;谶吘壴频挠嬎憧梢詫崿F(xiàn)DL模型,不僅用于計算機視覺任務,還用于資源分配和效率[194]。被動監(jiān)控現(xiàn)在已經被文獻中越來越多的配備傳感器的車輛所取代,這些車輛可以協(xié)同執(zhí)行感知和建圖[56]。車輛上的車載計算資源通常不夠強大,無法實時處理所有傳感器數(shù)據,而定位和地圖等應用程序可能需要大量計算。
當前克服挑戰(zhàn)的方法:大規(guī)模DL的一個問題是產生的大量數(shù)據無法發(fā)送到云計算機進行訓練。聯(lián)合學習[199]已經成為解決這個問題的一種方法,特別是考慮到異構數(shù)據源、帶寬和隱私問題。訓練可以在邊緣節(jié)點或邊緣服務器上執(zhí)行,結果被發(fā)送到云以在共享深度學習模型中聚合[56]。聯(lián)合學習對單個邊緣節(jié)點的故障也具有魯棒性[191],[200]中通過以增量和無監(jiān)督學習的形式,僅將邊緣節(jié)點的推斷數(shù)據傳輸?shù)皆疲鉀Q了帶寬、數(shù)據隱私和功率需求的問題。通常,在邊緣處理數(shù)據以減少帶寬具有匿名傳輸數(shù)據的令人愉快的副作用[201],另一種降低帶寬需求的方法是對交通流預測所需的時空特征進行頻譜聚類壓縮[192]。深度學習模型不能直接導出到移動邊緣節(jié)點,因為它們通常過于計算密集。[202]中引入了存儲和計算方面的神經網絡修剪,而[203]中討論了在硬件上實現(xiàn)生成的稀疏網絡,實現(xiàn)了效率的多個數(shù)量級提高。[204]中為移動邊緣單元開發(fā)了一個通用的輕量級CNN模型,該模型與AlexNet和VGG-16相匹配或優(yōu)于它們,但只占尺寸和計算成本的一小部分。[86]部署了使用深度學習的基于邊緣計算的交通流檢測,YOLOv3與DeepSORT一起進行了訓練和修剪,以部署在邊緣設備上實現(xiàn)實時性能。[205]中對在低功耗邊緣計算機上部署用于物聯(lián)網應用的緊湊型DNN進行了全面審查。他們注意到,DNN應用的多樣性和數(shù)量需要一種超越傳統(tǒng)修剪技術的自動模型壓縮方法。
未來方向1)數(shù)據挑戰(zhàn)問題解決雖然大量數(shù)據對于訓練深度學習模型至關重要,但質量往往是訓練性能的限制因素。數(shù)據管理是一個必要的過程,以包括邊緣案例,并根據來自真實世界的代表性數(shù)據訓練模型。標記視覺數(shù)據,特別是在復雜的城市環(huán)境中,是一項由人類完成的勞動密集型任務??梢酝ㄟ^首先使用現(xiàn)有的基于相關任務的對象檢測或分割算法來自動標記數(shù)據來加快速度。然后可以進一步檢查這一點,以消除機器的錯誤,從而創(chuàng)建一個有用的標記數(shù)據集。還需要包括來自不同視圖的多個傳感器的數(shù)據集來訓練協(xié)作感知算法。由于硬件要求和同步問題,收集此類數(shù)據必然具有挑戰(zhàn)性,但可以使用與將部署的配置類似的連接車輛和儀表交叉口。像[207]這樣的數(shù)據驅動模擬器使用高保真數(shù)據集來模擬相機和激光雷達,這可以用來訓練具有在現(xiàn)實世界中難以捕獲的數(shù)據的DL模型[208]。這種方法在自動駕駛車輛控制的端到端強化學習中顯示了希望[209]。預計領域適應技術將進一步擴展,以利用合成數(shù)據和方便收集的數(shù)據。
轉移學習的子領域,特別是few-shot學習和zero-shot學習,將廣泛應用專家知識,以解決缺乏數(shù)據的挑戰(zhàn),如ITS和AD中的角案例識別。同樣,新的無監(jiān)督學習和半監(jiān)督學習模型有望在現(xiàn)實世界計算機視覺的一般領域中應用。未來在視覺transformer可解釋性方面的工作將允許基于多個樣本的聚合度量獲得更全面的見解[41]??山忉屝匝芯恳灿型u估基于模型和無模型強化學習方法之間的差異[42]。數(shù)據分散是ITS中公認的趨勢,為了解決數(shù)據隱私、大規(guī)模數(shù)據處理和效率等問題,基于視覺任務的眾感知[210]和聯(lián)合學習[211]是ITS和AD中不可避免的未來方向。此外,與為單個任務訓練單個模型的傳統(tǒng)方式不同,使用通用基礎模型(例如Florence[212])學習多個下游任務是處理各種數(shù)據挑戰(zhàn)的一種有前途的趨勢。另一種機制是ITS中的數(shù)據處理并行性,與邊緣計算相結合,用于多任務(例如,交通監(jiān)控和道路監(jiān)控)學習[213]。
2)模型挑戰(zhàn)問題解決深度學習模型經過訓練,直到達到良好的準確性,但真實世界的測試往往揭示出邊緣情況和復雜環(huán)境條件下的弱點。需要在線學習,以使此類模型繼續(xù)改進并適應現(xiàn)實場景,否則無法實際使用。如果由于缺乏對預測正確性的實時反饋而無法進行在線訓練,則必須使用人工存儲和標記的真實數(shù)據定期分析性能。這可以作為一種迭代反饋循環(huán),其中模型不需要顯著改變,只需要根據其發(fā)現(xiàn)的最具挑戰(zhàn)性的輸入進行增量重新訓練。部分自動化這一點的一種可能方式是使用相同的輸入數(shù)據進行多個不同的冗余體系結構的預測以及置信度得分。如果輸出不一致,或者如果某個輸出的置信度分數(shù)較低,則可以手動標記該數(shù)據點并將其添加到下一次訓練迭代的訓練集中。
部署到邊緣設備的復雜深度學習模型需要通過諸如修剪之類的方法來提高效率。簡單的修剪方法可以將CNN性能提高30%以上,根據具體的架構,模型還可以被劃分為部署在獨立邊緣單元上的不同功能塊,以最小化帶寬和計算時間[215]。邊緣人工智能的一個可預見的未來階段是“邊緣的模型訓練和推理”,沒有云數(shù)據中心的參與!
近年來,人們對可解釋的人工智能進行了大量研究,尤其是在計算機視覺方面。已經使用三種可解釋的方法來處理神經網絡:基于梯度的顯著性圖、類激活映射和激發(fā)反向傳播[216]。[217]中將這些方法擴展到圖卷積網絡,指出輸入中與分類相對應的模式。[218]中給出了自我注意和共同注意transfomer網絡的可解釋性通用解決方案。雖然將這些方法應用于交通應用并不簡單,但已經做出了一些努力來理解深度時空神經網絡,該網絡處理視頻目標分割和動作識別,量化網絡中的靜態(tài)和動態(tài)信息,并深入了解模型,突出從數(shù)據集學習到的偏差[219]。為了減輕遮擋、噪聲和傳感器故障的影響,合作傳感模型開發(fā)是未來更好地感知3D的必要方向。V2X網絡和視覺transformer已用于魯棒協(xié)作感知,可支持連接的自動駕駛車輛平臺中的感知[155]。聯(lián)網的自動駕駛汽車還將托管其他深度學習模型,這些模型可以以分布式方式從新數(shù)據中學習。共識驅動的分布式感知有望利用6G V2X等未來網絡技術,從而實現(xiàn)低延遲模型訓練,從而實現(xiàn)真正的L5級自動駕駛汽車。
3)用于解決復雜的交通環(huán)境挑戰(zhàn)多模態(tài)感知和合作感知是未來實用研究的必要途徑。視頻、激光雷達和音頻等不同的模式可以組合使用,以提高純粹基于視覺的方法的性能。音頻尤其適用于早期檢測行人中的異常情況,如打架或騷亂,以及擁擠十字路口的車輛,因為視覺混亂可能不會立即顯示機械故障或輕微事故等問題。協(xié)作感知將允許來自不同車輛的同一環(huán)境的多個傳感器視圖構建包含比任何單個代理都能感知到的信息更多的公共圖片,從而解決遮擋和照明問題。使用遷移學習來提高現(xiàn)實任務中的模型性能的趨勢越來越大。最初,基于合成數(shù)據對模型進行訓練,并使用任務特定數(shù)據進行微調,從而降低了復雜的一次性深度學習模型的可靠性,并通過對具有挑戰(zhàn)性的城市場景進行再訓練來提高真實世界的性能。如前所述,領域適應、zero-shot學習、few-shot學習和基礎模型是預期的轉移學習領域,可用于此目的。在嵌入式硬件上部署后,通過在擁擠且具有挑戰(zhàn)性的場景中進行在線學習,可以進一步改善[185]中所述的無監(jiān)督方法的結果,因為存在無限量的未標記數(shù)據。在[221]中,作為異常檢測的深度學習方法的一個重要方面,討論了在復雜環(huán)境中缺乏關于誤報率上限的理論性能分析,建議未來的研究也包括這一分析。很難想象完全依賴監(jiān)控攝像頭來進行強大、廣泛和經濟的交通異常檢測。[222]中的方法包括交通、網絡、人口統(tǒng)計、土地利用和天氣數(shù)據源,以檢測交通。這種想法可以與計算機視覺應用結合使用,以獲得更好的整體性能。
ITS中邊緣計算應用的未來方向將考慮多源數(shù)據融合和在線學習。許多因素,如看不見的車輛形狀、新的周圍環(huán)境、可變的交通密度和罕見的事件,對DL模型來說都太具有挑戰(zhàn)性,該新數(shù)據可用于系統(tǒng)的在線訓練。傳統(tǒng)應用程序可以使用邊緣計算和IoV/IoT框架進行擴展,從視頻中重新識別車輛正在成為遮擋的最穩(wěn)健解決方案。然而,包含更多用于學習的時空信息會導致更大的內存和計算使用。使用已知特征,可以在不同時間點將一個相機視圖中的軌跡與其它視圖進行匹配。代替使用固定窗口,基于相似性和質量的自適應特征聚合可以推廣到許多多目標跟蹤任務[225]。transformer在學習異構體之間的動態(tài)交互方面特別有用,這在擁擠的城市環(huán)境中對于檢測和軌跡預測特別有用。它們還可用于檢測異常和預測潛在危險情況,如多用戶異構場景中的碰撞!
參考[1] Deep Learning based Computer Vision Methods for Complex Traffic Environments Perception: A Review
本文僅做學術分享,如有侵權,請聯(lián)系刪文。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。
物聯(lián)網相關文章:物聯(lián)網是什么
可控硅相關文章:可控硅工作原理
比較器相關文章:比較器工作原理