博客專欄

EEPW首頁 > 博客 > CVPR 2021 | 谷歌發(fā)布視頻全景分割數(shù)據(jù)集!順帶開發(fā)個模型屠榜

CVPR 2021 | 谷歌發(fā)布視頻全景分割數(shù)據(jù)集!順帶開發(fā)個模型屠榜

發(fā)布人:計算機視覺工坊 時間:2021-05-14 來源:工程師 發(fā)布文章

1.png

本文轉(zhuǎn)載自:新智元  |  編輯:LRS

自動駕駛里視覺一直為人所詬病,特斯拉就是經(jīng)常被拉出來批判的典型。谷歌最近開發(fā)了一個新模型,效果拔群,已被CVPR2021接收。

對于人來說,看一張平面照片能夠想象到重建后的3D場景布局,能夠根據(jù)2D圖像中包含的有限信號來識別對象,確定實例大小并重建3D場景布局。

這個問題有一個術(shù)語叫做光學(xué)可逆問題inverse optics problem,它是指從視網(wǎng)膜圖像到視網(wǎng)膜刺激源的模糊映射。

2.png

現(xiàn)實世界中的計算機視覺應(yīng)用,例如自動駕駛就嚴(yán)重依賴這些功能來定位和識別3D對象,這需要AI模型來推斷投影到2D圖像的每個3D點的空間位置、語義類別和實例標(biāo)簽。

從圖像重建3D世界的能力可以分解為兩個獨立的子任務(wù):單目深度估計(從單個圖像預(yù)測深度)和視頻全景分割(實例分割和語義分割)。

研究人員通常對每個任務(wù)提出不同的模型,通過在多個任務(wù)之間共享計算的模型權(quán)重。在實際應(yīng)用的時候,將這些任務(wù)與統(tǒng)一的計算機視覺模型一起處理可以簡化部署提高效率。

基于這個研究背景,Google提出一個全新的模型ViP-DeepLab,通過深度感知視頻全景分割來學(xué)習(xí)視覺感知,已被CVPR 2021接受,旨在同時解決單目深度估計和視頻全景分割。

ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic Segmentation

3.png

論文:https://arxiv.org/abs/2012.05258

數(shù)據(jù)集:https://github.com/joe-siyuan-qiao/ViP-DeepLab

論文中還提出了兩個數(shù)據(jù)集,并提出了一種稱為深度感知視頻全景質(zhì)量(DVPQ)的新評估指標(biāo),這個新指標(biāo)可以同時評估深度估計和視頻全景分割。

4.png

ViP-DeepLab是一個統(tǒng)一的模型,可以對圖像平面上的每個像素聯(lián)合執(zhí)行視頻全景分割和單目深度估計,并在子任務(wù)的幾個學(xué)術(shù)數(shù)據(jù)集取得了sota結(jié)果。

5.gif

ViP-DeepLab通過從兩個連續(xù)的幀作為輸入來執(zhí)行其他預(yù)測,輸出包括第一幀的深度估計,它為每個像素分配一個深度估計值。

此外,ViP-DeepLab還對出現(xiàn)在第一幀中的對象中心執(zhí)行兩個連續(xù)幀的中心回歸,此過程稱為中心偏移預(yù)測,它允許兩個幀中的所有像素分組到出現(xiàn)在第一幀中的同一對象。如果未將新實例匹配到先前檢測到的實例中,則會出現(xiàn)新實例。

6.png

ViP-DeepLab的輸出可以用于視頻全景分割。連接兩個連續(xù)的幀作為輸入。語義分割輸出將每個像素與其語義類別相關(guān)聯(lián),而實例分割輸出則從與第一幀中的單個對象相關(guān)聯(lián)的兩個幀中識別像素,輸入圖像來自Cityscapes數(shù)據(jù)集。

7.png8.png論文中在多個流行的基準(zhǔn)數(shù)據(jù)集上測試了ViP-DeepLab,包括Cityscapes-VPS,KITTI深度預(yù)測和KITTI多對象跟蹤和分段(MOTS)。

ViP-DeepLab都取得了SOTA的結(jié)果,在Cityscapes-VPS測試上,其視頻全景質(zhì)量(VPQ)大大優(yōu)于以前的方法,達(dá)到了5.1%。

9.png

在KITTI深度預(yù)測基準(zhǔn)上進(jìn)行單眼深度估計的比較,對于深度估算指標(biāo),值越小,性能越好。盡管差異可能看起來很小,但在此基準(zhǔn)上性能最高的方法通常在SILog中的間隙小于0.1。

10.png

此外,VIP-DeepLab也在KITTI MOTS行人和汽車排名度量使用新的度量標(biāo)準(zhǔn)HOTA,都取得了顯著提升。

11.png

最后,論文中還為新任務(wù)提供了兩個新的數(shù)據(jù)集,即深度感知視頻全景分割,并在其上測試了ViP-DeepLab,而這個模型的結(jié)果將成為社區(qū)進(jìn)行比較的基準(zhǔn)模型。

12.png

ViP-DeepLab具有簡單的體系結(jié)構(gòu),可在視頻全景分割,單目深度估計以及多對象跟蹤和分割方面實現(xiàn)最先進(jìn)的性能,這個模型也能幫助進(jìn)一步研究對2D場景中的真實世界。

參考資料:

https://ai.googleblog.com/2021/04/holistic-video-scene-understanding-with.html

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉