博客專(zhuān)欄

EEPW首頁(yè) > 博客 > Point-MVSNet:基于多視角的點(diǎn)云重建網(wǎng)絡(luò)

Point-MVSNet:基于多視角的點(diǎn)云重建網(wǎng)絡(luò)

發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2023-08-07 來(lái)源:工程師 發(fā)布文章
1.介紹

Point-MVSNet的大致流程如下:1)首先生成一個(gè)粗略的深度圖(通過(guò)MVSNet,這是另一篇文章提出的網(wǎng)絡(luò)結(jié)構(gòu),不過(guò)它是通過(guò)cost volume的方式進(jìn)行重建的)。2)然后把深度圖轉(zhuǎn)換為點(diǎn)云,再通過(guò)事先生成的深度圖與ground truth之間的差值,通過(guò)迭代的方式進(jìn)一步優(yōu)化點(diǎn)云。Point-MVSNet的亮點(diǎn)為,該網(wǎng)絡(luò)把3D幾何先驗(yàn)知識(shí)和2D紋理信息融合到一個(gè)叫做特征增強(qiáng)點(diǎn)云中(feature-augmented point cloud),然后在為每一個(gè)點(diǎn)估計(jì)它的3D flow(什么是3D flow,難道是一個(gè)點(diǎn)的3D屬性的抽象表示???)

2.方法

粗略深度圖預(yù)測(cè)論文采用MVSNet模型來(lái)生成一個(gè)粗略的深度圖。通過(guò)給予MVSNet圖片和相關(guān)的相機(jī)參數(shù),MVSNet生成一個(gè)3D cost volume(代價(jià)塊),所謂代價(jià)塊,是指每一個(gè)像素其實(shí)都有一個(gè)代價(jià)值,這個(gè)代價(jià)是通過(guò)代價(jià)聚合(cost aggregation)的方式計(jì)算來(lái)的,假想此處有一個(gè)WxHxD的三維矩陣,W和H分別是圖像的寬高,D是深度范圍(一般這個(gè)D都是在實(shí)驗(yàn)中,假定的一個(gè)范圍比如5-10之類(lèi)的),這個(gè)三維矩陣的每一個(gè)值都是一個(gè)像素點(diǎn)在不同深度值下的代價(jià),如果說(shuō)某一個(gè)像素點(diǎn)在圖片的深度值下,它的代價(jià)最小,那么就取圖片作為該像素點(diǎn)的深度值,每一個(gè)像素點(diǎn)的深度值確定了之后,這張圖片的深度圖也就確定了。2D-3D特征融合在網(wǎng)絡(luò)里面使用的點(diǎn)特征是由從多尺度條件下提取出來(lái)的圖像2D特征和歸一化的3D坐標(biāo)組成的,這就是所謂的2D-3D特征融合。這里的2D特征就是通過(guò)卷積網(wǎng)絡(luò)金字塔結(jié)構(gòu),提取出多尺度的圖像特征,賦予每個(gè)點(diǎn)更大的感受野和上下文信息,一張圖圖片?=[??1,??2,??3] ,這些不同尺度下的特征圖是需要融合在一起,再去和坐標(biāo)信息融合的。而且這里還不止一張圖片,是不同角度的多張圖片,每一張圖片還提取出了多尺度的特征圖,融合不同角度的圖像特征使,需要用到不同角度的相機(jī)參數(shù),這樣才能把特征圖wrap到一個(gè)統(tǒng)一的方向(就是一些旋轉(zhuǎn)矩陣和平移向量組成的相機(jī)外參以及相機(jī)內(nèi)參,再和特征圖做矩陣乘法)。多張圖片在同一個(gè)尺度下的特征融合公式如下:

圖片

文中提到的動(dòng)態(tài)特征提取的意思就是,得出來(lái)的Cp輸入到point flow中,得到深度殘差,然后這個(gè)深度殘差往回輸入到點(diǎn)云中,進(jìn)一步更新點(diǎn)云的位置,然后再通過(guò)更新后的點(diǎn)云輸入到point flow得到深度殘差。這個(gè)過(guò)程文中迭代了兩次。

PointFlow

PointFlow是論文中的核心模塊,工作內(nèi)容為為unprojected point點(diǎn)(通過(guò)深度圖外加相機(jī)參數(shù),通過(guò)非映射的方式生成的點(diǎn))生成一系列假設(shè)點(diǎn),利用這些點(diǎn)構(gòu)造出一個(gè)有向圖,在進(jìn)行邊卷積進(jìn)一步提取鄰域特征。然后經(jīng)過(guò)MLP判斷unprojected point的偏移位置,偏移向量由各假設(shè)點(diǎn)帶權(quán)平均得到。

假設(shè)點(diǎn)的生成(Point Hypothesis Generation)

圖片對(duì)每一個(gè)unprojected point都會(huì)沿著參考相機(jī)的方向生成一系列不同偏移的點(diǎn)(就是在投影出來(lái)的點(diǎn)的前前后后生成一些點(diǎn))。公式如下:

圖片

? t代表參考相機(jī)的方向,s代表偏移距離。最后會(huì)有2m+1個(gè)假設(shè)點(diǎn)。

邊卷積(Edge Convolution)

如上圖所示,論文通過(guò)KNN的方法生成一個(gè)有向圖。邊卷積可以先簡(jiǎn)單理解為提取出邊的特征(后面研究DGCNN的時(shí)候再做詳細(xì)記錄)。

圖片

圖片如上圖所示,邊卷積過(guò)后的點(diǎn)云跳連接到一起。

Flow Prediction

如上圖所示,Point Flow輸入增強(qiáng)點(diǎn)云,輸出深度殘差圖。內(nèi)部使用了三個(gè)EdgeConv層來(lái)聚合不用尺度下的點(diǎn)特征(特征金字塔剛好也是3層),再通過(guò)快連接把EdgeConv的結(jié)果組合成一個(gè)局部點(diǎn)特征。最后通過(guò)MLP來(lái)轉(zhuǎn)換點(diǎn)特征,輸出每一個(gè)unprojected point在假設(shè)點(diǎn)上的概率值,最終的unprojected point的偏移是由每一個(gè)假設(shè)點(diǎn)帶權(quán)平均得到的。

圖片

Training loss

損失函數(shù)的公式如下所示: ? 代表迭代次數(shù)圖片


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉