博客專欄

EEPW首頁(yè) > 博客 > ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎?(4)

ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎?(4)

發(fā)布人:計(jì)算機(jī)視覺工坊 時(shí)間:2023-07-04 來(lái)源:工程師 發(fā)布文章
掩碼策略和教師選擇

圖2(a)展示了使用不同掩碼策略在ScanObjectNN上的平均微調(diào)準(zhǔn)確率。

  • 可以觀察到,使用隨機(jī)掩碼的較高掩碼比例會(huì)產(chǎn)生更好的結(jié)果,而塊掩碼則對(duì)較低掩碼比例更為適用。
  • 需要注意的是,當(dāng)掩碼比例為零時(shí),對(duì)所有標(biāo)記使用基準(zhǔn)知識(shí)蒸餾,并且導(dǎo)致性能較差。
  • 圖2(b)展示了使用不同教師Transformer的ACT在ScanObjectNN上的平均微調(diào)準(zhǔn)確率,包括Vision Transformers、全MLP架構(gòu)、語(yǔ)言模型和視覺語(yǔ)言模型。觀察到較大的教師模型始終能夠獲得更好的性能。

此外,令人驚訝的是,ACT使用語(yǔ)言模型BERTB(即BERTbase)作為跨模態(tài)教師,可以達(dá)到平均準(zhǔn)確率85.12±0.54%(最高可達(dá)85.88%),這表明ACT可以推廣到任何模態(tài)。

表7: dVAE標(biāo)記器不同訓(xùn)練策略的消融研究。

  • 報(bào)告了F-Score,使用l1范數(shù)和l2范數(shù)的倒角距離,即CD- l1和CD- l2

圖片

3D自編碼器訓(xùn)練

表7展示了使用預(yù)訓(xùn)練的2D圖像Transformer進(jìn)行不同訓(xùn)練配置的3D自編碼器的重構(gòu)結(jié)果。觀察到:

(i)帶有預(yù)訓(xùn)練圖像Transformer的3D dVAE模型在重構(gòu)結(jié)果上明顯優(yōu)于Point-BERT。這表明預(yù)訓(xùn)練的2D圖像Transformer具有強(qiáng)大的對(duì)3D的表示能力。

(ii) 提示調(diào)整或凍結(jié)模型可以獲得比完全調(diào)整更好的結(jié)果,我們認(rèn)為這是因?yàn)槟承╊A(yù)訓(xùn)練的2D知識(shí)被遺忘了,而提示調(diào)整有效地解決了這個(gè)問題。重構(gòu)可視化結(jié)果可以在附錄D中找到。

圖片



六、討論6.1 是所需要更強(qiáng)大的標(biāo)記器嗎?

為了了解預(yù)訓(xùn)練的2D圖像Transformer在3D dVAE模型中的必要性,我們用不同的dVAE教師和掩模建模配置進(jìn)行了實(shí)驗(yàn)。

從表8中,可以看到:

(i) 當(dāng)使用沒有預(yù)訓(xùn)練的2D圖像變壓器的Point-BERT dVAE模型時(shí),通過提取潛在特征而不是離散令牌,可以實(shí)現(xiàn)+0.62%的改進(jìn)。分析認(rèn)為,離散令牌識(shí)別學(xué)習(xí)起來(lái)更具挑戰(zhàn)性3D數(shù)據(jù)。

(ii) 當(dāng)使用Point-BERT離散標(biāo)記作為掩碼建模目標(biāo)時(shí),通過應(yīng)用帶有預(yù)訓(xùn)練2D圖像Transformer的dVAE模型,得到了最差的性能。這表明,無(wú)論標(biāo)記器有多強(qiáng)大,離散標(biāo)記都不適用于語(yǔ)義稀疏的點(diǎn)云數(shù)據(jù)。

(iii) 當(dāng)使用ACT時(shí),性能顯著提高。這表明,帶有預(yù)訓(xùn)練2D圖像Transformer`的3D dVAE能夠編碼具有豐富語(yǔ)義的特征,更適合于掩碼點(diǎn)建模。

表10: 二維圖像轉(zhuǎn)換器在dVAE模型中不同位置嵌入的研究。

(a)無(wú):不使用位置嵌入。(b) 2D/z:僅使用2D xy平面坐標(biāo)的位置嵌入。

(c) 3D:所有3D xyz坐標(biāo)的位置嵌入。

報(bào)告了F-Score,使用l1范數(shù)和l2范數(shù)的倒角距離,即CD- l1和CD-l2,以及ScanObjectNN上的OA。

圖片

6.2 ACT是否可以用作輔助知識(shí)蒸餾方法?

由于ACT使用編碼特征作為掩碼建模目標(biāo),它具有將我們的方法作為輔助特征蒸餾的潛力。

表9顯示了在Point-MAE模型中,使用ACT作為中間特征的輔助深度監(jiān)督訓(xùn)練的結(jié)果,其中ACT編碼的潛在特征被蒸餾到Point-MAE的編碼器特征中。

可以觀察到,ACT能夠顯著提高Point-MAE在ScanObjectNN上的準(zhǔn)確率,提高了0.87%,表明ACT作為一種知識(shí)蒸餾方法具有可擴(kuò)展性和有效性。

6.3 2D Vision Transformer如何理解3D點(diǎn)云?

為了更好地理解2D圖像Transformer如何通過自編碼器訓(xùn)練理解3D輸入,研究了ViT-B在我們的ACT dVAE模型中使用的位置嵌入的效果。從表10可以看出:

(i) 在沒有任何位置嵌入的情況下,預(yù)訓(xùn)練的ViT仍然可以學(xué)習(xí)可遷移的3D特征(準(zhǔn)確率為84.21±0.45%)。我們認(rèn)為這是因?yàn)槲恢脦缀涡畔⒁呀?jīng)包含在輸入的3D坐標(biāo)中,預(yù)訓(xùn)練的2D Transformer可以通過幾何特征純粹處理3D數(shù)據(jù),而不需要顯式的位置提示。

(ii) 當(dāng)僅使用2D xy平面坐標(biāo)的位置嵌入時(shí),準(zhǔn)確率顯著提高了0.89%。我們認(rèn)為2D位置嵌入是為了適應(yīng)凍結(jié)的圖像Transformer而學(xué)習(xí)的,使圖像Transformer能夠?qū)?D輸入編碼為具有高語(yǔ)義的預(yù)訓(xùn)練2D特征空間。

(iii) 當(dāng)使用所有3D坐標(biāo)進(jìn)行位置嵌入時(shí),2D圖像Transformer成功利用了附加坐標(biāo)信息來(lái)進(jìn)行更好的特征編碼。



七、總結(jié)

本文提出了一種自監(jiān)督學(xué)習(xí)框架ACT,通過預(yù)訓(xùn)練的基礎(chǔ)Transformer進(jìn)行掩碼建模,將特征蒸餾傳遞給3D Transformer學(xué)生模型。ACT首先通過自監(jiān)督的3D自編碼將預(yù)訓(xùn)練的基礎(chǔ)Transformer轉(zhuǎn)化為跨模態(tài)的3D教師模型。

然后,來(lái)自調(diào)整后的3D自編碼器的語(yǔ)義豐富的潛在特征被用作3D Transformer學(xué)生模型的掩碼建模目標(biāo),展現(xiàn)了在各種下游3D任務(wù)上卓越的泛化性能。作為一種通用的自監(jiān)督學(xué)習(xí)框架,相信ACT可以輕松擴(kuò)展到除3D數(shù)據(jù)之外的其他模態(tài)。

這種自監(jiān)督方式展示了跨模態(tài)知識(shí)轉(zhuǎn)移的巨大潛力,這可能在數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)時(shí)代極大地促進(jìn)了基礎(chǔ)建模的發(fā)展。


附錄:可視化

圖3比較了基于2D圖像Transformer的3D dVAE和Point-BERT 3D dVAE模型的重建結(jié)果。

  • 實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)的三維自編碼器能夠高質(zhì)量地重建物體細(xì)節(jié)。
  • 對(duì)于一些相對(duì)簡(jiǎn)單的物體,如第二行矩形表,我們的方法和Point-BERT都可以很好地重建它們。然而,對(duì)于細(xì)節(jié)相對(duì)復(fù)雜的點(diǎn)集,如第三排的薄架子和扶手椅,我們的方法仍然可以用詳細(xì)的局部幾何信息重建物體。
  • 這些定性觀察結(jié)果與表7中的定量結(jié)果一致。

圖片


圖4顯示了t-SNE在ShapeNet上進(jìn)行預(yù)訓(xùn)練并在ModelNet40和ScanObjectNN PB_T50_RS數(shù)據(jù)集上進(jìn)行微調(diào)后的模型特征可視化。

可以觀察到:

(i) 在ShapeNet上進(jìn)行預(yù)訓(xùn)練后,由于相對(duì)較小的域間隙,模型已經(jīng)可以在ModelNet上產(chǎn)生判別特征。

(ii) 在對(duì)下游數(shù)據(jù)集進(jìn)行微調(diào)后,在ModelNet40和具有挑戰(zhàn)性的ScanObjectNN數(shù)據(jù)集上都獲得了判別特征。

(iii) Shapenet預(yù)訓(xùn)練ACT在ScanObjectNN上提取的特征分布看起來(lái)不那么判別性。我們認(rèn)為有兩個(gè)原因?qū)е滤? (i)合成的ShapeNet和真實(shí)的ScanObjectNN數(shù)據(jù)集之間的大域差距,以及(ii) ACT使用的不是對(duì)比損失,例如區(qū)分(例如,Point-BERT使用的MoCo損失)。有趣的是,這在ScanObjectNN上產(chǎn)生了更好的泛化性能(ACT的OA為88.21%,而Point-BERT為83.07%)。

圖片


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉