ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎？（4）

發(fā)布人：計算機視覺工坊時間：2023-07-04 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

掩碼策略和教師選擇

圖2(a)展示了使用不同掩碼策略在ScanObjectNN上的平均微調(diào)準確率。

可以觀察到，使用隨機掩碼的較高掩碼比例會產(chǎn)生更好的結(jié)果，而塊掩碼則對較低掩碼比例更為適用。
需要注意的是，當(dāng)掩碼比例為零時，對所有標記使用基準知識蒸餾，并且導(dǎo)致性能較差。
圖2(b)展示了使用不同教師Transformer的ACT在ScanObjectNN上的平均微調(diào)準確率，包括Vision Transformers、全MLP架構(gòu)、語言模型和視覺語言模型。觀察到較大的教師模型始終能夠獲得更好的性能。

此外，令人驚訝的是，ACT使用語言模型BERTB（即BERTbase）作為跨模態(tài)教師，可以達到平均準確率85.12±0.54%（最高可達85.88%），這表明ACT可以推廣到任何模態(tài)。

表7: dVAE標記器不同訓(xùn)練策略的消融研究。
報告了F-Score，使用l1范數(shù)和l2范數(shù)的倒角距離，即CD- l1和CD- l2

3D自編碼器訓(xùn)練

表7展示了使用預(yù)訓(xùn)練的2D圖像Transformer進行不同訓(xùn)練配置的3D自編碼器的重構(gòu)結(jié)果。觀察到：

(i)帶有預(yù)訓(xùn)練圖像Transformer的3D dVAE模型在重構(gòu)結(jié)果上明顯優(yōu)于Point-BERT。這表明預(yù)訓(xùn)練的2D圖像Transformer具有強大的對3D的表示能力。

(ii) 提示調(diào)整或凍結(jié)模型可以獲得比完全調(diào)整更好的結(jié)果，我們認為這是因為某些預(yù)訓(xùn)練的2D知識被遺忘了，而提示調(diào)整有效地解決了這個問題。重構(gòu)可視化結(jié)果可以在附錄D中找到。

六、討論6.1 是所需要更強大的標記器嗎?

為了了解預(yù)訓(xùn)練的2D圖像Transformer在3D dVAE模型中的必要性，我們用不同的dVAE教師和掩模建模配置進行了實驗。

從表8中，可以看到:

(i) 當(dāng)使用沒有預(yù)訓(xùn)練的2D圖像變壓器的Point-BERT dVAE模型時，通過提取潛在特征而不是離散令牌，可以實現(xiàn)+0.62%的改進。分析認為，離散令牌識別學(xué)習(xí)起來更具挑戰(zhàn)性3D數(shù)據(jù)。

(ii) 當(dāng)使用Point-BERT離散標記作為掩碼建模目標時，通過應(yīng)用帶有預(yù)訓(xùn)練2D圖像Transformer的dVAE模型，得到了最差的性能。這表明，無論標記器有多強大，離散標記都不適用于語義稀疏的點云數(shù)據(jù)。

(iii) 當(dāng)使用ACT時，性能顯著提高。這表明，帶有預(yù)訓(xùn)練2D圖像Transformer`的3D dVAE能夠編碼具有豐富語義的特征，更適合于掩碼點建模。

表10: 二維圖像轉(zhuǎn)換器在dVAE模型中不同位置嵌入的研究。
(a)無:不使用位置嵌入。(b) 2D/z:僅使用2D xy平面坐標的位置嵌入。
(c) 3D:所有3D xyz坐標的位置嵌入。
報告了F-Score，使用l1范數(shù)和l2范數(shù)的倒角距離，即CD- l1和CD-l2，以及ScanObjectNN上的OA。

6.2 ACT是否可以用作輔助知識蒸餾方法？

由于ACT使用編碼特征作為掩碼建模目標，它具有將我們的方法作為輔助特征蒸餾的潛力。

表9顯示了在Point-MAE模型中，使用ACT作為中間特征的輔助深度監(jiān)督訓(xùn)練的結(jié)果，其中ACT編碼的潛在特征被蒸餾到Point-MAE的編碼器特征中。

可以觀察到，ACT能夠顯著提高Point-MAE在ScanObjectNN上的準確率，提高了0.87%，表明ACT作為一種知識蒸餾方法具有可擴展性和有效性。

6.3 2D Vision Transformer如何理解3D點云？

為了更好地理解2D圖像Transformer如何通過自編碼器訓(xùn)練理解3D輸入，研究了ViT-B在我們的ACT dVAE模型中使用的位置嵌入的效果。從表10可以看出：

(i) 在沒有任何位置嵌入的情況下，預(yù)訓(xùn)練的ViT仍然可以學(xué)習(xí)可遷移的3D特征（準確率為84.21±0.45%）。我們認為這是因為位置幾何信息已經(jīng)包含在輸入的3D坐標中，預(yù)訓(xùn)練的2D Transformer可以通過幾何特征純粹處理3D數(shù)據(jù)，而不需要顯式的位置提示。

(ii) 當(dāng)僅使用2D xy平面坐標的位置嵌入時，準確率顯著提高了0.89%。我們認為2D位置嵌入是為了適應(yīng)凍結(jié)的圖像Transformer而學(xué)習(xí)的，使圖像Transformer能夠?qū)?D輸入編碼為具有高語義的預(yù)訓(xùn)練2D特征空間。

(iii) 當(dāng)使用所有3D坐標進行位置嵌入時，2D圖像Transformer成功利用了附加坐標信息來進行更好的特征編碼。

七、總結(jié)

本文提出了一種自監(jiān)督學(xué)習(xí)框架ACT，通過預(yù)訓(xùn)練的基礎(chǔ)Transformer進行掩碼建模，將特征蒸餾傳遞給3D Transformer學(xué)生模型。ACT首先通過自監(jiān)督的3D自編碼將預(yù)訓(xùn)練的基礎(chǔ)Transformer轉(zhuǎn)化為跨模態(tài)的3D教師模型。

然后，來自調(diào)整后的3D自編碼器的語義豐富的潛在特征被用作3D Transformer學(xué)生模型的掩碼建模目標，展現(xiàn)了在各種下游3D任務(wù)上卓越的泛化性能。作為一種通用的自監(jiān)督學(xué)習(xí)框架，相信ACT可以輕松擴展到除3D數(shù)據(jù)之外的其他模態(tài)。

這種自監(jiān)督方式展示了跨模態(tài)知識轉(zhuǎn)移的巨大潛力，這可能在數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)時代極大地促進了基礎(chǔ)建模的發(fā)展。

附錄：可視化

圖3比較了基于2D圖像Transformer的3D dVAE和Point-BERT 3D dVAE模型的重建結(jié)果。

實驗結(jié)果表明，所設(shè)計的三維自編碼器能夠高質(zhì)量地重建物體細節(jié)。
對于一些相對簡單的物體，如第二行矩形表，我們的方法和Point-BERT都可以很好地重建它們。然而，對于細節(jié)相對復(fù)雜的點集，如第三排的薄架子和扶手椅，我們的方法仍然可以用詳細的局部幾何信息重建物體。
這些定性觀察結(jié)果與表7中的定量結(jié)果一致。

圖4顯示了t-SNE在ShapeNet上進行預(yù)訓(xùn)練并在ModelNet40和ScanObjectNN PB_T50_RS數(shù)據(jù)集上進行微調(diào)后的模型特征可視化。

可以觀察到:

(i) 在ShapeNet上進行預(yù)訓(xùn)練后，由于相對較小的域間隙，模型已經(jīng)可以在ModelNet上產(chǎn)生判別特征。

(ii) 在對下游數(shù)據(jù)集進行微調(diào)后，在ModelNet40和具有挑戰(zhàn)性的ScanObjectNN數(shù)據(jù)集上都獲得了判別特征。

(iii) Shapenet預(yù)訓(xùn)練ACT在ScanObjectNN上提取的特征分布看起來不那么判別性。我們認為有兩個原因?qū)е滤? (i)合成的ShapeNet和真實的ScanObjectNN數(shù)據(jù)集之間的大域差距，以及(ii) ACT使用的不是對比損失，例如區(qū)分(例如，Point-BERT使用的MoCo損失)。有趣的是，這在ScanObjectNN上產(chǎn)生了更好的泛化性能(ACT的OA為88.21%，而Point-BERT為83.07%)。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎？（4）

相關(guān)推薦

技術(shù)專區(qū)