博客專欄

EEPW首頁 > 博客 > 當(dāng)Swin Transformer遇上DCN,清華可變形注意力Transformer模型優(yōu)于多數(shù)ViT

當(dāng)Swin Transformer遇上DCN,清華可變形注意力Transformer模型優(yōu)于多數(shù)ViT

發(fā)布人:機(jī)器之心 時(shí)間:2022-02-08 來源:工程師 發(fā)布文章

本文中,來自清華大學(xué)、AWS AI 和北京智源人工智能研究院的研究者提出了一種新型可變形自注意力模塊,其中以數(shù)據(jù)相關(guān)的方式選擇自注意力中鍵值對的位置,使得自注意力模塊能夠?qū)W⒂谙嚓P(guān)區(qū)域,并捕獲更多信息特征。

Transformer 近來在各種視覺任務(wù)上表現(xiàn)出卓越的性能,感受野賦予 Transformer 比 CNN 更強(qiáng)的表征能力。然而,簡單地?cái)U(kuò)大感受野會引起一些問題。一方面,使用密集注意力(例如 ViT)會導(dǎo)致過多的內(nèi)存和計(jì)算成本,并且特征可能會受到超出興趣區(qū)域的無關(guān)部分的影響;另一方面,PVT 或 Swin Transformer 中采用的稀疏注意力與數(shù)據(jù)無關(guān),可能會限制對遠(yuǎn)程(long range)關(guān)系建模的能力。

為了緩解這些問題,清華大學(xué)、AWS AI 和北京智源人工智能研究院的研究者提出了一種新型可變形自注意力模塊,其中以數(shù)據(jù)相關(guān)的方式選擇自注意力中鍵值對的位置。這種靈活的方案使自注意力模塊能夠?qū)W⒂谙嚓P(guān)區(qū)域并捕獲更多信息特征。

在此基礎(chǔ)上,該研究提出了可變形注意力 Transformer(Deformable Attention Transformer,DAT),一種具有可變形注意力的通用主干網(wǎng)絡(luò)模型,適用于圖像分類和密集預(yù)測任務(wù)。該研究通過大量基準(zhǔn)測試實(shí)驗(yàn)證明了該模型的性能提升。

微信圖片_20220208191619.png

論文地址:https://arxiv.org/abs/2201.00520v1

可變形注意力 Transformer

現(xiàn)有的分層視覺 Transformer,特別是 PVT 和 Swin Transformer 試圖解決過多注意力的挑戰(zhàn)。前者的下采樣技術(shù)會導(dǎo)致嚴(yán)重的信息損失,而后者的 Swin 注意力導(dǎo)致感受野的增長要慢得多,這限制了對大型物體進(jìn)行建模的潛力。因此,需要依賴于數(shù)據(jù)的稀疏注意力來靈活地對相關(guān)特征進(jìn)行建模,從而導(dǎo)致首先在 DCN [9] 中提出可變形機(jī)制。

然而,在 Transformer 模型中實(shí)現(xiàn) DCN 是一個(gè)不簡單的問題。在 DCN 中,特征圖上的每個(gè)元素單獨(dú)學(xué)習(xí)其偏移量,其中 H ×W ×C 特征圖上的 3 × 3 可變形卷積具有 9 HWC 的空間復(fù)雜度。如果在注意力模塊中直接應(yīng)用相同的機(jī)制,空間復(fù)雜度將急劇上升到 N_qN_kC,其中 N_q、N_k 是查詢和鍵的數(shù)量,通常與特征圖大小 HW 具有相同的比例,帶來近似于雙二次的復(fù)雜度。

盡管 Deformable DETR [54] 已經(jīng)設(shè)法通過在每個(gè)尺度上設(shè)置較少數(shù)量的 N_k = 4 的鍵來減少這種開銷,并且可以很好地作為檢測頭,但由于不可接受的信息丟失(參見附錄中的詳細(xì)比較),在骨干網(wǎng)絡(luò)中關(guān)注如此少的鍵效果不佳。與此同時(shí),[3,52] 中的觀察表明,不同的查詢在視覺注意力模型中具有相似的注意力圖。因此,該研究選擇了一個(gè)更簡單的解決方案,為每個(gè)查詢共享移位鍵和值,以實(shí)現(xiàn)有效的權(quán)衡。

模型架構(gòu)

該研究在 Transformer(等式 (4))中的可變形注意力替換了 vanilla MHSA,并將其與 MLP(等式 (5))相結(jié)合,以構(gòu)建一個(gè)可變形的視覺 transformer 塊。在網(wǎng)絡(luò)架構(gòu)方面, DAT 與 [7, 26, 31, 36] 共享類似的金字塔結(jié)構(gòu),廣泛適用于需要多尺度特征圖的各種視覺任務(wù)。如下圖 3 所示,形狀為 H × W × 3 的輸入圖像首先被步長為 4 的 4 × 4 非重疊卷積嵌入,然后一個(gè)歸一化層獲得1644319097291340.png補(bǔ)丁嵌入。

微信圖片_20220208191624.png

為了構(gòu)建分層特征金字塔,主干包括 4 個(gè)階段,步幅逐漸增加。在兩個(gè)連續(xù)的階段之間,有一個(gè)步長為 2 的非重疊 2×2 卷積,對特征圖進(jìn)行下采樣,將空間大小減半并將特征維度加倍。

在分類任務(wù)中,該研究首先對最后階段輸出的特征圖進(jìn)行歸一化,然后采用具有池化特征的線性分類器來預(yù)測對數(shù);在對象檢測、實(shí)例分割和語義分割任務(wù)中,DAT 在集成視覺模型中扮演主干的角色,以提取多尺度特征。該研究為每個(gè)階段的特征添加一個(gè)歸一化層,然后將它們輸入到以下模塊中,例如對象檢測中的 FPN [23] 或語義分割中的****。

實(shí)驗(yàn)

該研究在 3 個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),以驗(yàn)證提出的 DAT 的有效性。該研究展示了在 ImageNet-1K [10] 分類、COCO 目標(biāo)檢測和 ADE20K 語義分割任務(wù)上的結(jié)果。此外,該研究提供了消融研究和可視化結(jié)果,以進(jìn)一步展示該方法的有效性。

ImageNet-1K 分類

ImageNet-1K [10] 數(shù)據(jù)集有 128 萬張用于訓(xùn)練的圖像和 5 萬張用于驗(yàn)證的圖像。研究者在訓(xùn)練分割上訓(xùn)練 DAT 的三個(gè)變體,并報(bào)告驗(yàn)證分割上的 Top-1 準(zhǔn)確度,并與其他 Vision Transformer 模型進(jìn)行比較。

該研究在下表 2 中給出了有 300 個(gè)訓(xùn)練 epoch 的結(jié)果。與其他 SOTA 視覺 Transformer 模型相比, DAT 在具有相似計(jì)算復(fù)雜性的情況下在 Top-1 精度上實(shí)現(xiàn)了顯著提高。DAT 在所有三個(gè)尺度上都優(yōu)于 Swin Transformer [26]、PVT [36]、DPT [7] 和 DeiT [33]。沒有在 Transformer 塊 [13, 14, 35] 中插入卷積,或在補(bǔ)丁嵌入 [6, 11, 45] 中使用重疊卷積,DAT 比 Swin Transformer [26] 實(shí)現(xiàn)了 +0.7、+0.7 和 +0.5 的增益。在 384 × 384 分辨率下進(jìn)行微調(diào)時(shí),該模型繼續(xù)比 Swin Transformer 性能好 0.3。

微信圖片_20220208191625.png

COCO 目標(biāo)檢測

COCO 目標(biāo)檢測和實(shí)例分割數(shù)據(jù)集有 118K 的訓(xùn)練圖像和 5K 的驗(yàn)證圖像。該研究使用 DAT 作為 RetinaNet [24]、Mask R-CNN [17] 和 Cascade Mask R-CNN [2] 框架中的主干,以評估該方法的有效性。該研究在 ImageNet-1K 數(shù)據(jù)集上對該模型進(jìn)行 300 個(gè) epoch 的預(yù)訓(xùn)練,并遵循 Swin Transformer [26] 中類似的訓(xùn)練策略來公平地比較該方法。該研究在 1x 和 3x 訓(xùn)練計(jì)劃中報(bào)告在 RetinaNet 模型上的 DAT。如下表 3 所示,在微型和小型模型中,DAT 的性能優(yōu)于 Swin Transformer 1.1 和 1.2 mAP。

微信圖片_20220208191627.png

當(dāng)在兩階段檢測器(例如 Mask R-CNN、Cascade Mask R-CNN)中實(shí)現(xiàn)時(shí),DAT 模型在不同尺寸的 Swin Transformer 模型上實(shí)現(xiàn)了一致的改進(jìn),如下表 4 所示。

微信圖片_20220208191629.png

下表 5 給出了在驗(yàn)證集上各種方法的 mIoU 分?jǐn)?shù)。

微信圖片_20220208191631.png

消融實(shí)驗(yàn)

為了驗(yàn)證 DAT 模型中關(guān)鍵組件設(shè)計(jì)的有效性, 該研究進(jìn)行了消融實(shí)驗(yàn),報(bào)告了基于 DAT-T 的 ImageNet-1K 分類結(jié)果。對于幾何信息開發(fā),該研究首先評估了所提可變形偏移和可變形相對位置嵌入的有效性,如下表 6 所示。

微信圖片_20220208191633.png

對于不同階段的可變形注意力,該研究用不同階段的可變形注意力替換了 Swin Transfomer [26] 的移位窗口注意力。如下表 7 所示,僅替換最后階段的注意力提高了 0.1,替換最后兩個(gè)階段導(dǎo)致性能增益為 0.7(達(dá)到 82.0 的整體準(zhǔn)確度)。然而,在早期階段用更多可變形注意力替換會略微降低準(zhǔn)確性。

微信圖片_20220208191634.png

可視化

該研究在 DAT 中可視化學(xué)習(xí)變形位置的示例,以驗(yàn)證該方法的有效性。如下圖 4 所示,采樣點(diǎn)描繪在對象檢測框和實(shí)例分割掩碼的頂部,從中可以看到這些點(diǎn)已轉(zhuǎn)移到目標(biāo)對象。

微信圖片_20220208191636.png

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。

模擬電路相關(guān)文章:模擬電路基礎(chǔ)


穩(wěn)壓二極管相關(guān)文章:穩(wěn)壓二極管的作用


手機(jī)電池相關(guān)文章:手機(jī)電池修復(fù)


絕緣電阻測試儀相關(guān)文章:絕緣電阻測試儀原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉