Transformer在計(jì)算機(jī)視覺領(lǐng)域走到哪了？（1）

發(fā)布人：MSRAsia 時(shí)間：2021-05-28 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

編者按：Transformer 模型在自然語言處理（NLP）領(lǐng)域已然成為一個(gè)新范式，如今越來越多的研究在嘗試將 Transformer 模型強(qiáng)大的建模能力應(yīng)用到計(jì)算機(jī)視覺（CV）領(lǐng)域。那么未來，Transformer 會(huì)不會(huì)如同在 NLP 領(lǐng)域的應(yīng)用一樣革新 CV 領(lǐng)域？今后的研究思路又有哪些？微軟亞洲研究院多媒體搜索與挖掘組的研究員們基于 Vision Transformer 模型在圖像和視頻理解領(lǐng)域的最新工作，可能會(huì)帶給你一些新的理解。

作為一個(gè)由自注意力機(jī)制組成的網(wǎng)絡(luò)結(jié)構(gòu)，Transformer一“出場”就以強(qiáng)大的縮放性、學(xué)習(xí)長距離的依賴等優(yōu)勢，替代卷積神經(jīng)網(wǎng)絡(luò)（CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）等網(wǎng)絡(luò)結(jié)構(gòu)，“席卷”了自然語言處理（NLP）領(lǐng)域的理解、生成任務(wù)。

然而，Transformer 并未止步于此，2020年，Transformer 模型首次被應(yīng)用到了圖像分類任務(wù)中并得到了比 CNN 模型更好的結(jié)果。此后，不少研究都開始嘗試將 Transformer 模型強(qiáng)大的建模能力應(yīng)用到計(jì)算機(jī)視覺領(lǐng)域。目前，Transformer 已經(jīng)在三大圖像問題上——分類、檢測和分割，都取得了不錯(cuò)的效果。視覺與語言預(yù)訓(xùn)練、圖像超分、視頻修復(fù)和視頻目標(biāo)追蹤等任務(wù)也正在成為 Transformer “跨界”的熱門方向，在 Transformer 結(jié)構(gòu)基礎(chǔ)上進(jìn)行應(yīng)用和設(shè)計(jì)，也都取得了不錯(cuò)的成績。

Transformer“跨界”圖像任務(wù)

最近幾年，隨著基于 Transformer 的預(yù)訓(xùn)練模型在 NLP 領(lǐng)域不斷展現(xiàn)出驚人的能力，越來越多的工作將 Transformer 引入到了圖像以及相關(guān)的跨模態(tài)領(lǐng)域，Transformer 的自注意力機(jī)制以其領(lǐng)域無關(guān)性和高效的計(jì)算，極大地推動(dòng)了圖像相關(guān)任務(wù)的發(fā)展。

端到端的視覺和語言跨模態(tài)預(yù)訓(xùn)練模型

視覺-語言預(yù)訓(xùn)練任務(wù)屬于圖像領(lǐng)域，其目標(biāo)是利用大規(guī)模圖片和語言對(duì)應(yīng)的數(shù)據(jù)集，通過設(shè)計(jì)預(yù)訓(xùn)練任務(wù)學(xué)習(xí)更加魯棒且具有代表性的跨模態(tài)特征，從而提高下游視覺-語言任務(wù)的性能。

現(xiàn)有的視覺-語言預(yù)訓(xùn)練工作大都沿用傳統(tǒng)視覺-語言任務(wù)的視覺特征表示，即基于目標(biāo)檢測網(wǎng)絡(luò)離線抽取的區(qū)域視覺特征，將研究重點(diǎn)放到了視覺-語言（vision-language，VL）的特征融合以及預(yù)訓(xùn)練上，卻忽略了視覺特征的優(yōu)化對(duì)于跨模態(tài)模型的重要性。這種傳統(tǒng)的視覺特征對(duì)于 VL 任務(wù)的學(xué)習(xí)主要有兩點(diǎn)問題：

1）視覺特征受限于原本視覺檢測任務(wù)的目標(biāo)類別

2）忽略了非目標(biāo)區(qū)域中對(duì)于上下文理解的重要信息

為了在VL模型中優(yōu)化視覺特征，微軟亞洲研究院多媒體搜索與挖掘組的研究員們提出了一種端到端的 VL 預(yù)訓(xùn)練網(wǎng)絡(luò) SOHO，為 VL 訓(xùn)練模型提供了一條全新的探索路徑。該工作的相關(guān)論文“Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning”已收錄于CVPR 2021 Oral。

論文鏈接：https://arxiv.org/abs/2104.03135

GitHub地址：https://github.com/researchmm/soho

SOHO 模型的主要思路是：將視覺編碼器整合到 VL 的訓(xùn)練網(wǎng)絡(luò)中，依靠 VL 預(yù)訓(xùn)練任務(wù)優(yōu)化整個(gè)網(wǎng)絡(luò)，從而簡化訓(xùn)練流程，緩解依賴人工標(biāo)注數(shù)據(jù)的問題，同時(shí)使得視覺編碼器能夠在 VL 預(yù)訓(xùn)練任務(wù)的指導(dǎo)下在線更新，提供更好的視覺表征。

經(jīng)驗(yàn)證，SOHO 模型不僅降低了對(duì)人工標(biāo)注數(shù)據(jù)的需求，而且在下游多個(gè)視覺-語言任務(wù)（包括視覺問答、圖片語言檢索、自然語言圖像推理等）的公平比較下，都取得了 SOTA 的成績。

圖1：端到端的視覺語言預(yù)訓(xùn)練網(wǎng)絡(luò) SOHO

如圖1所示，SOHO 由三部分組成：1）基于卷積網(wǎng)絡(luò)的視覺編碼器（可在線更新）；2）基于視覺字典（Visual Dictionary）的視覺嵌入層；3）由多層 Transformer 組成的 VL 融合網(wǎng)絡(luò)。三個(gè)部分“各司其職”，卷積網(wǎng)絡(luò)負(fù)責(zé)將一張圖像表征為一組向量，然后利用視覺字典對(duì)圖像中相近的特征向量進(jìn)行表征，最后利用 Transformer 組成的網(wǎng)絡(luò)將基于字典嵌入的視覺特征與文本特征融合到一起。

對(duì)于視覺編碼器，研究員們采用了 ResNet-101 作為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)輸入圖像進(jìn)行編碼，與基于目標(biāo)檢測模型的圖像編碼器相比，這種方式的好處是：可以簡化操作。為了將圖像中相近的特征用統(tǒng)一的特征表征，同時(shí)為 MVM（Masked vision Modeling）提供類別標(biāo)簽，研究員們利用了視覺字典。整個(gè)字典在網(wǎng)絡(luò)學(xué)習(xí)的過程中都采用了動(dòng)量更新的方式進(jìn)行學(xué)習(xí)。基于 Transform 的特征融合網(wǎng)絡(luò)則采用了和 BERT 相同的網(wǎng)絡(luò)結(jié)構(gòu)。

為了優(yōu)化整個(gè)網(wǎng)絡(luò)，研究員們利用 MVM、MLM(Masked Language Modeling) 以及 ITM(Image-Text Matching) 三個(gè)預(yù)訓(xùn)練任務(wù)進(jìn)行了模型訓(xùn)練，并將得到的參數(shù)應(yīng)用到了四個(gè)相關(guān)的 VL 下游任務(wù)上，均取得了較好的結(jié)果（如表格1-4所示）。

表格1：SOHO 在 MSCOCO 數(shù)據(jù)集上與其他方法的 text retrieval（TR）和 image retrieval（IR）的性能比較

表格2：SOHO 在 VQA 2.0 數(shù)據(jù)集上的 VQA 性能表現(xiàn)

表格3：SOHO 在 NLVR2 數(shù)據(jù)集上的 Visual Reasoning 性能表現(xiàn)

表格4：SOHO 在 SNLI-VE 數(shù)據(jù)集上的 Visual Entailment 性能表現(xiàn)

最后，通過對(duì)視覺字典中部分 ID 對(duì)應(yīng)的圖片內(nèi)容進(jìn)行可視化（如圖2所示），研究員們發(fā)現(xiàn)即使沒有強(qiáng)監(jiān)督的視覺類別標(biāo)注，SOHO 也可以將具有相似語義的視覺內(nèi)容聚類到同一個(gè)字典項(xiàng)中。相對(duì)于使用基于目標(biāo)檢測的視覺語言模型，SOHO 擺脫了圖片框的回歸需求，推理時(shí)間（inference time）也加快了10倍，在真實(shí)場景應(yīng)用中更加實(shí)際和便捷。

圖2：Visual Dictionary 部分 ID 對(duì)應(yīng)圖片內(nèi)容的可視化

基于紋理 Transformer 模型的圖像超分辯率技術(shù)

從古老的膠片照相機(jī)到今天的數(shù)碼時(shí)代，人類拍攝和保存了大量的圖片信息，但這些圖片不可避免地存在各種不同程度的瑕疵。將圖片變得更清晰、更鮮活，一直是計(jì)算機(jī)視覺領(lǐng)域的重要話題。針對(duì)于圖像超分辨率的問題，微軟亞洲研究院的研究員們創(chuàng)新性地將 Transformer 結(jié)構(gòu)應(yīng)用在了圖像生成領(lǐng)域，提出了一種基于紋理 Transformer 模型的圖像超分辯率方法 TTSR。

該模型可以有效地搜索與遷移高清的紋理信息，最大程度地利用參考圖像的信息，并可以正確地將高清紋理遷移到生成的超分辨率結(jié)果當(dāng)中，從而解決了紋理模糊和紋理失真的問題。該工作“Learning Texture Transformer Network for Image Super-Resolution”發(fā)表在 CVPR 2020。

論文鏈接：https://arxiv.org/pdf/2006.04139.pdf

GitHub地址：https://github.com/researchmm/TTSR

與先前盲猜圖片細(xì)節(jié)的方法不同，研究員們通過引入一張高分辨率參考圖像來指引整個(gè)超分辨率過程。高分辨率參考圖像的引入，將圖像超分辨率問題由較為困難的紋理恢復(fù)/生成轉(zhuǎn)化為了相對(duì)簡單的紋理搜索與遷移，使得超分辨率結(jié)果在指標(biāo)以及視覺效果上有了顯著的提升。如圖3所示，TTSR 模型包括：可學(xué)習(xí)的紋理提取器模塊（Learnable Texture Extractor）、相關(guān)性嵌入模塊（Relevance Embedding）、硬注意力模塊（Hard Attention）、軟注意力模塊（Soft Attention）。

圖3：紋理 Transformer 模型

傳統(tǒng) Transformer 通過堆疊使得模型具有更強(qiáng)的表達(dá)能力，然而在圖像生成問題中，簡單的堆疊很難產(chǎn)生很好的效果。為了進(jìn)一步提升模型對(duì)參考圖像信息的提取和利用，研究員們提出了跨層級(jí)的特征融合機(jī)制——將所提出的紋理 Transformer 應(yīng)用于 x1、x2、x4 三個(gè)不同的層級(jí)，并將不同層級(jí)間的特征通過上采樣或帶步長的卷積進(jìn)行交叉融合。因此，不同粒度的參考圖像信息會(huì)滲透到不同的層級(jí)，使得網(wǎng)絡(luò)的特征表達(dá)能力增強(qiáng)，提高生成圖像的質(zhì)量。

圖4：多個(gè)紋理 Transformer 跨層級(jí)堆疊模型

研究員們?cè)?CUFED5、Sun80、Urban100、Manga109 數(shù)據(jù)集上針對(duì) TTSR 方法進(jìn)行了量化比較，具體如表格5所示。圖5展示了 TTSR 與現(xiàn)有的方法在不同數(shù)據(jù)集上的視覺比較結(jié)果，可以發(fā)現(xiàn) TTSR 顯著領(lǐng)先于其他方法的結(jié)果。

表格5：TTSR 與現(xiàn)有方法在不同數(shù)據(jù)集上的量化比較結(jié)果

圖5：TTSR 與現(xiàn)有方法在不同數(shù)據(jù)集上的視覺比較結(jié)果

了解更多 TTSR 細(xì)節(jié)，可點(diǎn)擊查看此前的文章：CVPR 2020丨圖像超清化+老照片修復(fù)技術(shù)，拯救你所有的模糊、破損照片。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

Transformer在計(jì)算機(jī)視覺領(lǐng)域走到哪了？（1）

相關(guān)推薦

技術(shù)專區(qū)