ACL 2021 | 百度NLP開(kāi)源語(yǔ)言與視覺(jué)一體的統(tǒng)一模態(tài)預(yù)訓(xùn)練方法，登頂各類榜單

發(fā)布人：機(jī)器之心時(shí)間：2021-08-15 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

百度在 2021 年深度學(xué)習(xí)開(kāi)發(fā)者峰會(huì) WAVE SUMMIT 上開(kāi)源了語(yǔ)言與視覺(jué)一體的預(yù)訓(xùn)練模型 ERNIE-UNIMO，其核心方法 UNIMO 已經(jīng)被 NLP 頂級(jí)會(huì)議 ACL 2021 主會(huì)正式錄用為 oral 長(zhǎng)文。

在機(jī)器之心 7 月 31 日舉辦的 ACL 2021 論文分享會(huì)上，本文第一作者李偉詳細(xì)介紹了他們的這項(xiàng)研究成果，感興趣的同學(xué)可以點(diǎn)擊閱讀原文查看回顧視頻。

AI 系統(tǒng)能否像人一樣，使用一個(gè)統(tǒng)一的大腦模型，實(shí)現(xiàn)感知認(rèn)知一體的通用能力？基于此出發(fā)點(diǎn)，百度提出的 UNIMO 試圖構(gòu)建面向各種不同模態(tài)的統(tǒng)一預(yù)訓(xùn)練模型。

論文地址：https://arxiv.org/abs/2012.15409

代碼地址：https://github.com/PaddlePaddle/ERNIE/tree/develop/ernie-unimo

此方法首創(chuàng)的同時(shí)還能學(xué)習(xí)大量的文本、圖像、圖文對(duì)數(shù)據(jù)，通過(guò)跨模態(tài)對(duì)比學(xué)習(xí)，有效的讓語(yǔ)言知識(shí)與視覺(jué)知識(shí)進(jìn)行統(tǒng)一表示和相互增強(qiáng)。UNIMO 在語(yǔ)言理解與生成、跨模態(tài)理解與生成，4 類場(chǎng)景共 13 個(gè)任務(wù)上超越主流的文本預(yù)訓(xùn)練模型和跨模態(tài)預(yù)訓(xùn)練模型，同時(shí)登頂視覺(jué)問(wèn)答榜單 VQA、文本推理榜單 aNLI 等權(quán)威榜單，首次驗(yàn)證了通過(guò)非平行的文本與圖像等單一模態(tài)數(shù)據(jù)，能夠讓語(yǔ)言知識(shí)與視覺(jué)知識(shí)相互增強(qiáng)。目前 UNIMO 已經(jīng)逐步在百度的產(chǎn)品中落地應(yīng)用。

UNIMO 方法介紹

大數(shù)據(jù)是深度學(xué)習(xí)取得成功的關(guān)鍵基礎(chǔ)之一。根據(jù)應(yīng)用數(shù)據(jù)的模態(tài)不同，深度學(xué)習(xí)應(yīng)用領(lǐng)域大體包括：在文本數(shù)據(jù)上進(jìn)行自然語(yǔ)言處理，在視覺(jué)數(shù)據(jù)上進(jìn)行視覺(jué)應(yīng)用，在圖文數(shù)據(jù)上進(jìn)行跨模態(tài)應(yīng)用。顯然，人類大腦對(duì)各種模態(tài)數(shù)據(jù)的學(xué)習(xí)并非獨(dú)立的，比如，人類大腦在看到圖片之后能夠自動(dòng)聯(lián)想到相關(guān)的語(yǔ)言知識(shí)，反之亦然。對(duì)各種模態(tài)數(shù)據(jù)的融會(huì)貫通，使得人類能夠充分學(xué)習(xí)各類語(yǔ)言、視覺(jué)、語(yǔ)音知識(shí)并相互增強(qiáng)，通過(guò)統(tǒng)一的模型展現(xiàn)出強(qiáng)大的智能水平。那么，基于深度學(xué)習(xí)的 AI 系統(tǒng)是否也能像人一樣同時(shí)學(xué)習(xí)異構(gòu)模態(tài)數(shù)據(jù)呢？如果能夠?qū)崿F(xiàn)，無(wú)疑將進(jìn)一步打開(kāi)深度學(xué)習(xí)對(duì)大規(guī)模數(shù)據(jù)利用的邊界，從而進(jìn)一步提升 AI 系統(tǒng)的感知與認(rèn)知一體的通用 AI 能力。

為此，百度提出面向異構(gòu)模態(tài)數(shù)據(jù)的統(tǒng)一預(yù)訓(xùn)練方法 UNIMO，同時(shí)使用文本、圖像和圖文對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練，學(xué)習(xí)文本和圖像的統(tǒng)一語(yǔ)義表示，從而具備同時(shí)處理多種單一模態(tài)和跨模態(tài)下游任務(wù)的能力。UNIMO 的核心模塊是一個(gè) Transformer 網(wǎng)絡(luò)，在具體訓(xùn)練過(guò)程中，文本、圖像和圖文對(duì)三種模態(tài)數(shù)據(jù)隨機(jī)混合在一起，其中圖像被轉(zhuǎn)換為目標(biāo)（object）序列，文本被轉(zhuǎn)換為詞（token）序列，圖文對(duì)被轉(zhuǎn)換為目標(biāo)序列和詞序列的拼接。UNIMO 對(duì)三種類型數(shù)據(jù)進(jìn)行統(tǒng)一處理，在目標(biāo)序列或者詞序列上基于掩碼預(yù)測(cè)進(jìn)行自監(jiān)督學(xué)習(xí)，并且基于圖文對(duì)數(shù)據(jù)進(jìn)行跨模態(tài)對(duì)比學(xué)習(xí)，從而實(shí)現(xiàn)圖像與文本的統(tǒng)一表示學(xué)習(xí)。進(jìn)一步的，這種聯(lián)合學(xué)習(xí)方法也讓文本知識(shí)和視覺(jué)知識(shí)互相增強(qiáng)，從而有效提升文本語(yǔ)義表示和視覺(jué)語(yǔ)義表示的能力。

異構(gòu)模態(tài)的統(tǒng)一預(yù)訓(xùn)練最大的挑戰(zhàn)是如何跨越不同模態(tài)間的語(yǔ)義鴻溝從而實(shí)現(xiàn)語(yǔ)義表示的統(tǒng)一。如下圖所示，UNIMO 提出了創(chuàng)新的跨模態(tài)對(duì)比學(xué)習(xí)方法，同時(shí)引入相關(guān)聯(lián)的圖文對(duì)數(shù)據(jù)、文本數(shù)據(jù)和圖像數(shù)據(jù)進(jìn)行聯(lián)合對(duì)比學(xué)習(xí)。具體地，UNIMO 通過(guò)文本改寫的方式，對(duì)圖文對(duì)進(jìn)行數(shù)據(jù)增廣，獲得大量的正例和強(qiáng)負(fù)例圖文對(duì)數(shù)據(jù)。同時(shí)為了更好的利用文本和圖像數(shù)據(jù)，UNIMO 通過(guò)文本與圖像檢索，獲得相關(guān)的圖像和文本作為正例。這樣利用擴(kuò)充后的多種類型的正例以及高質(zhì)量強(qiáng)負(fù)例，UNIMO 在統(tǒng)一的語(yǔ)義空間上進(jìn)行聯(lián)想對(duì)比，從而能夠?qū)W習(xí)到精確對(duì)齊的跨模態(tài)語(yǔ)義表示。

UNIMO 實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)方面，UNIMO 使用了大量的文本、圖像和圖文數(shù)據(jù)進(jìn)行聯(lián)合學(xué)習(xí)，同時(shí)在各種單一模態(tài)和跨模態(tài)下游任務(wù)上進(jìn)行驗(yàn)證。預(yù)訓(xùn)練數(shù)據(jù)部分，文本語(yǔ)料包括 Wikipedia、BookCorpus、OpenWebText 等共 54G 語(yǔ)料；圖像數(shù)據(jù)是從互聯(lián)網(wǎng)爬取的 170 萬(wàn)張圖像；而圖文對(duì)數(shù)據(jù)則包括 COCO Caption、Visual Genome、Conceptual Caption、SBU Caption。下游任務(wù)既包括圖文搜索、視覺(jué)問(wèn)答、圖描述生成、視覺(jué)推斷等跨模態(tài)任務(wù)，也包括文本分類、閱讀理解、文本摘要、問(wèn)題生成等各種文本任務(wù)。模型上，Base 基于 12 層的 Transformer，而 Large 使用 24 層。

在跨模態(tài)任務(wù)上，論文主要對(duì)比 ViLBERT、UNITER、Oscar、Villa 等最新的跨模態(tài)預(yù)訓(xùn)練模型。實(shí)驗(yàn)結(jié)果表明，UNIMO 在圖文檢索 Flick、視覺(jué)推斷 SNLI-VE、視覺(jué)問(wèn)答 VQA、圖描述生成 CoCo Caption 上均穩(wěn)定地超過(guò)此前的各種預(yù)訓(xùn)練模型，充分說(shuō)明了統(tǒng)一預(yù)訓(xùn)練 UNIMO 模型能夠有效地處理各種跨模態(tài)任務(wù)。

特別地，UNIMO 同時(shí)還能處理純文本任務(wù)。此前的跨模態(tài)預(yù)訓(xùn)練模型，在處理純文本任務(wù)的時(shí)候效果急劇下降，部分任務(wù)下降幅度甚至超過(guò) 10-20 個(gè)點(diǎn)。而 UNIMO 在各類文本理解和生成任務(wù)上，包括文本分類、文本推斷、文本摘要、閱讀理解和問(wèn)題生成，均取得不錯(cuò)的效果，超過(guò) RoBERTa、XLNet、UniLM 等經(jīng)典文本模型。

為了驗(yàn)證 UNIMO 進(jìn)行單一模態(tài)和跨模態(tài)統(tǒng)一學(xué)習(xí)的必要性，論文進(jìn)行了分離實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，當(dāng)不使用文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的時(shí)候，UNIMO 在跨模態(tài)任務(wù)上效果有所下降。而當(dāng)不使用圖文對(duì)數(shù)據(jù)和圖像數(shù)據(jù)的時(shí)候，UNIMO 在文本任務(wù)上同樣會(huì)下降。這充分說(shuō)明，UNIMO 統(tǒng)一學(xué)習(xí)的方式，能夠讓文本知識(shí)與視覺(jué)知識(shí)相互增強(qiáng)，有效提升任務(wù)效果。

UNIMO 應(yīng)用

UNIMO 可以支持各類文本與跨模態(tài)任務(wù)，既可以支持以文搜圖和以圖搜文，也能支持根據(jù)圖片生成文字描述、根據(jù)文字描述自動(dòng)生成圖片，還支持對(duì)圖片內(nèi)容進(jìn)行問(wèn)答。當(dāng)然，UNIMO 也支持純語(yǔ)言的任務(wù)，如文本推理、閱讀理解、文本生成等。從實(shí)際應(yīng)用任務(wù)的結(jié)果來(lái)看，研究發(fā)現(xiàn) UNIMO 能夠讓視覺(jué)和語(yǔ)言互相增強(qiáng)，從而實(shí)現(xiàn)更好的應(yīng)用效果。目前部分技術(shù)已經(jīng)開(kāi)始在百度搜索中落地，幫助用戶獲取更符合需求的圖片、視頻。這里看下實(shí)際任務(wù)上的樣例效果。

跨模態(tài)檢索：以文搜圖、以圖搜文

UNIMO 能夠根據(jù)文字描述搜索相關(guān)圖片，或者根據(jù)圖片搜索相關(guān)文本描述。從結(jié)果上看，UNIMO 能夠更準(zhǔn)確的理解文字或圖片的語(yǔ)義，檢索出更匹配的圖片或文字。

跨模態(tài)問(wèn)答:

UNIMO 也支持使用自然語(yǔ)言對(duì)圖片內(nèi)容進(jìn)行提問(wèn)。UNIMO 能理解圖片中的內(nèi)容和概念，并結(jié)合模型學(xué)習(xí)到的背景知識(shí)，準(zhǔn)確的進(jìn)行推理回答。

跨模態(tài)生成：根據(jù)文字生成圖片

UNIMO 能夠根據(jù)文字描述生成對(duì)應(yīng)的圖片。從結(jié)果中，我們可以發(fā)現(xiàn) UNIMO 能夠很好的對(duì)齊視覺(jué)和語(yǔ)言的屬性和概念，從而生成準(zhǔn)確清晰的圖片。

百度首創(chuàng)地提出了語(yǔ)言與視覺(jué)一體的預(yù)訓(xùn)練方法 UNIMO，提供了一種新的統(tǒng)一模態(tài)學(xué)習(xí)范式，打破了文本、圖像和圖文對(duì)等數(shù)據(jù)間的邊界，讓機(jī)器可以像人一樣利用大規(guī)模異構(gòu)模態(tài)數(shù)據(jù)，學(xué)習(xí)語(yǔ)言知識(shí)與視覺(jué)知識(shí)并相互增強(qiáng)，從而實(shí)現(xiàn)感知與認(rèn)知一體的通用 AI 能力。或許，異構(gòu)模態(tài)的統(tǒng)一學(xué)習(xí)是邁向通用人工智能的關(guān)鍵節(jié)點(diǎn)之一。未來(lái)百度將在統(tǒng)一模態(tài)學(xué)習(xí)上做出更多工作和應(yīng)用，敬請(qǐng)期待。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

電度表相關(guān)文章:電度表原理

博客專欄

ACL 2021 | 百度NLP開(kāi)源語(yǔ)言與視覺(jué)一體的統(tǒng)一模態(tài)預(yù)訓(xùn)練方法，登頂各類榜單

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

ACL 2021 | 百度NLP開(kāi)源語(yǔ)言與視覺(jué)一體的統(tǒng)一模態(tài)預(yù)訓(xùn)練方法，登頂各類榜單

相關(guān)推薦

技術(shù)專區(qū)

ACL 2021 | 百度NLP開(kāi)源語(yǔ)言與視覺(jué)一體的統(tǒng)一模態(tài)預(yù)訓(xùn)練方法，登頂各類榜單