博客專欄

EEPW首頁 > 博客 > 谷歌多模態(tài)預訓練框架:視頻字幕、動作分類、問答全部實現(xiàn)SOTA

谷歌多模態(tài)預訓練框架:視頻字幕、動作分類、問答全部實現(xiàn)SOTA

發(fā)布人:機器之心 時間:2022-06-16 來源:工程師 發(fā)布文章

一個模型在五項基準上都實現(xiàn)了重大進步,該研究已被 CVPR 2022 大會收錄。


多模態(tài)視頻字幕系統(tǒng)利用視頻幀和語音來生成視頻的自然語言描述(字幕)。這樣的系統(tǒng)是朝著構建多模態(tài)對話系統(tǒng)的長期目標前進的一步,后者可以輕松地與用戶交流,同時通過多模態(tài)輸入流感知環(huán)境。
與關鍵挑戰(zhàn)在于處理和理解多模態(tài)輸入視頻的視頻理解任務不同,多模態(tài)視頻字幕的任務包括生成實用化字幕的額外挑戰(zhàn)。這項任務被采用最廣泛的方法是使用手動注釋數(shù)據(jù)聯(lián)合訓練編碼器 - ****網絡。
然而,由于缺乏大規(guī)模的人工標注數(shù)據(jù),為視頻注釋可用字幕的任務是非常耗費人力的,在許多情況下不切實際。VideoBERT 和 CoMVT 等先前的研究通過利用自動語音識別(ASR)對未標記視頻的模型進行預訓練。然而,此類模型通常無法生成自然語言句子,因為它們缺少****,因此只有視頻編碼器被轉移到下游任務。
在 CVPR 2022 大會上發(fā)表的論文《End-to-end Generative Pretraining for Multimodal Video Captioning》上,谷歌研究人員為多模態(tài)視頻字幕引入了一種全新的預訓練框架,被稱為多模態(tài)視頻生成預訓練或 MV-GPT,它從未標記的視頻中聯(lián)合訓練多模態(tài)視頻編碼器和句子****,以輸出未來語句文本,制定新的雙向生成任務作為目標。

圖片


論文鏈接:https://arxiv.org/pdf/2201.08264.pdf
實驗證明 MV-GPT 的能力可以有效地轉移到多模態(tài)視頻字幕上,在各種基準測試中取得了 SOTA 結果。此外,多模態(tài)視頻編碼器在多種視頻理解任務方面具有競爭力,例如 VideoQA、文本視頻檢索和動作識別。
未來語句作為附加文本信號
通常,用于多模態(tài)視頻字幕的每個訓練視頻剪輯都要與兩個不同的文本相關聯(lián):其一作為多模態(tài)輸入流的一部分,與剪輯對齊的語音轉錄本;其二是目標字幕,通常需要手動注釋。編碼器需要學習將文本中的信息與視覺內容融合,目標標簽用于訓練****進行生成。
但在未標記視頻的情況下,每個視頻剪輯僅帶有來自 ASR 的腳本,沒有手動注釋的目標標簽。此外,我們不能對編碼器輸入和****目標使用相同的文本(ASR 轉錄本),因為這對生成目標沒有多少意義。
MV-GPT 通過利用未來的話語作為附加文本信號并啟用編碼器和****的聯(lián)合預訓練來規(guī)避這一挑戰(zhàn)。但是,訓練模型以生成通常不以輸入內容為基礎的未來話語效果并不理想。因此,谷歌應用了一種新的雙向生成損失函數(shù)來加強與輸入的關聯(lián)。
雙向生成損失
我們可以通過制定包括前向和后向生成的雙向生成損失來緩解非基礎文本生成的問題。前向生成在給定視覺框架及其相應的轉錄本的情況下生成未來語句,并允許模型學習將視覺內容與其相應的轉錄本融合。反向生成采用視覺幀和未來語句來訓練模型,以生成包含更多視頻剪輯基礎文本的腳本。
MV-GPT 中的雙向生成損失允許對編碼器和****進行訓練以處理基于視覺的文本。

圖片

MV-GPT 中的雙向生成,已訓練兩代損失。在前向生成中,模型在給定幀和當前話語(紅色框)的情況下生成未來話語(藍色框),而現(xiàn)在是從后向生成中的未來話語生成的。兩個特殊的句首標記([BOS-F] 和 [BOS-B])為****啟動前向和后向生成。
多模態(tài)視頻字幕生成結果
研究人員將 MV-GPT 與使用相同模型架構的現(xiàn)有預訓練損失進行比較,在 YouCook2 上使用標準評估指標(Bleu-4、Cider、Meteor 和 Rouge-L)。雖然所有預訓練技術都可以提高字幕性能,但聯(lián)合預訓練****提高模型性能的效果最為明顯。
實驗證明了 MV-GPT 比之前最先進的聯(lián)合預訓練方法高出 3.5% 以上,并且在所有四個指標上都有相對增益

圖片

MV-GPT 在 YouCook2 上不同預訓練損失的四個指標(Bleu-4、Cider、Meteor 和 Rouge-L)。「預訓練部分」表示模型的哪些部分是預訓練的 —— 僅編碼器或編碼器和****。作者重新實現(xiàn)了現(xiàn)有方法的損失函數(shù),但使用新模型和訓練策略進行公平比較。
研究人員將 MV-GPT 預訓練的模型轉移到四個不同的字幕基準:YouCook2、MSR-VTT、ViTT 和 ActivityNet-Captions 上。
谷歌的模型在所有四個基準測試中都以顯著優(yōu)勢實現(xiàn)了最先進性能。例如在 Meteor 指標上,MV-GPT 在所有四個基準測試中都顯示出超過 12% 的相對改進。

圖片

業(yè)內最佳方法和 MV-GPT 在四個基準上的度量分數(shù)。
盡管 MV-GPT 是旨在訓練多模態(tài)視頻字幕的生成模型,但研究發(fā)現(xiàn)新預訓練技術學習了一個強大的多模態(tài)視頻編碼器,可應用于多種視頻理解任務,包括 VideoQA、文本視頻檢索和動作分類等任務。
與最佳可比基線模型相比,從 MV-GPT 遷移的模型在五個視頻理解基準的主要指標上表現(xiàn)出卓越的性能 —— 如在 VideoQA 和動作分類基準的 top 1 準確度,以及檢索基準的召回率上。

圖片

在五個視頻理解基準上將 MV-GPT 與最佳可比基線模型進行比較。對于每個數(shù)據(jù)集,此處報告了廣泛使用的主要指標,即 MSRVTT-QA 和 ActivityNet-QA:Top-1 回答準確率;MSR-VTT:Recall at 1;和 Kinetics:Top-1 分類準確度。
總結
本文介紹了 MV-GPT,一種用于多模態(tài)視頻字幕的新生成預訓練框架。它通過雙向生成目標,使用在未標記視頻中不同時間采樣的話語聯(lián)合預訓練多模態(tài)編碼器和字幕****。該預訓練模型在多個視頻字幕基準和其他視頻理解任務(如 VideoQA、視頻檢索和動作分類)上取得了最先進的結果。
原文鏈接:https://ai.googleblog.com/2022/06/end-to-end-generative-pre-training-for.html


*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: AI

相關推薦

技術專區(qū)

關閉