博客專欄

EEPW首頁 > 博客 > 差點(diǎn)被ECCV錯(cuò)過的論文:視頻理解新框架,僅用微調(diào)的「成本」,達(dá)到預(yù)訓(xùn)練的「全能」

差點(diǎn)被ECCV錯(cuò)過的論文:視頻理解新框架,僅用微調(diào)的「成本」,達(dá)到預(yù)訓(xùn)練的「全能」

發(fā)布人:CV研究院 時(shí)間:2022-10-19 來源:工程師 發(fā)布文章

對(duì)于類似CPU的設(shè)備,研究者提出了一種新穎的CP


轉(zhuǎn)自《機(jī)器之心專欄》

如何將現(xiàn)有的圖像 - 文本多模態(tài)大模型(例如 OpenAI CLIP)用于視頻內(nèi)容理解,是一個(gè)非常實(shí)用且具有前景的研究課題。它不僅可以充分挖掘圖像大模型的潛力,還可以為視頻大模型的設(shè)計(jì)和研究鋪平道路。
在視頻內(nèi)容理解領(lǐng)域,為節(jié)省計(jì)算 / 數(shù)據(jù)開銷,視頻模型通常 「微調(diào)」圖像預(yù)訓(xùn)練模型。而在圖像領(lǐng)域, 最近流行的語言 - 圖像預(yù)訓(xùn)練模型展現(xiàn)了卓越的泛化性,尤其是零樣本遷移能力。那么人們不禁要問:能否有一種視頻模型兼顧「微調(diào)」 的高效和 「語言 - 圖像預(yù)訓(xùn)練」的全能?答案是可以!
為解決此問題,來自微軟的研究者提出了將語言 - 圖像預(yù)訓(xùn)練模型拓展到通用視頻識(shí)別的方法,在建模時(shí)序信息的同時(shí),利用類別標(biāo)簽文本中的語義信息。該方法在 Kinetics-400/600 數(shù)據(jù)集上分別取得了 87.7% 和 88.3% 的 Top-1 分類準(zhǔn)確率,計(jì)算量僅為ViViT 和 Video Swin的十幾分之一,并且在 few-shot 和 zero-shot 評(píng)測上大幅領(lǐng)先其它方法。代碼已開源。

圖片

 

  • 論文鏈接:https://arxiv.org/pdf/2208.02816.pdf
  • 代碼鏈接:http://aka.ms/X-CLIP


下圖 1 為吞吐量和計(jì)算量對(duì)比的展示。

圖片

圖1:throughput 和 FLOPs 對(duì)比。

 總的來說,這項(xiàng)工作的亮點(diǎn)包括如下:

  • 無需海量視頻 - 文本數(shù)據(jù):直接將預(yù)訓(xùn)練的語言 - 圖像模型在下游視頻數(shù)據(jù)集微調(diào),而非從零使用視頻 - 文本預(yù)訓(xùn)練;
  • 利用標(biāo)簽中的語義信息:在視頻識(shí)別任務(wù)中,拋棄了傳統(tǒng)離散標(biāo)簽,充分利用每個(gè)類別標(biāo)簽中的語義信息并提升了性能;
  • 方法簡單、高效且通用:無縫銜接至不同的語言 - 圖像模型,可用于多種數(shù)據(jù)分布場景,如全樣本、少樣本和零樣本。


至于視頻分類的效果,與其他方法相比,X-CLIP 可用于零樣本識(shí)別,即用戶自定義候選標(biāo)簽,實(shí)現(xiàn)對(duì)視頻內(nèi)容更精準(zhǔn)的描述:

圖片

圖 2 動(dòng)作:三只狗在拉雪橇。

圖片

圖 3 動(dòng)作:在水池上灌籃。

圖片

圖 4 動(dòng)作:更換車輪。
研究動(dòng)機(jī)
最近,語言 - 圖像預(yù)訓(xùn)練模型(Language-image pretrained models)在計(jì)算機(jī)視覺領(lǐng)域引起了極大關(guān)注。它使用更廣泛的文本信息作為監(jiān)督,打破了傳統(tǒng)模型學(xué)習(xí)固定視覺概念的范式。受益于此,其展示出了強(qiáng)大的遷移能力和泛化能力,在全樣本、少樣本和零樣本分類上取得了卓越的成績。
現(xiàn)在是一個(gè)短視頻爆發(fā)的時(shí)代,現(xiàn)實(shí)世界中豐富的概念更是難以被一個(gè)固定的封閉集所定義。于是,研究人員和從業(yè)人員也希望有一個(gè)泛化能力強(qiáng)大的視頻模型,能在不同的數(shù)據(jù)分布場景和不同的概念環(huán)境中表現(xiàn)優(yōu)異。這樣的模型會(huì)助力于現(xiàn)實(shí)世界的許多應(yīng)用,比如自動(dòng)駕駛、視頻標(biāo)簽、安防監(jiān)控等。同樣,由于視頻的獲取成本通常更加高昂,少樣本和零樣本的識(shí)別能力也被期待。
但是,如果直接模仿語言 - 圖像預(yù)訓(xùn)練,使用視頻 - 文本預(yù)訓(xùn)練會(huì)帶來以下兩個(gè)問題:

  • 數(shù)據(jù)困境:需要數(shù)以億計(jì)的視頻 - 文本數(shù)據(jù),但是大量的數(shù)據(jù)是難以獲得的;
  • 計(jì)算困境:視頻的訓(xùn)練通常需要數(shù)倍于圖像的計(jì)算資源,這些資源消耗通常無法承受。


有鑒于此,研究者考慮探索如何將預(yù)訓(xùn)練的語言 - 圖像模型中的知識(shí)遷移到視頻領(lǐng)域,而非從零預(yù)訓(xùn)練一個(gè)語言 - 視頻模型。與圖像相比,視頻增加了時(shí)間的維度;與傳統(tǒng)視頻識(shí)別框架相比,研究者引入了文本信息。
因此,研究者需要解決兩個(gè)關(guān)鍵問題:

  • 如何在語言 - 圖像預(yù)訓(xùn)練模型中建模視頻的時(shí)序信息?
  • 如何利用視頻類別標(biāo)簽中的文本信息?


方法概覽
針對(duì)第一個(gè)問題,研究者提出了 Cross-frame Communication Transformer 和 Multi-frame Integration Transformer 模塊,在預(yù)訓(xùn)練模型中引入時(shí)序信息;對(duì)于第二個(gè)問題,研究者提出了 Video-specific Prompting 機(jī)制,用于產(chǎn)生視頻自適應(yīng)的提示信息,充分地利用了類別標(biāo)簽中的文本信息。方法整體框架圖如下圖 5 所示。

圖片

圖 5 方法框架圖。
建模時(shí)序信息:利用 message token 幀間通訊 

圖片

圖 6(a) CCT Block (b)不同時(shí)空 attention 對(duì)比。
本文中,研究者提出了一種簡單高效的視頻編碼器。該編碼器由兩部分組成,即 Cross-frame Communication Transformer(CCT)和 Multi-frame Integration Transformer(MIT)。為了避免聯(lián)合時(shí)空建模的高計(jì)算量,整體上,CCT 采用各幀獨(dú)立編碼的計(jì)算方式。
具體地,對(duì)每一幀編碼時(shí),動(dòng)態(tài)地生成各自的 message token(如圖 6(a)中彩色的圓形部分),攜帶所在幀的信息,再通過 Cross-frame Fusion Attention 交換不同幀的 message token 攜帶的信息,彌補(bǔ)了時(shí)序信息的缺失。具體地,如圖 6(a)所示,在 CCT 的每一個(gè) block 中,我們在 cls token 上施加線性變化得到 message token,每幀的 message token 通過 Cross-frame Fusion Attention(CFA)交換信息,

圖片

 隨后,每一幀的 message token 再回歸到所屬幀。通過 Intra-frame Diffusion Attention,每一幀內(nèi)的 spatial tokens 在建模空間信息的同時(shí),吸收了來自 message token 的全局時(shí)序信息,

圖片

 最后,每一幀的 spatial tokens 再經(jīng)過 FFN 進(jìn)一步編碼信息。為了進(jìn)一步提升性能,研究者在 CCT 產(chǎn)生的每幀的特征上,額外使用一層 Multi-frame Integration Transformer(MIT)(如圖 5)聚合每一幀的信息,產(chǎn)生視頻最終的表達(dá)。
Cross-frame Fusion Attention 和 MIT 是額外添加的模塊并使用隨機(jī)初始化。Intra-Frame Diffusion Attention 和 FFN 對(duì)應(yīng)于預(yù)訓(xùn)練 Vision Transformer 中的 self-attention 和 FFN 部分。值得注意的是,因?yàn)閹瑪?shù)(message tokens 的數(shù)量)遠(yuǎn)小于 spatial tokens 的數(shù)量,所以 Cross-frame Fusion Attention 和一層 MIT 的計(jì)算量遠(yuǎn)小于 Intra-frame Diffusion Attention, 這樣便以較小的計(jì)算代價(jià)建模了全局的時(shí)序信息。
利用標(biāo)簽的語義信息:視頻自適應(yīng)的提示學(xué)習(xí)
針對(duì)第二個(gè)問題,提示學(xué)習(xí)(Prompt learning)主張為下游任務(wù)設(shè)計(jì)一種模板,使用該模板可以幫助預(yù)訓(xùn)練模型回憶起自己預(yù)訓(xùn)練學(xué)到的知識(shí)。比如, CLIP[4] 手動(dòng)構(gòu)造了 80 個(gè)模板,CoOp[5]主張構(gòu)造可學(xué)習(xí)的模板。
研究者認(rèn)為,人類在理解一張圖片或視頻時(shí),自然地會(huì)從視覺內(nèi)容中尋找有判別性的線索。例如有額外的提示信息「在水中」,那么「游泳」和「跑步」會(huì)變得更容易區(qū)分。但是,獲取這樣的提示信息是困難的,原因有二:

  • 數(shù)據(jù)中通常只有類別標(biāo)簽,即「跑步」、「游泳」、「拳擊」等名稱,缺乏必要的上下文描述;
  • 同一個(gè)類別下的視頻共享相同的標(biāo)簽信息,但它們的關(guān)鍵視覺線索可能是不同。


為了緩解上述問題,研究者提出了從視覺表征中學(xué)習(xí)具有判別性的線索。具體地,他們提出了視頻自適應(yīng)的提示模塊,根據(jù)視頻內(nèi)容的上下文,自適應(yīng)地為每個(gè)類別生成合適的提示信息。每個(gè)視頻的自適應(yīng)提示模塊由一個(gè) cross-attention 和一個(gè) FFN 組成。令文本特征當(dāng)作 query,視頻內(nèi)容的編碼當(dāng)作 key 和 value,允許每個(gè)類別的文本從視頻的上下文中提取有用的提示信息作為自己的補(bǔ)充。

圖片


最后,使用學(xué)習(xí)到的提示信息來豐富原本文本信息的表示,使得其具有更強(qiáng)的判別性。
實(shí)驗(yàn)結(jié)果
研究者在全樣本(Fully-supervised)、少樣本(few-shot)和零樣本(zero-shot)上驗(yàn)證了方法的性能。
在 Kinetics-400 上的實(shí)驗(yàn)如下表 1 所示,可以看出 X-CLIP 在 FLOPs 更小的情況下領(lǐng)先于其它方法,這得益于提出的視頻編碼器的高效性。當(dāng)和其它使用互聯(lián)網(wǎng)(Web)規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的模型比較時(shí),本文的方法依然有性能優(yōu)勢,這歸功于該方法充分挖掘和利用了預(yù)訓(xùn)練語言 - 圖像模型中的表達(dá)能力。 

圖片

表 1 Kinetics400 性能。
下表 2 展示了少樣本情況下的性能,和經(jīng)典的使用離散標(biāo)簽監(jiān)督的方法相比,使用文本信息可以大幅提升性能。研究者在消融實(shí)驗(yàn)中證明了性能增益更多來自于文本的使用,而非更強(qiáng)的預(yù)訓(xùn)練模型。

圖片

表 2 Few-shot 性能。
下表 3 展示了在零樣本情況下,提出的方法依然有效。這種顯著的改進(jìn)可以歸因于所提出的視頻 - 文本學(xué)習(xí)框架,該框架利用大規(guī)模的視覺 - 文本預(yù)訓(xùn)練和視頻自適應(yīng)的提示學(xué)習(xí)。

圖片

表 3 Zero-shot 性能。
研究者在消融實(shí)驗(yàn)中展示了每個(gè)模塊的作用,分析了文本信息的必要性,探索了不同數(shù)據(jù)分布下應(yīng)該訓(xùn)練哪個(gè)分支,比較了不同的 prompts 方法。 

圖片

表 4 消融實(shí)驗(yàn)。
接收背后的小插曲
據(jù)了解,這項(xiàng)工作入選 ECCV 2022 Oral 并非一帆風(fēng)順。雖然 pre-rebuttal 的評(píng)分不錯(cuò),得到了兩個(gè) Accepts 和一個(gè) Borderline,評(píng)審人的評(píng)價(jià)也很高。并且,研究者本來希望通過 rebuttal 讓中立的評(píng)審人改分,爭取 Oral。遺憾的是,接收列表出來的時(shí)候卻發(fā)現(xiàn)這篇文章沒有中。
研究者沒有就此放棄,而是選擇在與合著者商量后,向程序主席發(fā)郵件詢問。結(jié)果皆大歡喜,程序主席回信并表示是由于腳本錯(cuò)誤這篇文章被遺漏了。
于是,這篇文章最終被接收為 ECCV 2022 Oral。
參考文獻(xiàn)
[1] Arnab, A., Dehghani, M., Heigold, G., Sun, C., Luˇ ci′ c, M., Schmid, C.: Vivit: A video vision transformer. In: ICCV. 2021[2] Bertasius, G., Wang, H., Torresani, L.: Is space-time attention all you need for video understanding? In: ICML, 2021[3] Liu, Z., Ning, J., Cao, Y., Wei, Y., Zhang, Z., Lin, S., Hu, H.: Video swin transformer. In CVPR, 2022.[4] Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al.: Learning transferable visual models from natural language supervision. In ICML, 2021[5] Zhou, K., Yang, J., Loy, C.C., Liu, Z.: Learning to prompt for vision-language models. arXiv preprint arXiv:2109.01134 (2021)


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉