差點(diǎn)被ECCV錯(cuò)過的論文：視頻理解新框架，僅用微調(diào)的「成本」，達(dá)到預(yù)訓(xùn)練的「全能」

發(fā)布人：CV研究院時(shí)間：2022-10-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

對(duì)于類似CPU的設(shè)備，研究者提出了一種新穎的CP

轉(zhuǎn)自《機(jī)器之心專欄》

如何將現(xiàn)有的圖像 - 文本多模態(tài)大模型（例如 OpenAI CLIP）用于視頻內(nèi)容理解，是一個(gè)非常實(shí)用且具有前景的研究課題。它不僅可以充分挖掘圖像大模型的潛力，還可以為視頻大模型的設(shè)計(jì)和研究鋪平道路。
在視頻內(nèi)容理解領(lǐng)域，為節(jié)省計(jì)算 / 數(shù)據(jù)開銷，視頻模型通常「微調(diào)」圖像預(yù)訓(xùn)練模型。而在圖像領(lǐng)域，最近流行的語言 - 圖像預(yù)訓(xùn)練模型展現(xiàn)了卓越的泛化性，尤其是零樣本遷移能力。那么人們不禁要問：能否有一種視頻模型兼顧「微調(diào)」的高效和「語言 - 圖像預(yù)訓(xùn)練」的全能？答案是可以！
為解決此問題，來自微軟的研究者提出了將語言 - 圖像預(yù)訓(xùn)練模型拓展到通用視頻識(shí)別的方法，在建模時(shí)序信息的同時(shí)，利用類別標(biāo)簽文本中的語義信息。該方法在 Kinetics-400/600 數(shù)據(jù)集上分別取得了 87.7% 和 88.3% 的 Top-1 分類準(zhǔn)確率，計(jì)算量僅為ViViT 和 Video Swin的十幾分之一，并且在 few-shot 和 zero-shot 評(píng)測上大幅領(lǐng)先其它方法。代碼已開源。

論文鏈接：https://arxiv.org/pdf/2208.02816.pdf
代碼鏈接：http://aka.ms/X-CLIP

下圖 1 為吞吐量和計(jì)算量對(duì)比的展示。

圖1：throughput 和 FLOPs 對(duì)比。

總的來說，這項(xiàng)工作的亮點(diǎn)包括如下：

無需海量視頻 - 文本數(shù)據(jù)：直接將預(yù)訓(xùn)練的語言 - 圖像模型在下游視頻數(shù)據(jù)集微調(diào)，而非從零使用視頻 - 文本預(yù)訓(xùn)練；
利用標(biāo)簽中的語義信息：在視頻識(shí)別任務(wù)中，拋棄了傳統(tǒng)離散標(biāo)簽，充分利用每個(gè)類別標(biāo)簽中的語義信息并提升了性能；
方法簡單、高效且通用：無縫銜接至不同的語言 - 圖像模型，可用于多種數(shù)據(jù)分布場景，如全樣本、少樣本和零樣本。

至于視頻分類的效果，與其他方法相比，X-CLIP 可用于零樣本識(shí)別，即用戶自定義候選標(biāo)簽，實(shí)現(xiàn)對(duì)視頻內(nèi)容更精準(zhǔn)的描述：

圖 2 動(dòng)作：三只狗在拉雪橇。

圖 3 動(dòng)作：在水池上灌籃。

圖 4 動(dòng)作：更換車輪。
研究動(dòng)機(jī)
最近，語言 - 圖像預(yù)訓(xùn)練模型（Language-image pretrained models）在計(jì)算機(jī)視覺領(lǐng)域引起了極大關(guān)注。它使用更廣泛的文本信息作為監(jiān)督，打破了傳統(tǒng)模型學(xué)習(xí)固定視覺概念的范式。受益于此，其展示出了強(qiáng)大的遷移能力和泛化能力，在全樣本、少樣本和零樣本分類上取得了卓越的成績。
現(xiàn)在是一個(gè)短視頻爆發(fā)的時(shí)代，現(xiàn)實(shí)世界中豐富的概念更是難以被一個(gè)固定的封閉集所定義。于是，研究人員和從業(yè)人員也希望有一個(gè)泛化能力強(qiáng)大的視頻模型，能在不同的數(shù)據(jù)分布場景和不同的概念環(huán)境中表現(xiàn)優(yōu)異。這樣的模型會(huì)助力于現(xiàn)實(shí)世界的許多應(yīng)用，比如自動(dòng)駕駛、視頻標(biāo)簽、安防監(jiān)控等。同樣，由于視頻的獲取成本通常更加高昂，少樣本和零樣本的識(shí)別能力也被期待。
但是，如果直接模仿語言 - 圖像預(yù)訓(xùn)練，使用視頻 - 文本預(yù)訓(xùn)練會(huì)帶來以下兩個(gè)問題：

數(shù)據(jù)困境：需要數(shù)以億計(jì)的視頻 - 文本數(shù)據(jù)，但是大量的數(shù)據(jù)是難以獲得的；
計(jì)算困境：視頻的訓(xùn)練通常需要數(shù)倍于圖像的計(jì)算資源，這些資源消耗通常無法承受。

有鑒于此，研究者考慮探索如何將預(yù)訓(xùn)練的語言 - 圖像模型中的知識(shí)遷移到視頻領(lǐng)域，而非從零預(yù)訓(xùn)練一個(gè)語言 - 視頻模型。與圖像相比，視頻增加了時(shí)間的維度；與傳統(tǒng)視頻識(shí)別框架相比，研究者引入了文本信息。
因此，研究者需要解決兩個(gè)關(guān)鍵問題：

如何在語言 - 圖像預(yù)訓(xùn)練模型中建模視頻的時(shí)序信息？
如何利用視頻類別標(biāo)簽中的文本信息？

方法概覽
針對(duì)第一個(gè)問題，研究者提出了 Cross-frame Communication Transformer 和 Multi-frame Integration Transformer 模塊，在預(yù)訓(xùn)練模型中引入時(shí)序信息；對(duì)于第二個(gè)問題，研究者提出了 Video-specific Prompting 機(jī)制，用于產(chǎn)生視頻自適應(yīng)的提示信息，充分地利用了類別標(biāo)簽中的文本信息。方法整體框架圖如下圖 5 所示。

圖 5 方法框架圖。
建模時(shí)序信息：利用 message token 幀間通訊

圖 6(a) CCT Block (b)不同時(shí)空 attention 對(duì)比。
本文中，研究者提出了一種簡單高效的視頻編碼器。該編碼器由兩部分組成，即 Cross-frame Communication Transformer（CCT）和 Multi-frame Integration Transformer（MIT）。為了避免聯(lián)合時(shí)空建模的高計(jì)算量，整體上，CCT 采用各幀獨(dú)立編碼的計(jì)算方式。
具體地，對(duì)每一幀編碼時(shí)，動(dòng)態(tài)地生成各自的 message token（如圖 6(a)中彩色的圓形部分），攜帶所在幀的信息，再通過 Cross-frame Fusion Attention 交換不同幀的 message token 攜帶的信息，彌補(bǔ)了時(shí)序信息的缺失。具體地，如圖 6（a）所示，在 CCT 的每一個(gè) block 中，我們在 cls token 上施加線性變化得到 message token，每幀的 message token 通過 Cross-frame Fusion Attention（CFA）交換信息，

隨后，每一幀的 message token 再回歸到所屬幀。通過 Intra-frame Diffusion Attention，每一幀內(nèi)的 spatial tokens 在建模空間信息的同時(shí)，吸收了來自 message token 的全局時(shí)序信息，

最后，每一幀的 spatial tokens 再經(jīng)過 FFN 進(jìn)一步編碼信息。為了進(jìn)一步提升性能，研究者在 CCT 產(chǎn)生的每幀的特征上，額外使用一層 Multi-frame Integration Transformer（MIT）（如圖 5）聚合每一幀的信息，產(chǎn)生視頻最終的表達(dá)。
Cross-frame Fusion Attention 和 MIT 是額外添加的模塊并使用隨機(jī)初始化。Intra-Frame Diffusion Attention 和 FFN 對(duì)應(yīng)于預(yù)訓(xùn)練 Vision Transformer 中的 self-attention 和 FFN 部分。值得注意的是，因?yàn)閹瑪?shù)（message tokens 的數(shù)量）遠(yuǎn)小于 spatial tokens 的數(shù)量，所以 Cross-frame Fusion Attention 和一層 MIT 的計(jì)算量遠(yuǎn)小于 Intra-frame Diffusion Attention，這樣便以較小的計(jì)算代價(jià)建模了全局的時(shí)序信息。
利用標(biāo)簽的語義信息：視頻自適應(yīng)的提示學(xué)習(xí)
針對(duì)第二個(gè)問題，提示學(xué)習(xí)（Prompt learning）主張為下游任務(wù)設(shè)計(jì)一種模板，使用該模板可以幫助預(yù)訓(xùn)練模型回憶起自己預(yù)訓(xùn)練學(xué)到的知識(shí)。比如， CLIP[4] 手動(dòng)構(gòu)造了 80 個(gè)模板，CoOp[5]主張構(gòu)造可學(xué)習(xí)的模板。
研究者認(rèn)為，人類在理解一張圖片或視頻時(shí)，自然地會(huì)從視覺內(nèi)容中尋找有判別性的線索。例如有額外的提示信息「在水中」，那么「游泳」和「跑步」會(huì)變得更容易區(qū)分。但是，獲取這樣的提示信息是困難的，原因有二：

數(shù)據(jù)中通常只有類別標(biāo)簽，即「跑步」、「游泳」、「拳擊」等名稱，缺乏必要的上下文描述；
同一個(gè)類別下的視頻共享相同的標(biāo)簽信息，但它們的關(guān)鍵視覺線索可能是不同。

為了緩解上述問題，研究者提出了從視覺表征中學(xué)習(xí)具有判別性的線索。具體地，他們提出了視頻自適應(yīng)的提示模塊，根據(jù)視頻內(nèi)容的上下文，自適應(yīng)地為每個(gè)類別生成合適的提示信息。每個(gè)視頻的自適應(yīng)提示模塊由一個(gè) cross-attention 和一個(gè) FFN 組成。令文本特征當(dāng)作 query，視頻內(nèi)容的編碼當(dāng)作 key 和 value，允許每個(gè)類別的文本從視頻的上下文中提取有用的提示信息作為自己的補(bǔ)充。

最后，使用學(xué)習(xí)到的提示信息來豐富原本文本信息的表示，使得其具有更強(qiáng)的判別性。
實(shí)驗(yàn)結(jié)果
研究者在全樣本（Fully-supervised）、少樣本（few-shot）和零樣本（zero-shot）上驗(yàn)證了方法的性能。
在 Kinetics-400 上的實(shí)驗(yàn)如下表 1 所示，可以看出 X-CLIP 在 FLOPs 更小的情況下領(lǐng)先于其它方法，這得益于提出的視頻編碼器的高效性。當(dāng)和其它使用互聯(lián)網(wǎng)（Web）規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的模型比較時(shí)，本文的方法依然有性能優(yōu)勢，這歸功于該方法充分挖掘和利用了預(yù)訓(xùn)練語言 - 圖像模型中的表達(dá)能力。

表 1 Kinetics400 性能。
下表 2 展示了少樣本情況下的性能，和經(jīng)典的使用離散標(biāo)簽監(jiān)督的方法相比，使用文本信息可以大幅提升性能。研究者在消融實(shí)驗(yàn)中證明了性能增益更多來自于文本的使用，而非更強(qiáng)的預(yù)訓(xùn)練模型。

表 2 Few-shot 性能。
下表 3 展示了在零樣本情況下，提出的方法依然有效。這種顯著的改進(jìn)可以歸因于所提出的視頻 - 文本學(xué)習(xí)框架，該框架利用大規(guī)模的視覺 - 文本預(yù)訓(xùn)練和視頻自適應(yīng)的提示學(xué)習(xí)。

表 3 Zero-shot 性能。
研究者在消融實(shí)驗(yàn)中展示了每個(gè)模塊的作用，分析了文本信息的必要性，探索了不同數(shù)據(jù)分布下應(yīng)該訓(xùn)練哪個(gè)分支，比較了不同的 prompts 方法。

表 4 消融實(shí)驗(yàn)。
接收背后的小插曲
據(jù)了解，這項(xiàng)工作入選 ECCV 2022 Oral 并非一帆風(fēng)順。雖然 pre-rebuttal 的評(píng)分不錯(cuò)，得到了兩個(gè) Accepts 和一個(gè) Borderline，評(píng)審人的評(píng)價(jià)也很高。并且，研究者本來希望通過 rebuttal 讓中立的評(píng)審人改分，爭取 Oral。遺憾的是，接收列表出來的時(shí)候卻發(fā)現(xiàn)這篇文章沒有中。
研究者沒有就此放棄，而是選擇在與合著者商量后，向程序主席發(fā)郵件詢問。結(jié)果皆大歡喜，程序主席回信并表示是由于腳本錯(cuò)誤這篇文章被遺漏了。
于是，這篇文章最終被接收為 ECCV 2022 Oral。
參考文獻(xiàn)
[1] Arnab, A., Dehghani, M., Heigold, G., Sun, C., Luˇ ci′ c, M., Schmid, C.: Vivit: A video vision transformer. In: ICCV. 2021[2] Bertasius, G., Wang, H., Torresani, L.: Is space-time attention all you need for video understanding? In: ICML, 2021[3] Liu, Z., Ning, J., Cao, Y., Wei, Y., Zhang, Z., Lin, S., Hu, H.: Video swin transformer. In CVPR, 2022.[4] Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al.: Learning transferable visual models from natural language supervision. In ICML, 2021[5] Zhou, K., Yang, J., Loy, C.C., Liu, Z.: Learning to prompt for vision-language models. arXiv preprint arXiv:2109.01134 (2021)

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

差點(diǎn)被ECCV錯(cuò)過的論文：視頻理解新框架，僅用微調(diào)的「成本」，達(dá)到預(yù)訓(xùn)練的「全能」

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

差點(diǎn)被ECCV錯(cuò)過的論文：視頻理解新框架，僅用微調(diào)的「成本」，達(dá)到預(yù)訓(xùn)練的「全能」

相關(guān)推薦

技術(shù)專區(qū)

差點(diǎn)被ECCV錯(cuò)過的論文：視頻理解新框架，僅用微調(diào)的「成本」，達(dá)到預(yù)訓(xùn)練的「全能」