字節(jié)團(tuán)隊(duì)提出猞猁Lynx模型:多模態(tài)LLMs理解認(rèn)知生成類榜單SoTA
當(dāng)前大語(yǔ)言模型 (Large Language Models, LLMs) 如 GPT4 在遵循給定圖像的開放式指令方面表現(xiàn)出了出色的多模態(tài)能力。然而,這些模型的性能嚴(yán)重依賴于對(duì)網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)和訓(xùn)練策略等方案的選擇,但這些選擇并沒有在先前的文獻(xiàn)中被廣泛討論。此外,目前也缺乏合適的基準(zhǔn) (benchmarks) 來(lái)評(píng)估和比較這些模型,限制了多模態(tài) LLMs 的 發(fā)展。
論文:https://arxiv.org/abs/2307.02469
網(wǎng)站:https://lynx-llm.github.io/
代碼:https://github.com/bytedance/lynx-llm
在這篇文章中,作者從定量和定性兩個(gè)方面對(duì)此類模型的訓(xùn)練進(jìn)行了系統(tǒng)和全面的研究。設(shè)置了 20 多種變體,對(duì)于網(wǎng)絡(luò)結(jié)構(gòu),比較了不同的 LLMs 主干和模型設(shè)計(jì);對(duì)于訓(xùn)練數(shù)據(jù),研究了數(shù)據(jù)和采樣策略的影響;在指令方面,探討了多樣化提示對(duì)模型指令跟隨能力的影響。對(duì)于 benchmarks ,文章首次提出包括圖像和視頻任務(wù)的開放式視覺問(wèn)答評(píng)估集 Open-VQA。
基于實(shí)驗(yàn)結(jié)論,作者提出了 Lynx,與現(xiàn)有的開源 GPT4-style 模型相比,它在表現(xiàn)出最準(zhǔn)確的多模態(tài)理解能力的同時(shí),保持了最佳的多模態(tài)生成能力。
評(píng)估方案
不同于典型的視覺語(yǔ)言任務(wù),評(píng)估 GPT4-style 模型的主要挑戰(zhàn)在于平衡文本生成能力和多模態(tài)理解準(zhǔn)確性兩個(gè)方面的性能。為了解決這個(gè)問(wèn)題,作者提出了一種包含視頻和圖像數(shù)據(jù)的新 benchmark Open-VQA,并對(duì)當(dāng)前的開源模型進(jìn)行了全面的評(píng)價(jià)。
具體來(lái)說(shuō),采用了兩種量化評(píng)價(jià)方案:
收集開放式視覺問(wèn)答 (Open-VQA) 測(cè)試集,其包含關(guān)于物體、OCR、計(jì)數(shù)、推理、動(dòng)作識(shí)別、時(shí)間順序等不同類別的問(wèn)題。不同于有標(biāo)準(zhǔn)答案的 VQA 數(shù)據(jù)集,Open-VQA 的答案是開放式的。為了評(píng)估 Open-VQA 上的性能,使用 GPT4 作為判別器,其結(jié)果與人類評(píng)估有 95% 的一致性。
此外,作者采用了由 mPLUG-owl [1] 提供的 OwlEval 數(shù)據(jù)集來(lái)評(píng)估模型的文本生成能力,雖然只包含 50 張圖片 82 個(gè)問(wèn)題,但涵蓋故事生成、廣告生成、代碼生成等多樣問(wèn)題,并招募人工標(biāo)注員對(duì)不同模型的表現(xiàn)進(jìn)行打分。
結(jié)論
為了深入研究多模態(tài) LLMs 的訓(xùn)練策略,作者主要從網(wǎng)絡(luò)結(jié)構(gòu)(前綴微調(diào) / 交叉注意力)、訓(xùn)練數(shù)據(jù)(數(shù)據(jù)選擇及組合比例)、指示(單一指示 / 多樣化指示)、LLMs 模型(LLaMA [5]/Vicuna [6])、圖像像素(420/224)等多個(gè)方面設(shè)置了二十多種變體,通過(guò)實(shí)驗(yàn)得出了以下主要結(jié)論:
多模態(tài) LLMs 的指示遵循能力不如 LLMs。例如,InstructBLIP [2] 傾向于不管輸入指令如何都生成簡(jiǎn)短的回復(fù),而其他模型傾向于生成長(zhǎng)句子而不考慮指令,作者認(rèn)為這是由于缺乏高質(zhì)量和多樣化的多模態(tài)指令數(shù)據(jù)所導(dǎo)致的。
訓(xùn)練數(shù)據(jù)的質(zhì)量對(duì)模型的性能至關(guān)重要。基于在不同的數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)的結(jié)果,發(fā)現(xiàn)使用少量的高質(zhì)量數(shù)據(jù)比使用大規(guī)模的噪聲數(shù)據(jù)表現(xiàn)得更好。作者認(rèn)為這是生成式訓(xùn)練和對(duì)比式訓(xùn)練的區(qū)別,因?yàn)樯墒接?xùn)練是直接學(xué)習(xí)詞的條件分布而不是文本和圖像的相似度。因此,為了更好的模型性能,在數(shù)據(jù)方面需要滿足兩點(diǎn):1)包含高質(zhì)量的流暢文本;2)文本和圖像內(nèi)容對(duì)齊得較好。
任務(wù)和提示對(duì)零樣本 (zero-shot) 能力至關(guān)重要。使用多樣化任務(wù)和指令可以提升模型在未知任務(wù)上的零樣本生成能力,這與純文本模型中的觀察結(jié)果一致。
平衡正確性和語(yǔ)言生成能力是很重要的。如果模型在下游任務(wù) (如 VQA) 上訓(xùn)練不足,更可能生成與視覺輸入不符的編造的內(nèi)容;而如果模型在下游任務(wù)中訓(xùn)練過(guò)多,它則傾向于生成短答案,將無(wú)法按照用戶的指示生成較長(zhǎng)的答案。
前綴微調(diào) (prefix-finetuning, PT) 是目前對(duì) LLMs 進(jìn)行多模態(tài)適配的最佳方案。在實(shí)驗(yàn)中,prefix-finetuning 結(jié)構(gòu)的模型能更快地提升對(duì)多樣化指示的遵循能力,比交叉注意力 (cross-attention, CA) 的模型結(jié)構(gòu)更易訓(xùn)練。(prefix-tuning 和 cross-attention 為兩種模型結(jié)構(gòu),具體見 Lynx 模型介紹部分)
Lynx 模型
作者提出了 Lynx(猞猁)—— 進(jìn)行了兩階段訓(xùn)練的 prefix-finetuning 的 GPT4-style 模型。在第一階段,使用大約 120M 圖像 - 文本對(duì)來(lái)對(duì)齊視覺和語(yǔ)言嵌入 (embeddings) ;在第二階段,使用 20 個(gè)圖像或視頻的多模態(tài)任務(wù)以及自然語(yǔ)言處理 (NLP) 數(shù)據(jù)來(lái)調(diào)整模型的指令遵循能力。
Lynx 模型的整體結(jié)構(gòu)如上圖 Figure 1 所示。
視覺輸入經(jīng)過(guò)視覺編碼器處理后得到視覺令牌 (tokens) $$W_v$$,經(jīng)過(guò)映射后與指令 tokens $$W_l$$ 拼接作為 LLMs 的輸入,在本文中將這種結(jié)構(gòu)稱為「prefix-finetuning」以區(qū)別于如 Flamingo [3] 所使用的 cross-attention 結(jié)構(gòu)。
此外,作者發(fā)現(xiàn),通過(guò)在凍結(jié) (frozen) 的 LLMs 某些層后添加適配器 (Adapter) 可以進(jìn)一步降低訓(xùn)練成本。
模型效果
作者測(cè)評(píng)了現(xiàn)有的開源多模態(tài) LLMs 模型在 Open-VQA、Mme [4] 及 OwlEval 人工測(cè)評(píng)上的表現(xiàn)(結(jié)果見后文圖表,評(píng)估細(xì)節(jié)見論文)??梢钥吹?strong style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important;"> Lynx 模型在 Open-VQA 圖像和視頻理解任務(wù)、OwlEval 人工測(cè)評(píng)及 Mme Perception 類任務(wù)中都取得了最好的表現(xiàn)。其中,InstructBLIP 在多數(shù)任務(wù)中也實(shí)現(xiàn)了高性能,但其回復(fù)過(guò)于簡(jiǎn)短,相較而言,在大多數(shù)情況下 Lynx 模型在給出正確的答案的基礎(chǔ)上提供了簡(jiǎn)明的理由來(lái)支撐回復(fù),這使得它對(duì)用戶更友好(部分 cases 見后文 Cases 展示部分)。
1. 在 Open-VQA 圖像測(cè)試集上的指標(biāo)結(jié)果如下圖 Table 1 所示:
2. 在 Open-VQA 視頻測(cè)試集上的指標(biāo)結(jié)果如下圖 Table 2 所示。
3. 選取 Open-VQA 中得分排名靠前的模型進(jìn)行 OwlEval 測(cè)評(píng)集上的人工效果評(píng)估,其結(jié)果如上圖 Figure 4 所示。從人工評(píng)價(jià)結(jié)果可以看出 Lynx 模型具有最佳的語(yǔ)言生成性能。
4. 在 Mme benchmark 測(cè)試中,Perception 類任務(wù)獲得最好的表現(xiàn),其中 14 類子任務(wù)中有 7 個(gè)表現(xiàn)最優(yōu)。(詳細(xì)結(jié)果見論文附錄)
Cases 展示
Open-VQA 圖片 cases
OwlEval cases
Open-VQA 視頻 case
總結(jié)
在本文中,作者通過(guò)對(duì)二十多種多模態(tài) LLMs 變種的實(shí)驗(yàn),確定了以 prefix-finetuning 為主要結(jié)構(gòu)的 Lynx 模型并給出開放式答案的 Open-VQA 測(cè)評(píng)方案。實(shí)驗(yàn)結(jié)果顯示 Lynx 模型表現(xiàn)最準(zhǔn)確的多模態(tài)理解準(zhǔn)確度的同時(shí),保持了最佳的多模態(tài)生成能力。
參考文獻(xiàn)
[1] Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, et al. mplug-owl: Modularization empowers large language models with multimodality. arXiv preprint arXiv:2304.14178, 2023.
[2] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, and Steven Hoi. Instructblip: Towards general-purpose vision-language models with instruction tuning. arXiv preprint arXiv:2305.06500, 2023.
[3] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. Advances in Neural Information Processing Systems, 35:23716–23736, 2022.
[4] Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Zhenyu Qiu, Wei Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, and Rongrong Ji. Mme: A comprehensive evaluation benchmark for multimodal large language models. arXiv preprint arXiv:2306.13394, 2023.
[5] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.
[6] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E. Gonzalez, Ion Stoica, and Eric P. Xing. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality, March 2023. URL
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。