博客專欄

EEPW首頁 > 博客 > 微軟亞洲研究院持續(xù)迭代BEiT,為通用基礎(chǔ)模型的大一統(tǒng)發(fā)展奠定基礎(chǔ)

微軟亞洲研究院持續(xù)迭代BEiT,為通用基礎(chǔ)模型的大一統(tǒng)發(fā)展奠定基礎(chǔ)

發(fā)布人:MSRAsia 時間:2022-11-21 來源:工程師 發(fā)布文章
編者按:近期,微軟亞洲研究院聯(lián)合微軟圖靈團隊推出了 BEiT-3 預(yù)訓(xùn)練模型,并在廣泛的視覺及視覺-語言任務(wù)上,實現(xiàn)了 SOTA 的遷移性能。BEiT-3 創(chuàng)新的設(shè)計和出色的表現(xiàn)為多模態(tài)研究開創(chuàng)了新的范式,更預(yù)示著人工智能大一統(tǒng)漸露曙光。BEiT-3 的構(gòu)建思路是什么?大規(guī)模預(yù)訓(xùn)練又將通向怎樣的未來?在深科技近日的采訪中,微軟亞洲研究院首席研究員韋福如詳細介紹了生成式自監(jiān)督視覺預(yù)訓(xùn)練模型 BEiT 和通用多模態(tài)基礎(chǔ)模型 BEiT-3 背后的技術(shù),并探討了大模型開發(fā)與訓(xùn)練中需要探討和深思的問題,以及該領(lǐng)域的未來發(fā)展方向。


韋福如,本科、碩士和博士畢業(yè)于武漢大學(xué)計算機學(xué)院。博士期間,他在香港理工大學(xué)計算機系擔(dān)任訪問學(xué)者,自此開始從事自然語言處理(Natural Language Processing,NLP)領(lǐng)域的研究工作。


幾年間,韋福如在 NLP 領(lǐng)域取得了多次突破,并在大規(guī)模預(yù)訓(xùn)練模型、自然語言處理,多模態(tài)人工智能等領(lǐng)域持續(xù)創(chuàng)新,曾入選2017年《麻省理工科技評論》“35歲以下科技創(chuàng)新35人”中國區(qū)榜單。


圖片

微軟亞洲研究院首席研究員韋福如


目前,韋福如已在微軟亞洲研究院工作12年,現(xiàn)任自然語言計算組首席研究員。他以 NLP 為主攻領(lǐng)域,這是人工智能的核心課題之一,是一門研究機器如何理解和生成自然語言的學(xué)科。該領(lǐng)域包括語言分析、信息抽取、信息檢索、文本挖掘、機器閱讀理解、智能問答、機器翻譯、自動文摘,文本生成以及綜合場景應(yīng)用等研究課題。


近年來,隨著自然語言處理的研究和技術(shù)廣泛遷移到人工智能的其他領(lǐng)域,韋福如和團隊還專注于跨任務(wù)、跨語言和跨模態(tài)基礎(chǔ)模型、語音處理、文檔智能和多模態(tài)人工智能等領(lǐng)域的研究。


從技術(shù)層面來看,最近幾年 NLP 領(lǐng)域取得了非常出色的進展。大規(guī)模預(yù)訓(xùn)練模型正在引領(lǐng)人工智能領(lǐng)域進行一場前所未有的范式遷移:在海量的未標(biāo)注數(shù)據(jù)上通過自監(jiān)督預(yù)訓(xùn)練得到一個預(yù)訓(xùn)練模型(又稱為基礎(chǔ)模型),再通過微調(diào)或少樣本/零樣本學(xué)習(xí)使用少量標(biāo)注,甚至不需要標(biāo)注數(shù)據(jù),即可把基礎(chǔ)模型廣泛應(yīng)用到下游任務(wù)模型上。新的范式取得了優(yōu)異的效果,并展現(xiàn)出了強大的泛化和通用能力。


“這幾年有三個重要的關(guān)鍵詞。第一個是大規(guī)模預(yù)訓(xùn)練模型,或稱為基礎(chǔ)模型,即在通過自監(jiān)督學(xué)習(xí)完成預(yù)訓(xùn)練的同時,也實現(xiàn)了模型訓(xùn)練的范式遷移。第二個是多語言,也就是用一個模型可以支持多種語言的下游任務(wù)。第三個是多模態(tài),即不同模態(tài)(例如文本、圖像、語音等)的建模和學(xué)習(xí)逐漸趨于融合和統(tǒng)一。”韋福如表示。


圖片

生成式自監(jiān)督視覺預(yù)訓(xùn)練模型BEiT和通用多模態(tài)基礎(chǔ)模型BEiT-3


計算機視覺(Computer Vision, CV)領(lǐng)域通常使用的是有監(jiān)督預(yù)訓(xùn)練,也就是利用有標(biāo)注的數(shù)據(jù)進行訓(xùn)練。但隨著視覺模型的不斷擴大,標(biāo)注數(shù)據(jù)難以滿足模型需求,當(dāng)模型達到一定規(guī)模時,即使模型再擴大,也無法得到更好的結(jié)果,這就是所謂的數(shù)據(jù)饑餓(data hungry)。因此,科研人員開始使用無標(biāo)注數(shù)據(jù)進行自監(jiān)督學(xué)習(xí),以此預(yù)訓(xùn)練大模型參數(shù)。


以往在 CV 領(lǐng)域,無標(biāo)注數(shù)據(jù)的自監(jiān)督學(xué)習(xí)常采用對比學(xué)習(xí)。但對比學(xué)習(xí)存在一個問題——對圖像干擾操作過于依賴。當(dāng)噪聲太簡單時,模型學(xué)習(xí)不到有用的知識;而對圖像改變過大,甚至面目全非時,模型無法進行有效學(xué)習(xí)。所以對比學(xué)習(xí)很難把握這之間的平衡,且需要大批量訓(xùn)練,對顯存和工程實現(xiàn)要求很高。


在此背景下,韋福如團隊于2021年推出了生成式自監(jiān)督的視覺預(yù)訓(xùn)練模型 BEiT,借助掩碼圖像建模(Masked Image Modeling,MIM)方法完成預(yù)訓(xùn)練任務(wù)。


國際表征學(xué)習(xí)(International Conference on Learning Representations,ICLR)大會評審委員會認為,BEiT 為視覺大模型預(yù)訓(xùn)練的研究開創(chuàng)了一個全新的方向,首次成功將掩碼預(yù)訓(xùn)練應(yīng)用在了 CV 領(lǐng)域非常具有創(chuàng)新性。實驗結(jié)果表明,與之前的預(yù)訓(xùn)練方法相比,BEiT 可實現(xiàn)更為優(yōu)越的效果。


基于 BEiT,2022年韋福如和團隊進一步豐富了自監(jiān)督學(xué)習(xí)的語義信息,發(fā)布了 BEiT-2,并隨后將其升級為 BEiT-3。


2022年8月31日,相關(guān)論文以《把圖像視為外語:適用于所有視覺和視覺-語言任務(wù)的BEiT預(yù)訓(xùn)練方法》(Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks)為題發(fā)布在預(yù)印本平臺 arXiv [1]。


圖片

BEiT-3 論文


隨著大模型的發(fā)展,語言、視覺等多模態(tài)領(lǐng)域的預(yù)訓(xùn)練模型已呈現(xiàn)出“大一統(tǒng)”趨勢。模型在大規(guī)模、海量數(shù)據(jù)上預(yù)訓(xùn)練之后,能順利遷移至各種下游任務(wù)中。因此,預(yù)訓(xùn)練一個能夠處理多種模態(tài)的通用基礎(chǔ)模型,也成為目前人工智能研究的一個關(guān)鍵課題。


BEiT-3 正是這樣一種通用的多模態(tài)基礎(chǔ)模型,在廣泛的視覺和視覺-語言任務(wù)上,都實現(xiàn)了最好的遷移性能。


圖片

BEiT-3 預(yù)訓(xùn)練概述


在 BEiT-3 中,研究人員從骨干網(wǎng)絡(luò)、預(yù)訓(xùn)練方法和模型規(guī)模化三個方面出發(fā),推動了視覺-語言預(yù)訓(xùn)練任務(wù)的融合。


首先,研究人員使用 Multiway Transformer 作為骨干模型來編碼不同的模態(tài)。每一個 Multiway Transformer 模塊都由一個共享的自注意力模塊和一組用于不同模態(tài)的前饋網(wǎng)絡(luò)池(即模態(tài)專家)組成,從而可以同時編碼多種模態(tài)。


此外,通過模塊化的設(shè)計,統(tǒng)一架構(gòu)可以用于不同的視覺及視覺-語言下游任務(wù)。其中,Multiway Transformer 每一層都包括一個視覺專家和一個語言專家。


最上面的三層有專門為融合編碼器設(shè)計的視覺-語言專家。共享的自注意力模塊可以對不同模態(tài)之間的對齊(即尋找對應(yīng)關(guān)系)進行學(xué)習(xí),并能深度融合多模態(tài)(如視覺-語言)信息。


圖片

可以遷移到各種視覺和視覺-語言下游任務(wù)的 BEiT-3


統(tǒng)一的模型架構(gòu)使 BEiT-3 能遷移到各種視覺和視覺-語言下游任務(wù)中。它不僅可以應(yīng)用于圖像分類、目標(biāo)檢測、實例分割等視覺任務(wù)的骨干網(wǎng)絡(luò),還可以在模型微調(diào)后成為高效的圖像-文本檢索的雙編碼器,以及多模態(tài)理解和生成任務(wù)的融合編碼器等。


其次,在預(yù)訓(xùn)練 BEiT-3 的過程中,研究人員采用單模態(tài)和多模態(tài)數(shù)據(jù)的統(tǒng)一掩碼數(shù)據(jù)建模(Masked Data Modeling)方法。這種方法能夠隨機屏蔽一定比例的文本或像素塊,并訓(xùn)練模型去恢復(fù)被屏蔽的部分。統(tǒng)一的掩碼-預(yù)測任務(wù),不僅可以學(xué)習(xí)各模態(tài)的特征,還能學(xué)習(xí)它們之間的對齊。


其他視覺-語言模型一般采用圖像-文本對比、圖像-文本匹配等多種預(yù)訓(xùn)練任務(wù),而 BEiT-3 只使用了一種預(yù)訓(xùn)練任務(wù),這不僅有利于擴大模型規(guī)模,還有助于實現(xiàn) GPU 內(nèi)存等多方成本的降低。


最后,該團隊從模型規(guī)模和數(shù)據(jù)規(guī)模兩方面出發(fā),將 BEiT-3 進行規(guī)?;瑥亩岣呋A(chǔ)模型的泛化能力。


據(jù)悉,BEiT-3 由1408個隱藏神經(jīng)元、6144個中間層神經(jīng)元、16組注意力模塊的40層 Multiway Transformer 骨干網(wǎng)絡(luò)組成,模型共包含大約19億個參數(shù),其中視覺專家參數(shù)6.92億,語言專家參數(shù)6.92億,視覺-語言專家參數(shù)0.52億,共享自注意力模塊參數(shù)為3.17億個。


據(jù)介紹,微軟亞洲研究院在單模態(tài)和多模態(tài)數(shù)據(jù)上對 BEiT-3 進行了100萬次迭代的預(yù)訓(xùn)練,每個批量的訓(xùn)練數(shù)據(jù)包含6144個樣本,其中有2048張圖像、2048個文本和2048個圖像-文本對。相比使用對比學(xué)習(xí)方法訓(xùn)練的模型來說, BEiT-3 的批量規(guī)模要小得多。值得一提的是,這里面所有數(shù)據(jù)都是開源的。


圖片

BEiT-3 模型參數(shù)分布及預(yù)訓(xùn)練數(shù)據(jù)


同時,在包含視覺問答、視覺推理、圖像描述生成等在內(nèi)的視覺-語言任務(wù),以及包含目標(biāo)檢測與實例分割、語義分割、圖像分類等在內(nèi)的一共12個視覺-語言下游任務(wù)上,該團隊評估了 BEiT-3 的泛化能力。結(jié)果表明,BEiT-3 在這些任務(wù)上都取得了 SOTA 的遷移性能。


圖片

與其他特定模型或基礎(chǔ)模型相比,BEiT-3 在廣泛任務(wù)中實現(xiàn)了最佳性能


圖片

“通用走向未來”:大規(guī)模預(yù)訓(xùn)練模型將朝“大一統(tǒng)”方向發(fā)展


目前,在開發(fā)和訓(xùn)練大模型的過程中,仍然存在許多需要探討和深思的問題。


例如,很多企業(yè)都會將數(shù)據(jù)收集類的工作外包處理,這個過程中不僅存在安全隱患,還會造成數(shù)據(jù)不均衡的問題。對此,韋福如表示,數(shù)據(jù)是模型的重要組成部分。沒有好的數(shù)據(jù),就不可能有好的模型。數(shù)據(jù)本身就是大模型研究的一部分,因此這部分的工作需要更加重視。


從某種程度上看,對數(shù)據(jù)部分的研究更需要匯集聰明才智。如何收集、整理以及使用數(shù)據(jù),也是最值得投入和研究的課題之一。


又比如,研發(fā)大模型時不僅會消耗大量成本,甚至也會對氣候造成一定影響。談及這個問題,韋福如表示大模型的能效(efficiency)很重要,這也是接下來需要研究的重要部分之一。但另一方面,因為通用大模型的出現(xiàn),相關(guān)領(lǐng)域的特定任務(wù)和模型將變得更加簡單,這也有利于降低重復(fù)建設(shè)的成本。


在韋福如看來,未來大規(guī)模預(yù)訓(xùn)練模型向“大一統(tǒng)”方向發(fā)展,已經(jīng)成為必然。這個“大一統(tǒng)”主要可從兩個層面理解:


第一,從技術(shù)層面看,如何用相同的技術(shù)構(gòu)建不同領(lǐng)域的基礎(chǔ)模型?這包括構(gòu)建通用骨干網(wǎng)絡(luò)、生成式自監(jiān)督學(xué)習(xí)為主的學(xué)習(xí)方式,以及持續(xù)擴大(scaling up)模型規(guī)模。


第二,從模型和應(yīng)用層面看,如何構(gòu)建一個能夠處理不同語言和模態(tài)任務(wù)的基礎(chǔ)模型?隨著技術(shù)的統(tǒng)一,未來將會出現(xiàn)能夠應(yīng)用于各種領(lǐng)域的通用基礎(chǔ)大模型。


韋福如認為:“只有模型標(biāo)準(zhǔn)化,才可能實現(xiàn)規(guī)?;?,進而為大范圍產(chǎn)業(yè)化提供基礎(chǔ)和可能。‘大一統(tǒng)’中很重要的一點是,技術(shù)會變得越來越通用,只有通用才有可能更接近本質(zhì),也更利于不同領(lǐng)域的深度合作和相互促進?!?/span>


而對于 BEiT-3 來說,其核心思想就是把圖像作為一種外語進行建模和學(xué)習(xí),從而實現(xiàn)以統(tǒng)一的方式完成圖像、文本和圖像-文本的掩碼“語言”建模,這也在自然語言處理領(lǐng)域被證實為最有效的擴大模型規(guī)模的技術(shù)方向和方案,這也將成為規(guī)?;A(chǔ)模型一個頗有前景的方向。


未來,韋福如和團隊將繼續(xù)開展多模態(tài)預(yù)訓(xùn)練方面的工作,并將在其中加入包括音頻、多語言在內(nèi)的更多模態(tài),在促進跨語言和跨模態(tài)轉(zhuǎn)換的同時,推動跨任務(wù)、跨語言和跨模態(tài)的大規(guī)模預(yù)訓(xùn)練融合。


支持:王貝貝


參考資料:


1.W. Wang, H. Bao, L. Dong, J. Bjorck.et al. Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks. arXiv (2022).https://doi.org/10.48550/arXiv.2208.10442

H. Bao, L. Dong, S. Piao. F. Wei, BEiT:BERT Pre-Training of Image Transformers. arXiv (2021).https://doi.org/10.48550/arXiv.2106.08254

Z. Peng, L. Dong, H. Bao, Q. Ye, F. Wei, BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers. arXiv (2022)https://doi.org/10.48550/arXiv.2208.06366



*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

電子管相關(guān)文章:電子管原理


模擬信號相關(guān)文章:什么是模擬信號


可控硅相關(guān)文章:可控硅工作原理


比較器相關(guān)文章:比較器工作原理


低通濾波器相關(guān)文章:低通濾波器原理


電子負載相關(guān)文章:電子負載原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉