博客專欄

EEPW首頁 > 博客 > Facebook用10億無標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練實(shí)現(xiàn)SOTA:提出自監(jiān)督CV新模型

Facebook用10億無標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練實(shí)現(xiàn)SOTA:提出自監(jiān)督CV新模型

發(fā)布人:CV研究院 時(shí)間:2021-03-21 來源:工程師 發(fā)布文章

Facebook AI 用 10 億張來自Instagram的隨機(jī)、未標(biāo)注圖像預(yù)訓(xùn)練了一個(gè)參數(shù)量達(dá) 13 億的自監(jiān)督模型 SEER,該模型取得了自監(jiān)督視覺模型的新 SOTA,可能會(huì)為計(jì)算機(jī)視覺領(lǐng)域打開一個(gè)新篇章。

1.jpg2.png

近日,F(xiàn)acebook 宣布了一項(xiàng)重要新工作:他們提出的自監(jiān)督 AI 模型 SEER 能夠在沒有人類手動(dòng)標(biāo)注的情況下,從 10 億張來自 Instagram 的隨機(jī)圖片中學(xué)習(xí)識(shí)別和分類照片中的主要對(duì)象。最終,該模型在 ImageNet 上的 top-1 準(zhǔn)確率達(dá)到 84.2%,比現(xiàn)有的 SOTA 自監(jiān)督模型高出一個(gè)百分點(diǎn)。

3.png

對(duì)此,F(xiàn)acebook AI 首席科學(xué)家、圖靈獎(jiǎng)得主 Yann Lecun 發(fā)推表示祝賀,并將顯著結(jié)果進(jìn)行了展示:

4.png

在大家的認(rèn)知里,大多數(shù)計(jì)算機(jī)視覺模型都是從標(biāo)記的數(shù)據(jù)集中學(xué)習(xí)。與此不同的是,F(xiàn)acebook 的模型則是通過暴露數(shù)據(jù)各部分之間的關(guān)系從數(shù)據(jù)中生成標(biāo)簽。

這一步被認(rèn)為對(duì)有朝一日實(shí)現(xiàn)人類級(jí)的機(jī)器智能至關(guān)重要。

研究人員認(rèn)為,AI 的未來在于做出一種自動(dòng)化系統(tǒng):其可以從任何給定的信息中進(jìn)行推斷,而不依賴于標(biāo)注的數(shù)據(jù)集。給定一份文本、圖像或其他類型的數(shù)據(jù),AI 系統(tǒng)最好能夠識(shí)別照片中的物體、讀懂文本,或執(zhí)行要求它完成的其他無數(shù)任務(wù)中的任何一項(xiàng)。

Facebook 聲稱,他們已經(jīng)朝著這一目標(biāo)邁出了一步,推出了一種名為 SEER 的計(jì)算機(jī)視覺模型。SEER 是 SElf-supERvised 的縮寫,包含 13 億個(gè)參數(shù),可以從互聯(lián)網(wǎng)上的任何一組隨機(jī)圖像中學(xué)習(xí),而不需要標(biāo)記數(shù)據(jù)。

SEER有何創(chuàng)新之處?

參數(shù)一直是機(jī)器學(xué)習(xí)系統(tǒng)的基本組成部分,是從歷史訓(xùn)練數(shù)據(jù)中得到的模型的一部分。AI 的未來在于是否能夠不依賴于帶注釋的數(shù)據(jù)集,從給定的信息中進(jìn)行推理。

視覺自監(jiān)督是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。對(duì)于文本來說,語義概念可以分解為離散的詞,自監(jiān)督學(xué)習(xí)在自然語言處理中已經(jīng)取得突破,在數(shù)量越來越多的未標(biāo)記文本上訓(xùn)練算法已使諸如問答、機(jī)器翻譯、自然語言推理等應(yīng)用程序取得了進(jìn)展。

但是對(duì)于圖像,計(jì)算機(jī)視覺尚未完全進(jìn)入自監(jiān)督的學(xué)習(xí),在現(xiàn)有的技術(shù)中心,模型必須決定哪個(gè)像素屬于哪個(gè)概念。因此,要抓住圍繞一個(gè)概念的變化,就需要查看大量不同的圖像。

正如 Facebook AI Research 的軟件工程師 Priya Gopal 所解釋的那樣,SEER 是該領(lǐng)域的首創(chuàng)。與現(xiàn)有的在 ImageNet 數(shù)據(jù)集上訓(xùn)練的計(jì)算機(jī)視覺的自監(jiān)督模型相比,SEER 是第一個(gè)可以隨機(jī)訓(xùn)練互聯(lián)網(wǎng)上圖像上的完全自監(jiān)督的計(jì)算機(jī)視覺模型。

5.png

研究人員通過 Instagram 公開的 10 億張圖片進(jìn)行模型訓(xùn)練。

經(jīng)過研究,F(xiàn)acebook 的研究人員發(fā)現(xiàn),擴(kuò)展 AI 系統(tǒng)以處理復(fù)雜圖像數(shù)據(jù)至少需要兩個(gè)核心部分:

第一為算法,其需要從大量的隨機(jī)圖像中學(xué)習(xí),而不需要任何元數(shù)據(jù)或注釋;

第二為卷積網(wǎng)絡(luò),ConvNet——模型需要足夠大,可以從數(shù)據(jù)中捕捉和學(xué)習(xí)每一個(gè)視覺概念。

卷積網(wǎng)絡(luò)最早是在 20 世紀(jì) 80 年代被提出的,它的靈感來自于生物過程,即模型各部分之間的連接模式類似于視覺皮層。

在開發(fā) SEER 的過程中,F(xiàn)acebook 采用了一種稱為 SwAV 的算法。SwAV 使用了一種聚類技術(shù),可以快速地對(duì)來自相似視覺概念的圖像進(jìn)行分組,并利用它們的相似性,與以前最先進(jìn)的自監(jiān)督學(xué)習(xí)相比有了改進(jìn),同時(shí)所需的訓(xùn)練時(shí)間縮短為原來的1/6。

6.png

SEER 模型架構(gòu)的簡(jiǎn)化示意圖。圖源:Facebook

PriyaGoyal 介紹說,為了訓(xùn)練 SEER,F(xiàn)acebook 的團(tuán)隊(duì)使用了具有 32GB RAM 的 512 塊英偉達(dá) V100 GPU,耗時(shí) 30 天完成。

訓(xùn)練 SEER,還需要 VISSL 通用庫,它一種基于 PyTorch 的全能庫,用于自監(jiān)督學(xué)習(xí), 該庫是開源的。VISSL 通過整合現(xiàn)有的幾種算法,減少了對(duì)每個(gè) GPU 的內(nèi)存需要,提高了任意一個(gè)給定模型的訓(xùn)練速度,促進(jìn)了大規(guī)模的自監(jiān)督學(xué)習(xí)。

7.png

性能評(píng)價(jià)及未來工作

Facebook 的研究人員使用 ImageNet 數(shù)據(jù)集作評(píng)估 SEER 性能的基準(zhǔn),他們發(fā)現(xiàn)自監(jiān)督模型在諸如物體檢測(cè)、分割和圖像分類等任務(wù)上優(yōu)于最新的自監(jiān)督 AI 系統(tǒng)。結(jié)果表明,SEER 在對(duì) 10 億張 Instagram 公共圖片進(jìn)行預(yù)訓(xùn)練后,性能優(yōu)于現(xiàn)有的 SOTA 自監(jiān)督系統(tǒng)。

當(dāng)使用 ImageNet 數(shù)據(jù)集中 10% 的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),SEER 仍然達(dá)到 77.9% 的準(zhǔn)確率。當(dāng)只使用 ImageNet 數(shù)據(jù)集中 1% 的數(shù)據(jù)訓(xùn)練時(shí),SEER 的準(zhǔn)確率為 60.5%。

8.png

這一結(jié)果表明,研究人員不需要像 ImageNet 這樣的高度精選的數(shù)據(jù)集,對(duì)隨機(jī)圖像的自監(jiān)督學(xué)習(xí)就可以產(chǎn)生非常高質(zhì)量的模型。

當(dāng)被問及 Instagram 用戶是否知道自己的照片被用來訓(xùn)練 SEER,或有機(jī)會(huì)選擇退出研究時(shí),Goyal 表示說,F(xiàn)acebook 在其數(shù)據(jù)政策中告知 Instagram 賬戶持有人,他們上傳的照片可能會(huì)被用來進(jìn)行研究,同時(shí)包括 SEER。

同時(shí)這也意味著,F(xiàn)acebook 沒有計(jì)劃分享圖像數(shù)據(jù)集或 SEER 模型本身。

Facebook 在博客中寫道:自監(jiān)督學(xué)習(xí)一直是 Facebook AI 關(guān)注的焦點(diǎn),因?yàn)樗箼C(jī)器能夠直接從大量可用的信息中學(xué)習(xí),而不僅僅是從專門為 AI 研究創(chuàng)建的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。

自監(jiān)督學(xué)習(xí)對(duì)計(jì)算機(jī)視覺的未來有著難以置信的影響,就像它在其他研究領(lǐng)域中的那樣。

消除對(duì)人類注釋和元數(shù)據(jù)的需求,可以使計(jì)算機(jī)視覺模型能夠處理更大、更多樣化的數(shù)據(jù)集,從隨機(jī)的公共圖像中學(xué)習(xí),并可能減輕數(shù)據(jù)管理中的一些偏見。

自監(jiān)督學(xué)習(xí)還可以幫助我們?cè)趫D像或元數(shù)據(jù)有限的領(lǐng)域(如醫(yī)學(xué)成像)進(jìn)行專門研究。而且,無需預(yù)先進(jìn)行標(biāo)記,就可以更快地創(chuàng)建和部署模型,從而能夠更快、更準(zhǔn)確地響應(yīng)快速變化的情況。

參考鏈接:

https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/

https://venturebeat.com/2021/03/04/facebooks-new-computer-vision-model-achieves-state-of-the-art-performance-by-learning-from-random-images/

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞:

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉