Facebook用10億無標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練實(shí)現(xiàn)SOTA：提出自監(jiān)督CV新模型

發(fā)布人：CV研究院時(shí)間：2021-03-21 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

Facebook AI 用 10 億張來自Instagram的隨機(jī)、未標(biāo)注圖像預(yù)訓(xùn)練了一個(gè)參數(shù)量達(dá) 13 億的自監(jiān)督模型 SEER，該模型取得了自監(jiān)督視覺模型的新 SOTA，可能會(huì)為計(jì)算機(jī)視覺領(lǐng)域打開一個(gè)新篇章。

近日，F(xiàn)acebook 宣布了一項(xiàng)重要新工作：他們提出的自監(jiān)督 AI 模型 SEER 能夠在沒有人類手動(dòng)標(biāo)注的情況下，從 10 億張來自 Instagram 的隨機(jī)圖片中學(xué)習(xí)識(shí)別和分類照片中的主要對(duì)象。最終，該模型在 ImageNet 上的 top-1 準(zhǔn)確率達(dá)到 84.2%，比現(xiàn)有的 SOTA 自監(jiān)督模型高出一個(gè)百分點(diǎn)。

對(duì)此，F(xiàn)acebook AI 首席科學(xué)家、圖靈獎(jiǎng)得主 Yann Lecun 發(fā)推表示祝賀，并將顯著結(jié)果進(jìn)行了展示：

在大家的認(rèn)知里，大多數(shù)計(jì)算機(jī)視覺模型都是從標(biāo)記的數(shù)據(jù)集中學(xué)習(xí)。與此不同的是，F(xiàn)acebook 的模型則是通過暴露數(shù)據(jù)各部分之間的關(guān)系從數(shù)據(jù)中生成標(biāo)簽。

這一步被認(rèn)為對(duì)有朝一日實(shí)現(xiàn)人類級(jí)的機(jī)器智能至關(guān)重要。

研究人員認(rèn)為，AI 的未來在于做出一種自動(dòng)化系統(tǒng)：其可以從任何給定的信息中進(jìn)行推斷，而不依賴于標(biāo)注的數(shù)據(jù)集。給定一份文本、圖像或其他類型的數(shù)據(jù)，AI 系統(tǒng)最好能夠識(shí)別照片中的物體、讀懂文本，或執(zhí)行要求它完成的其他無數(shù)任務(wù)中的任何一項(xiàng)。

Facebook 聲稱，他們已經(jīng)朝著這一目標(biāo)邁出了一步，推出了一種名為 SEER 的計(jì)算機(jī)視覺模型。SEER 是 SElf-supERvised 的縮寫，包含 13 億個(gè)參數(shù)，可以從互聯(lián)網(wǎng)上的任何一組隨機(jī)圖像中學(xué)習(xí)，而不需要標(biāo)記數(shù)據(jù)。

SEER有何創(chuàng)新之處？

參數(shù)一直是機(jī)器學(xué)習(xí)系統(tǒng)的基本組成部分，是從歷史訓(xùn)練數(shù)據(jù)中得到的模型的一部分。AI 的未來在于是否能夠不依賴于帶注釋的數(shù)據(jù)集，從給定的信息中進(jìn)行推理。

視覺自監(jiān)督是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。對(duì)于文本來說，語義概念可以分解為離散的詞，自監(jiān)督學(xué)習(xí)在自然語言處理中已經(jīng)取得突破，在數(shù)量越來越多的未標(biāo)記文本上訓(xùn)練算法已使諸如問答、機(jī)器翻譯、自然語言推理等應(yīng)用程序取得了進(jìn)展。

但是對(duì)于圖像，計(jì)算機(jī)視覺尚未完全進(jìn)入自監(jiān)督的學(xué)習(xí)，在現(xiàn)有的技術(shù)中心，模型必須決定哪個(gè)像素屬于哪個(gè)概念。因此，要抓住圍繞一個(gè)概念的變化，就需要查看大量不同的圖像。

正如 Facebook AI Research 的軟件工程師 Priya Gopal 所解釋的那樣，SEER 是該領(lǐng)域的首創(chuàng)。與現(xiàn)有的在 ImageNet 數(shù)據(jù)集上訓(xùn)練的計(jì)算機(jī)視覺的自監(jiān)督模型相比，SEER 是第一個(gè)可以隨機(jī)訓(xùn)練互聯(lián)網(wǎng)上圖像上的完全自監(jiān)督的計(jì)算機(jī)視覺模型。

研究人員通過 Instagram 公開的 10 億張圖片進(jìn)行模型訓(xùn)練。

經(jīng)過研究，F(xiàn)acebook 的研究人員發(fā)現(xiàn)，擴(kuò)展 AI 系統(tǒng)以處理復(fù)雜圖像數(shù)據(jù)至少需要兩個(gè)核心部分：

第一為算法，其需要從大量的隨機(jī)圖像中學(xué)習(xí)，而不需要任何元數(shù)據(jù)或注釋；

第二為卷積網(wǎng)絡(luò)，ConvNet——模型需要足夠大，可以從數(shù)據(jù)中捕捉和學(xué)習(xí)每一個(gè)視覺概念。

卷積網(wǎng)絡(luò)最早是在 20 世紀(jì) 80 年代被提出的，它的靈感來自于生物過程，即模型各部分之間的連接模式類似于視覺皮層。

在開發(fā) SEER 的過程中，F(xiàn)acebook 采用了一種稱為 SwAV 的算法。SwAV 使用了一種聚類技術(shù)，可以快速地對(duì)來自相似視覺概念的圖像進(jìn)行分組，并利用它們的相似性，與以前最先進(jìn)的自監(jiān)督學(xué)習(xí)相比有了改進(jìn)，同時(shí)所需的訓(xùn)練時(shí)間縮短為原來的1/6。

SEER 模型架構(gòu)的簡(jiǎn)化示意圖。圖源：Facebook

PriyaGoyal 介紹說，為了訓(xùn)練 SEER，F(xiàn)acebook 的團(tuán)隊(duì)使用了具有 32GB RAM 的 512 塊英偉達(dá) V100 GPU，耗時(shí) 30 天完成。

訓(xùn)練 SEER，還需要 VISSL 通用庫，它一種基于 PyTorch 的全能庫，用于自監(jiān)督學(xué)習(xí)，該庫是開源的。VISSL 通過整合現(xiàn)有的幾種算法，減少了對(duì)每個(gè) GPU 的內(nèi)存需要，提高了任意一個(gè)給定模型的訓(xùn)練速度，促進(jìn)了大規(guī)模的自監(jiān)督學(xué)習(xí)。

性能評(píng)價(jià)及未來工作

Facebook 的研究人員使用 ImageNet 數(shù)據(jù)集作評(píng)估 SEER 性能的基準(zhǔn)，他們發(fā)現(xiàn)自監(jiān)督模型在諸如物體檢測(cè)、分割和圖像分類等任務(wù)上優(yōu)于最新的自監(jiān)督 AI 系統(tǒng)。結(jié)果表明，SEER 在對(duì) 10 億張 Instagram 公共圖片進(jìn)行預(yù)訓(xùn)練后，性能優(yōu)于現(xiàn)有的 SOTA 自監(jiān)督系統(tǒng)。

當(dāng)使用 ImageNet 數(shù)據(jù)集中 10% 的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)，SEER 仍然達(dá)到 77.9% 的準(zhǔn)確率。當(dāng)只使用 ImageNet 數(shù)據(jù)集中 1% 的數(shù)據(jù)訓(xùn)練時(shí)，SEER 的準(zhǔn)確率為 60.5%。

這一結(jié)果表明，研究人員不需要像 ImageNet 這樣的高度精選的數(shù)據(jù)集，對(duì)隨機(jī)圖像的自監(jiān)督學(xué)習(xí)就可以產(chǎn)生非常高質(zhì)量的模型。

當(dāng)被問及 Instagram 用戶是否知道自己的照片被用來訓(xùn)練 SEER，或有機(jī)會(huì)選擇退出研究時(shí)，Goyal 表示說，F(xiàn)acebook 在其數(shù)據(jù)政策中告知 Instagram 賬戶持有人，他們上傳的照片可能會(huì)被用來進(jìn)行研究，同時(shí)包括 SEER。

同時(shí)這也意味著，F(xiàn)acebook 沒有計(jì)劃分享圖像數(shù)據(jù)集或 SEER 模型本身。

Facebook 在博客中寫道：自監(jiān)督學(xué)習(xí)一直是 Facebook AI 關(guān)注的焦點(diǎn)，因?yàn)樗箼C(jī)器能夠直接從大量可用的信息中學(xué)習(xí)，而不僅僅是從專門為 AI 研究創(chuàng)建的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。

自監(jiān)督學(xué)習(xí)對(duì)計(jì)算機(jī)視覺的未來有著難以置信的影響，就像它在其他研究領(lǐng)域中的那樣。

消除對(duì)人類注釋和元數(shù)據(jù)的需求，可以使計(jì)算機(jī)視覺模型能夠處理更大、更多樣化的數(shù)據(jù)集，從隨機(jī)的公共圖像中學(xué)習(xí)，并可能減輕數(shù)據(jù)管理中的一些偏見。

自監(jiān)督學(xué)習(xí)還可以幫助我們?cè)趫D像或元數(shù)據(jù)有限的領(lǐng)域（如醫(yī)學(xué)成像）進(jìn)行專門研究。而且，無需預(yù)先進(jìn)行標(biāo)記，就可以更快地創(chuàng)建和部署模型，從而能夠更快、更準(zhǔn)確地響應(yīng)快速變化的情況。

參考鏈接：

https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/

https://venturebeat.com/2021/03/04/facebooks-new-computer-vision-model-achieves-state-of-the-art-performance-by-learning-from-random-images/

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

Facebook用10億無標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練實(shí)現(xiàn)SOTA：提出自監(jiān)督CV新模型

相關(guān)推薦

技術(shù)專區(qū)