當(dāng)「分割一切」遇上圖像修補(bǔ):無需精細(xì)標(biāo)記,單擊物體實(shí)現(xiàn)物體移除、內(nèi)容填補(bǔ)、場(chǎng)景替換
這次,強(qiáng)大的「分割一切」模型——Segment Anything Model,在圖像修補(bǔ)任務(wù)上碰撞出了火花。
4 月初,Meta 發(fā)布了史上首個(gè)圖像分割基礎(chǔ)模型--SAM(Segment Anything Model)[1]。作為分割模型,SAM 的能力強(qiáng)大,操作使用方式也十分友好,比如用戶簡(jiǎn)單地點(diǎn)擊來選擇對(duì)應(yīng)物體,物體就會(huì)立即被分割出來,且分割結(jié)果十分精準(zhǔn)。截至 4 月 15 號(hào),SAM 的 GitHub 倉(cāng)庫(kù)的 Star 數(shù)高達(dá) 26k。
如何利用好如此強(qiáng)大的「分割一切」模型,并拓展到更加有實(shí)際需求的應(yīng)用場(chǎng)景至關(guān)重要。例如,當(dāng) SAM 遇上實(shí)用的圖像修補(bǔ)(Image Inpainting)任務(wù)會(huì)碰撞出什么樣的火花?
來自中國(guó)科學(xué)技術(shù)大學(xué)和東方理工高等研究院的研究團(tuán)隊(duì)給出了令人驚艷的答案。基于 SAM,他們提出「修補(bǔ)一切」(Inpaint Anything,簡(jiǎn)稱 IA)模型。區(qū)別于傳統(tǒng)圖像修補(bǔ)模型,IA 模型無需精細(xì)化操作生成掩碼,支持了一鍵點(diǎn)擊標(biāo)記選定對(duì)象,IA 即可實(shí)現(xiàn)移除一切物體(Remove Anything)、填補(bǔ)一切內(nèi)容(Fill Anything)、替換一切場(chǎng)景(Replace Anything),涵蓋了包括目標(biāo)移除、目標(biāo)填充、背景替換等在內(nèi)的多種典型圖像修補(bǔ)應(yīng)用場(chǎng)景。
論文鏈接:http://arxiv.org/abs/2304.06790
代碼庫(kù)鏈接:https://github.com/geekyutao/Inpaint-Anything
方法介紹
盡管當(dāng)前圖像修補(bǔ)系統(tǒng)取得了重大進(jìn)展,但它們?cè)谶x擇掩碼圖和填補(bǔ)空洞方面仍然面臨困難?;?SAM,研究者首次嘗試無需掩碼(Mask-Free)圖像修復(fù),并構(gòu)建了「點(diǎn)擊再填充」(Clicking and Filling) 的圖像修補(bǔ)新范式,他們將其稱為修補(bǔ)一切 (Inpaint Anything)(IA)。IA 背后的核心思想是結(jié)合不同模型的優(yōu)勢(shì),以建立一個(gè)功能強(qiáng)大且用戶友好的圖像修復(fù)系統(tǒng)。
IA 擁有三個(gè)主要功能:(i) 移除一切(Remove Anything):用戶只需點(diǎn)擊一下想要移除的物體,IA 將無痕地移除該物體,實(shí)現(xiàn)高效「魔法消除」;(ii) 填補(bǔ)一切(Fill Anything):同時(shí),用戶還可以進(jìn)一步通過文本提示(Text Prompt)告訴 IA 想要在物體內(nèi)填充什么,IA 隨即通過驅(qū)動(dòng)已嵌入的 AIGC(AI-Generated Content)模型(如 Stable Diffusion [2])生成相應(yīng)的內(nèi)容填充物體,實(shí)現(xiàn)隨心「內(nèi)容創(chuàng)作」;(iii) 替換一切(Replace Anything):用戶也可以通過點(diǎn)擊選擇需要保留的物體對(duì)象,并用文本提示告訴 IA 想要把物體的背景替換成什么,即可將物體背景替換為指定內(nèi)容,實(shí)現(xiàn)生動(dòng)「環(huán)境轉(zhuǎn)換」。IA 的整體框架如下圖所示:
Inpaint Anything(IA)示意圖。用戶可以通過單擊來選擇圖像中的任何物體。借助強(qiáng)大的視覺模型,如 SAM [1]、LaMa [3] 和 Stable Diffusion (SD) [3],IA 能夠平滑移除選定物體(即 Remove Anything)。進(jìn)一步地,通過向 IA 輸入文本提示,用戶可以用任何想要的內(nèi)容填充物體(即 Fill Anything)或者任意替換對(duì)象的物體(即 Replace Anything)。
移除一切
移除一切(Remove Anything)示意圖
「移除一切」步驟如下:
第 1 步:用戶點(diǎn)擊想要移除的物體;
第 2 步:SAM 將該物體分割出來;
第 3 步:圖像修補(bǔ)模型(LaMa)填補(bǔ)該物體。
填補(bǔ)一切
填補(bǔ)一切(Fill Anything)示意圖,圖中使用的文本提示:a teddy bear on a bench
「填補(bǔ)一切」步驟如下:
第 1 步:用戶點(diǎn)擊想要移除的物體;
第 2 步:SAM 將該物體分割出來;
第 3 步:用戶通過文本示意想要填充的內(nèi)容;
第 4 步:基于文本提示的圖像修補(bǔ)模型(Stable Diffusion)根據(jù)用戶提供的文本對(duì)物體進(jìn)行填充。
替換一切
替換一切(Replace Anything)示意圖,圖中使用的文本提示:a man in office
「填補(bǔ)一切」步驟如下:
第 1 步:用戶點(diǎn)擊想要移除的物體;
第 2 步:SAM 將該物體分割出來;
第 3 步:用戶通過文本示意想要替換的背景;
第 4 步:基于文本提示的圖像修補(bǔ)模型(Stable Diffusion)根據(jù)用戶提供的文本對(duì)物體的背景進(jìn)行替換。
模型結(jié)果
研究者隨后在 COCO 數(shù)據(jù)集 [4]、LaMa 測(cè)試數(shù)據(jù)集 [3] 和他們自己用手機(jī)拍攝的 2K 高清圖像上對(duì) Inpaint Anything 進(jìn)行測(cè)試。值得注意的是,研究者的模型還支持 2K 高清圖和任意長(zhǎng)寬比,這使得 IA 系統(tǒng)在各種集成環(huán)境和現(xiàn)有框架中都能夠?qū)崿F(xiàn)高效的遷移應(yīng)用。
移除一切實(shí)驗(yàn)結(jié)果
填充一切實(shí)驗(yàn)結(jié)果
文本提示:a camera lens in the hand
文本提示:an aircraft carrier on the sea
文本提示:a sports car on a road
文本提示:a Picasso painting on the wall
替換一切實(shí)驗(yàn)結(jié)果
文本提示:sit on the swing
文本提示:breakfast
文本提示:a bus, on the center of a country road, summer
文本提示:crossroad in the city
總結(jié)
研究者建立這樣一個(gè)有趣的項(xiàng)目,來展示充分利用現(xiàn)有大型人工智能模型所能獲得的強(qiáng)大能力,并揭示「可組合人工智能」(Composable AI)的無限潛力。項(xiàng)目所提出的 Inpaint Anything (IA) 是一種多功能的圖像修補(bǔ)系統(tǒng),融合了物體移除、內(nèi)容填補(bǔ)、場(chǎng)景替換等功能(更多的功能正在路上敬請(qǐng)期待)。
IA 結(jié)合了 SAM、圖像修補(bǔ)模型(例如 LaMa)和 AIGC 模型(例如 Stable Diffusion)等視覺基礎(chǔ)模型,實(shí)現(xiàn)了對(duì)用戶操作友好的無掩碼化圖像修復(fù),同時(shí)支持「點(diǎn)擊刪除,提示填充」的等「傻瓜式」人性化操作。此外,IA 還可以處理具有任意長(zhǎng)寬比和 2K 高清分辨率的圖像,且不受圖像原始內(nèi)容限制。
目前,項(xiàng)目已經(jīng)完全開源。最后,歡迎大家分享和推廣 Inpaint Anything (IA) ,也很期待看見更多基于 IA 所拓展的新項(xiàng)目。未來,研究者將進(jìn)一步挖掘 Inpaint Anything (IA) 的潛力 以支持更多實(shí)用的新功能,如細(xì)粒度圖像摳圖、編輯等,并將其應(yīng)用到更多現(xiàn)實(shí)應(yīng)用中。
參考文獻(xiàn)
[1] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao,Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.
[2] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bj?rn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition, pages 10684–10695, 2022.
[3] Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, and Victor Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 2149–2159, 2022.
[4] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll′ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference,
Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740–755. Springer, 2014.
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。