當(dāng)「分割一切」遇上圖像修補(bǔ)：無需精細(xì)標(biāo)記，單擊物體實(shí)現(xiàn)物體移除、內(nèi)容填補(bǔ)、場(chǎng)景替換

發(fā)布人：機(jī)器之心時(shí)間：2023-04-18 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

這次，強(qiáng)大的「分割一切」模型——Segment Anything Model，在圖像修補(bǔ)任務(wù)上碰撞出了火花。

4 月初，Meta 發(fā)布了史上首個(gè)圖像分割基礎(chǔ)模型--SAM（Segment Anything Model）[1]。作為分割模型，SAM 的能力強(qiáng)大，操作使用方式也十分友好，比如用戶簡(jiǎn)單地點(diǎn)擊來選擇對(duì)應(yīng)物體，物體就會(huì)立即被分割出來，且分割結(jié)果十分精準(zhǔn)。截至 4 月 15 號(hào)，SAM 的 GitHub 倉(cāng)庫(kù)的 Star 數(shù)高達(dá) 26k。

如何利用好如此強(qiáng)大的「分割一切」模型，并拓展到更加有實(shí)際需求的應(yīng)用場(chǎng)景至關(guān)重要。例如，當(dāng) SAM 遇上實(shí)用的圖像修補(bǔ)（Image Inpainting）任務(wù)會(huì)碰撞出什么樣的火花？

來自中國(guó)科學(xué)技術(shù)大學(xué)和東方理工高等研究院的研究團(tuán)隊(duì)給出了令人驚艷的答案。基于 SAM，他們提出「修補(bǔ)一切」（Inpaint Anything，簡(jiǎn)稱 IA）模型。區(qū)別于傳統(tǒng)圖像修補(bǔ)模型，IA 模型無需精細(xì)化操作生成掩碼，支持了一鍵點(diǎn)擊標(biāo)記選定對(duì)象，IA 即可實(shí)現(xiàn)移除一切物體（Remove Anything）、填補(bǔ)一切內(nèi)容（Fill Anything）、替換一切場(chǎng)景（Replace Anything），涵蓋了包括目標(biāo)移除、目標(biāo)填充、背景替換等在內(nèi)的多種典型圖像修補(bǔ)應(yīng)用場(chǎng)景。

論文鏈接：http://arxiv.org/abs/2304.06790
代碼庫(kù)鏈接：https://github.com/geekyutao/Inpaint-Anything

方法介紹

盡管當(dāng)前圖像修補(bǔ)系統(tǒng)取得了重大進(jìn)展，但它們?cè)谶x擇掩碼圖和填補(bǔ)空洞方面仍然面臨困難?；?SAM，研究者首次嘗試無需掩碼（Mask-Free）圖像修復(fù)，并構(gòu)建了「點(diǎn)擊再填充」（Clicking and Filling）的圖像修補(bǔ)新范式，他們將其稱為修補(bǔ)一切（Inpaint Anything）（IA）。IA 背后的核心思想是結(jié)合不同模型的優(yōu)勢(shì)，以建立一個(gè)功能強(qiáng)大且用戶友好的圖像修復(fù)系統(tǒng)。

IA 擁有三個(gè)主要功能：(i) 移除一切（Remove Anything）：用戶只需點(diǎn)擊一下想要移除的物體，IA 將無痕地移除該物體，實(shí)現(xiàn)高效「魔法消除」；(ii) 填補(bǔ)一切（Fill Anything）：同時(shí)，用戶還可以進(jìn)一步通過文本提示（Text Prompt）告訴 IA 想要在物體內(nèi)填充什么，IA 隨即通過驅(qū)動(dòng)已嵌入的 AIGC（AI-Generated Content）模型（如 Stable Diffusion [2]）生成相應(yīng)的內(nèi)容填充物體，實(shí)現(xiàn)隨心「內(nèi)容創(chuàng)作」；(iii) 替換一切（Replace Anything）：用戶也可以通過點(diǎn)擊選擇需要保留的物體對(duì)象，并用文本提示告訴 IA 想要把物體的背景替換成什么，即可將物體背景替換為指定內(nèi)容，實(shí)現(xiàn)生動(dòng)「環(huán)境轉(zhuǎn)換」。IA 的整體框架如下圖所示：

Inpaint Anything（IA）示意圖。用戶可以通過單擊來選擇圖像中的任何物體。借助強(qiáng)大的視覺模型，如 SAM [1]、LaMa [3] 和 Stable Diffusion (SD) [3]，IA 能夠平滑移除選定物體（即 Remove Anything）。進(jìn)一步地，通過向 IA 輸入文本提示，用戶可以用任何想要的內(nèi)容填充物體（即 Fill Anything）或者任意替換對(duì)象的物體（即 Replace Anything）。

移除一切

移除一切（Remove Anything）示意圖

「移除一切」步驟如下：

第 1 步：用戶點(diǎn)擊想要移除的物體；
第 2 步：SAM 將該物體分割出來；
第 3 步：圖像修補(bǔ)模型（LaMa）填補(bǔ)該物體。

填補(bǔ)一切

填補(bǔ)一切（Fill Anything）示意圖，圖中使用的文本提示：a teddy bear on a bench

「填補(bǔ)一切」步驟如下：

第 1 步：用戶點(diǎn)擊想要移除的物體；
第 2 步：SAM 將該物體分割出來；
第 3 步：用戶通過文本示意想要填充的內(nèi)容；
第 4 步：基于文本提示的圖像修補(bǔ)模型（Stable Diffusion）根據(jù)用戶提供的文本對(duì)物體進(jìn)行填充。

替換一切

替換一切（Replace Anything）示意圖，圖中使用的文本提示：a man in office

「填補(bǔ)一切」步驟如下：

第 1 步：用戶點(diǎn)擊想要移除的物體；
第 2 步：SAM 將該物體分割出來；
第 3 步：用戶通過文本示意想要替換的背景；
第 4 步：基于文本提示的圖像修補(bǔ)模型（Stable Diffusion）根據(jù)用戶提供的文本對(duì)物體的背景進(jìn)行替換。

模型結(jié)果

研究者隨后在 COCO 數(shù)據(jù)集 [4]、LaMa 測(cè)試數(shù)據(jù)集 [3] 和他們自己用手機(jī)拍攝的 2K 高清圖像上對(duì) Inpaint Anything 進(jìn)行測(cè)試。值得注意的是，研究者的模型還支持 2K 高清圖和任意長(zhǎng)寬比，這使得 IA 系統(tǒng)在各種集成環(huán)境和現(xiàn)有框架中都能夠?qū)崿F(xiàn)高效的遷移應(yīng)用。

移除一切實(shí)驗(yàn)結(jié)果

填充一切實(shí)驗(yàn)結(jié)果

文本提示：a camera lens in the hand

文本提示：an aircraft carrier on the sea

文本提示：a sports car on a road

文本提示：a Picasso painting on the wall

替換一切實(shí)驗(yàn)結(jié)果

文本提示：sit on the swing

文本提示：breakfast

文本提示：a bus, on the center of a country road, summer

文本提示：crossroad in the city

總結(jié)

研究者建立這樣一個(gè)有趣的項(xiàng)目，來展示充分利用現(xiàn)有大型人工智能模型所能獲得的強(qiáng)大能力，并揭示「可組合人工智能」（Composable AI）的無限潛力。項(xiàng)目所提出的 Inpaint Anything (IA) 是一種多功能的圖像修補(bǔ)系統(tǒng)，融合了物體移除、內(nèi)容填補(bǔ)、場(chǎng)景替換等功能（更多的功能正在路上敬請(qǐng)期待）。

IA 結(jié)合了 SAM、圖像修補(bǔ)模型（例如 LaMa）和 AIGC 模型（例如 Stable Diffusion）等視覺基礎(chǔ)模型，實(shí)現(xiàn)了對(duì)用戶操作友好的無掩碼化圖像修復(fù)，同時(shí)支持「點(diǎn)擊刪除，提示填充」的等「傻瓜式」人性化操作。此外，IA 還可以處理具有任意長(zhǎng)寬比和 2K 高清分辨率的圖像，且不受圖像原始內(nèi)容限制。

目前，項(xiàng)目已經(jīng)完全開源。最后，歡迎大家分享和推廣 Inpaint Anything (IA) ，也很期待看見更多基于 IA 所拓展的新項(xiàng)目。未來，研究者將進(jìn)一步挖掘 Inpaint Anything (IA) 的潛力以支持更多實(shí)用的新功能，如細(xì)粒度圖像摳圖、編輯等，并將其應(yīng)用到更多現(xiàn)實(shí)應(yīng)用中。

參考文獻(xiàn)

[1] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao,Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.

[2] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bj?rn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern

Recognition, pages 10684–10695, 2022.

[3] Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, and Victor Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 2149–2159, 2022.

[4] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll′ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference,

Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740–755. Springer, 2014.

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

當(dāng)「分割一切」遇上圖像修補(bǔ)：無需精細(xì)標(biāo)記，單擊物體實(shí)現(xiàn)物體移除、內(nèi)容填補(bǔ)、場(chǎng)景替換

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

當(dāng)「分割一切」遇上圖像修補(bǔ)：無需精細(xì)標(biāo)記，單擊物體實(shí)現(xiàn)物體移除、內(nèi)容填補(bǔ)、場(chǎng)景替換

相關(guān)推薦

技術(shù)專區(qū)

當(dāng)「分割一切」遇上圖像修補(bǔ)：無需精細(xì)標(biāo)記，單擊物體實(shí)現(xiàn)物體移除、內(nèi)容填補(bǔ)、場(chǎng)景替換