有手就行？把大象P轉(zhuǎn)身只需拖動鼠標，華人一作DragGAN爆火（1）

發(fā)布人：機器之心時間：2023-05-20 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

如果甲方想把大象 P 轉(zhuǎn)身，你只需要拖動 GAN 就好了。

在圖像生成領域，以 Stable Diffusion 為代表的擴散模型已然成為當前占據(jù)主導地位的范式。但擴散模型依賴于迭代推理，這是一把雙刃劍，因為迭代方法可以實現(xiàn)具有簡單目標的穩(wěn)定訓練，但推理過程需要高昂的計算成本。

在 Stable Diffusion 之前，生成對抗網(wǎng)絡（GAN）是圖像生成模型中常用的基礎架構。相比于擴散模型，GAN 通過單個前向傳遞生成圖像，因此本質(zhì)上是更高效的。但由于訓練過程的不穩(wěn)定性，擴展 GAN 需要仔細調(diào)整網(wǎng)絡架構和訓練因素。因此，GAN 方法很難擴展到非常復雜的數(shù)據(jù)集上，在實際應用方面，擴散模型比 GAN 方法更易于控制，這是 GAN 式微的原因之一。

當前，GAN 主要是通過手動注釋訓練數(shù)據(jù)或先驗 3D 模型來保證其可控性，這通常缺乏靈活性、精確性和通用性。然而，一些研究者看重 GAN 在圖像生成上的高效性，做出了許多改進 GAN 的嘗試。

最近，來自馬克斯?普朗克計算機科學研究所、MIT CSAIL 和谷歌的研究者們研究了一種控制 GAN 的新方法 DragGAN，能夠讓用戶以交互的方式「拖動」圖像的任何點精確到達目標點。

論文鏈接：https://arxiv.org/abs/2305.10973
項目主頁：https://vcai.mpi-inf.mpg.de/projects/DragGAN/

這種全新的控制方法非常靈活、強大且簡單，有手就行，只需在圖像上「拖動」想改變的位置點（操縱點），就能合成你想要的圖像。

例如，讓獅子「轉(zhuǎn)頭」并「開口」：

還能輕松讓小貓 wink：

再比如，你可以通過拖動操縱點，讓單手插兜的模特把手拿出來、改變站立姿勢、短袖改長袖?？瓷先ゾ拖袷峭粋€模特重新拍攝了新照片：

如果你也接到了「把大象轉(zhuǎn)個身」的 P 圖需求，不妨試試：

整個圖像變換的過程就主打一個「簡單靈活」，圖像想怎么變就怎么變，因此有網(wǎng)友預言：「PS 似乎要過時了」。

也有人覺得，這個方法也可能會成為未來 PS 的一部分。

總之，觀感就是一句話：「看到這個，我腦袋都炸了?！?/span>

當大家都以為 GAN 這個方向從此消沉的時候，總會出現(xiàn)讓我們眼前一亮的作品：

這篇神奇的論文，已經(jīng)入選了 SIGGRAPH 2023。研究者表示，代碼將于六月開源。

那么，DragGAN 是如何做到強大又靈活的？我們來看一下該研究的技術方法。

方法概述

該研究提出的 DragGAN 主要由兩個部分組成，包括：

基于特征的運動監(jiān)督，驅(qū)動圖像中的操縱點向目標位置移動；
一種借助判別型 GAN 特征的操縱點跟蹤方法，以控制點的位置。

DragGAN 能夠通過精確控制像素的位置對圖像進行改變，可處理的圖像類型包括動物、汽車、人類、風景等，涵蓋大量物體姿態(tài)、形狀、表情和布局，并且用戶的操作方法簡單通用。

GAN 有一個很大的優(yōu)勢是特征空間具有足夠的判別力，可以實現(xiàn)運動監(jiān)督（motion supervision）和精確的點跟蹤。具體來說，運動監(jiān)督是通過優(yōu)化潛在代碼的移位特征 patch 損失來實現(xiàn)的。每個優(yōu)化步驟都會導致操縱點更接近目標，然后通過特征空間中的最近鄰搜索來執(zhí)行點跟蹤。重復此優(yōu)化過程，直到操縱點達到目標。

DragGAN 還允許用戶有選擇地繪制感興趣的區(qū)域以執(zhí)行特定于區(qū)域的編輯。由于 DragGAN 不依賴任何額外的網(wǎng)絡，因此它實現(xiàn)了高效的操作，大多數(shù)情況下在單個 RTX 3090 GPU 上只需要幾秒鐘就可以完成圖像處理。這讓 DragGAN 能夠進行實時的交互式編輯，用戶可以對圖像進行多次變換更改，直到獲得所需輸出。

如下圖所示，DragGAN 可以有效地將用戶定義的操縱點移動到目標點，在許多目標類別中實現(xiàn)不同的操縱效果。與傳統(tǒng)的形變方法不同的是，本文的變形是在 GAN 學習的圖像流形上進行的，它傾向于遵從底層的目標結構，而不是簡單地應用扭曲。例如，該方法可以生成原本看不見的內(nèi)容，如獅子嘴里的牙齒，并且可以按照物體的剛性進行變形，如馬腿的彎曲。