把大象P转身只需拖动鼠标，华人神作AI爆火

如果甲方想把大象 P 转身，你只需要拖动 GAN 就好了。

在图像生成领域，以 Stable Diffusion 为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖于迭代推理，这是一把双刃剑，因为迭代方法可以实现具有简单目标的稳定训练，但推理过程需要高昂的计算成本。

在 Stable Diffusion 之前，生成对抗网络（GAN）是图像生成模型中常用的基础架构。相比于扩散模型，GAN 通过单个前向传递生成图像，因此本质上是更高效的。但由于训练过程的不稳定性，扩展 GAN 需要仔细调整网络架构和训练因素。因此，GAN 方法很难扩展到非常复杂的数据集上，在实际应用方面，扩散模型比 GAN 方法更易于控制，这是 GAN 式微的原因之一。

当前，GAN 主要是通过手动注释训练数据或先验 3D 模型来保证其可控性，这通常缺乏灵活性、精确性和通用性。然而，一些研究者看重 GAN 在图像生成上的高效性，做出了许多改进 GAN 的尝试。

最近，来自马克斯普朗克计算机科学研究所、MIT CSAIL 和谷歌的研究者们研究了一种控制 GAN 的新方法 DragGAN，能够让用户以交互的方式「拖动」图像的任何点精确到达目标点。

d700d9575a940e26dec5477fb2cc5599

论文链接：https://arxiv.org/abs/2305.10973

项目主页：https://vcai.mpi-inf.mpg.de/projects/DragGAN/

这种全新的控制方法非常灵活、强大且简单，有手就行，只需在图像上「拖动」想改变的位置点（操纵点），就能合成你想要的图像。

例如，让狮子「转头」并「开口」：

f8f616a9322711a3fb4805be9909550b

还能轻松让小猫 wink：

6f3fc5a15ce88bcab86b11e8009aed89

再比如，你可以通过拖动操纵点，让单手插兜的模特把手拿出来、改变站立姿势、短袖改长袖。看上去就像是同一个模特重新拍摄了新照片：

如果你也接到了「把大象转个身」的 P 图需求，不妨试试：

eccbbba9b482edbb2154aa786f755481

d0948f3fa44948e89af8713313c3e8f8

1cd13a6973c122ade0f9fea90f1c1580

整个图像变换的过程就主打一个「简单灵活」，图像想怎么变就怎么变，因此有网友预言：「PS 似乎要过时了」。

4e191210a85afef3487f54bb2fc03aa1

也有人觉得，这个方法也可能会成为未来 PS 的一部分。

d322b973d0d46880953216375dabfc10

总之，观感就是一句话：「看到这个，我脑袋都炸了。」

b3a062c6e673d19cdbb4eb2aaeb3763e

当大家都以为 GAN 这个方向从此消沉的时候，总会出现让我们眼前一亮的作品：

a059ee7a1196624edb318f469f9af98b

这篇神奇的论文，已经入选了 SIGGRAPH 2023。研究者表示，代码将于六月开源。

edbb40349b69f33cb9efb0bb8f50ca14

那么，DragGAN 是如何做到强大又灵活的？我们来看一下该研究的技术方法。

方法概述

该研究提出的 DragGAN 主要由两个部分组成，包括：

基于特征的运动监督，驱动图像中的操纵点向目标位置移动；

一种借助判别型 GAN 特征的操纵点跟踪方法，以控制点的位置。

DragGAN 能够通过精确控制像素的位置对图像进行改变，可处理的图像类型包括动物、汽车、人类、风景等，涵盖大量物体姿态、形状、表情和布局，并且用户的操作方法简单通用。

GAN 有一个很大的优势是特征空间具有足够的判别力，可以实现运动监督（motion supervision）和精确的点跟踪。具体来说，运动监督是通过优化潜在代码的移位特征 patch 损失来实现的。每个优化步骤都会导致操纵点更接近目标，然后通过特征空间中的最近邻搜索来执行点跟踪。重复此优化过程，直到操纵点达到目标。

DragGAN 还允许用户有选择地绘制感兴趣的区域以执行特定于区域的编辑。由于 DragGAN 不依赖任何额外的网络，因此它实现了高效的操作，大多数情况下在单个 RTX 3090 GPU 上只需要几秒钟就可以完成图像处理。这让 DragGAN 能够进行实时的交互式编辑，用户可以对图像进行多次变换更改，直到获得所需输出。

ad99216de9147aee212e2d804730f73c

如下图所示，DragGAN 可以有效地将用户定义的操纵点移动到目标点，在许多目标类别中实现不同的操纵效果。与传统的形变方法不同的是，本文的变形是在 GAN 学习的图像流形上进行的，它倾向于遵从底层的目标结构，而不是简单地应用扭曲。例如，该方法可以生成原本看不见的内容，如狮子嘴里的牙齿，并且可以按照物体的刚性进行变形，如马腿的弯曲。

f2a5c759d11b317db93e600ee1bb28a2

研究者还开发了一个 GUI，供用户通过简单地点击图像来交互地进行操作。

此外，通过与 GAN 反转技术相结合，本文方法还可以作为一个用于真实图像编辑的工具。

一个非常实用的用途是，即使合影中某些同学的表情管理不过关，你也可以为 Ta 换上自信的笑容：

9387229a581873f66545f6898d3919f5

顺便提一句，这张照片正是本篇论文的一作潘新钢，2021 年在香港中文大学多媒体实验室获得博士学位，师从汤晓鸥教授。目前是马克斯普朗克信息学研究所博士后，并将从 2023 年 6 月开始担任南洋理工大学计算机科学与工程学院 MMLab 的任助理教授。

这项工作旨在为 GAN 开发一种交互式的图像操作方法，用户只需要点击图像来定义一些对（操纵点，目标点），并驱动操纵点到达其对应的目标点。

这项研究基于 StyleGAN2，基本架构如下：

561e79925f6d6b4f61193518db2936fa

在 StyleGAN2 架构中，一个 512 维的潜在代码∈ N（0，）通过一个映射网络被映射到一个中间潜在代码∈ R 512 中。的空间通常被称为 W。然后，被送到生成器，产生输出图像 I = ( ) 。在这个过程中，被复制了几次，并被送到发生器的不同层，以控制不同的属性水平。另外，也可以对不同层使用不同的，在这种情况下，输入将是

ef996bd6de9f40d568f83b9130e67d09

，其中是层数。这种不太受约束的 W^+ 空间被证明是更有表现力的。由于生成器学习了从低维潜在空间到高维图像空间的映射，它可以被看作是对图像流形的建模。

实验

为了展示 DragGAN 在图像处理方面的强大能力，该研究展开了定性实验、定量实验和消融实验。实验结果表明 DragGAN 在图像处理和点跟踪任务中均优于已有方法。

定性评估

图 4 是本文方法和 UserControllableLT 之间的定性比较，展示了几个不同物体类别和用户输入的图像操纵结果。本文方法能够准确地移动操纵点以到达目标点，实现了多样化和自然的操纵效果，如改变动物的姿势、汽车形状和景观布局。相比之下，UserControllableLT 不能忠实地将操纵点移动到目标点上，往往会导致图像中出现不想要的变化。

91d7ac26b989346e99a137e75aab3d3f