首页 1 2 3 4 5 6 7

华人一作DragGAN爆火！拖动你的GAN：交互式图像编辑新高度

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【GAN和扩散模型】微信技术交流群

转载自：机器之心 | 编辑：蛋酱、小舟

如果甲方想把大象 P 转身，你只需要拖动 GAN 就好了。

在图像生成领域，以 Stable Diffusion 为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖于迭代推理，这是一把双刃剑，因为迭代方法可以实现具有简单目标的稳定训练，但推理过程需要高昂的计算成本。

在 Stable Diffusion 之前，生成对抗网络（GAN）是图像生成模型中常用的基础架构。相比于扩散模型，GAN 通过单个前向传递生成图像，因此本质上是更高效的。但由于训练过程的不稳定性，扩展 GAN 需要仔细调整网络架构和训练因素。因此，GAN 方法很难扩展到非常复杂的数据集上，在实际应用方面，扩散模型比 GAN 方法更易于控制，这是 GAN 式微的原因之一。

当前，GAN 主要是通过手动注释训练数据或先验 3D 模型来保证其可控性，这通常缺乏灵活性、精确性和通用性。然而，一些研究者看重 GAN 在图像生成上的高效性，做出了许多改进 GAN 的尝试。

最近，来自马克斯・普朗克计算机科学研究所、MIT CSAIL 和谷歌的研究者们研究了一种控制 GAN 的新方法 DragGAN，能够让用户以交互的方式「拖动」图像的任何点精确到达目标点。

代码：https://github.com/XingangPan/DragGAN

论文链接：https://arxiv.org/abs/2305.10973
项目主页：https://vcai.mpi-inf.mpg.de/projects/DragGAN/

这种全新的控制方法非常灵活、强大且简单，有手就行，只需在图像上「拖动」想改变的位置点（操纵点），就能合成你想要的图像。

例如，让狮子「转头」并「开口」：

还能轻松让小猫 wink：

再比如，你可以通过拖动操纵点，让单手插兜的模特把手拿出来、改变站立姿势、短袖改长袖。看上去就像是同一个模特重新拍摄了新照片：

<p/> </div> <p>如果你也接到了「把大象转个身」的 P 图需求，不妨试试：</p> <p><img alt="19ccc0a7b6e531a6dd8bf71d269de8cb.gif" data-src="/image/https://img-blog.csdnimg.cn/img_convert/19ccc0a7b6e531a6dd8bf71d269de8cb.gif" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p><img alt="0fa537c462dcf5755a58341a95f52304.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/0fa537c462dcf5755a58341a95f52304.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p><img alt="1dba1d79f264efa96530a0d2d3d23590.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/1dba1d79f264efa96530a0d2d3d23590.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>整个图像变换的过程就主打一个「简单灵活」，图像想怎么变就怎么变，因此有网友预言：「PS 似乎要过时了」。</p> <p><img alt="34eada9fc56518ac0293635378cb4d31.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/34eada9fc56518ac0293635378cb4d31.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>也有人觉得，这个方法也可能会成为未来 PS 的一部分。</p> <p><img alt="0ea3529d66e5baf695c14f1908b41549.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/0ea3529d66e5baf695c14f1908b41549.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>总之，观感就是一句话：「看到这个，我脑袋都炸了。」</p> <p><img alt="b0e3670538de53da355ecd9a620bc278.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/b0e3670538de53da355ecd9a620bc278.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>当大家都以为 GAN 这个方向从此消沉的时候，总会出现让我们眼前一亮的作品：</p> <p><img alt="3fad208519d34770f850e85712f76f1a.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/3fad208519d34770f850e85712f76f1a.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>这篇神奇的论文，已经入选了 SIGGRAPH 2023。研究者表示，代码将于六月开源。</p> <p><img alt="684473f5e122d2c78c61ee731a0729f7.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/684473f5e122d2c78c61ee731a0729f7.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>那么，DragGAN 是如何做到强大又灵活的？我们来看一下该研究的技术方法。</p> <p><strong>方法概述</strong></p> <p>该研究提出的 DragGAN 主要由两个部分组成，包括：</p> <ul><li><p>基于特征的运动监督，驱动图像中的操纵点向目标位置移动；</p></li><li><p>一种借助判别型 GAN 特征的操纵点跟踪方法，以控制点的位置。</p></li></ul> <p>DragGAN 能够通过精确控制像素的位置对图像进行改变，可处理的图像类型包括动物、汽车、人类、风景等，涵盖大量物体姿态、形状、表情和布局，并且用户的操作方法简单通用。</p> <p>GAN 有一个很大的优势是特征空间具有足够的判别力，可以实现运动监督（motion supervision）和精确的点跟踪。具体来说，运动监督是通过优化潜在代码的移位特征 patch 损失来实现的。每个优化步骤都会导致操纵点更接近目标，然后通过特征空间中的最近邻搜索来执行点跟踪。重复此优化过程，直到操纵点达到目标。</p> <p>DragGAN 还允许用户有选择地绘制感兴趣的区域以执行特定于区域的编辑。由于 DragGAN 不依赖任何额外的网络，因此它实现了高效的操作，大多数情况下在单个 RTX 3090 GPU 上只需要几秒钟就可以完成图像处理。这让 DragGAN 能够进行实时的交互式编辑，用户可以对图像进行多次变换更改，直到获得所需输出。</p> <p><img alt="97ff41cedf7c8004a8bb0f6d5b617d9d.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/97ff41cedf7c8004a8bb0f6d5b617d9d.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>如下图所示，DragGAN 可以有效地将用户定义的操纵点移动到目标点，在许多目标类别中实现不同的操纵效果。与传统的形变方法不同的是，本文的变形是在 GAN 学习的图像流形上进行的，它倾向于遵从底层的目标结构，而不是简单地应用扭曲。例如，该方法可以生成原本看不见的内容，如狮子嘴里的牙齿，并且可以按照物体的刚性进行变形，如马腿的弯曲。</p> <p><img alt="13ddd83516f6afa244d5baaeea603aa0.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/13ddd83516f6afa244d5baaeea603aa0.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>研究者还开发了一个 GUI，供用户通过简单地点击图像来交互地进行操作。</p> <p>此外，通过与 GAN 反转技术相结合，本文方法还可以作为一个用于真实图像编辑的工具。</p> <p>一个非常实用的用途是，即使合影中某些同学的表情管理不过关，你也可以为 Ta 换上自信的笑容：</p> <p><img alt="39b6ff3aaafb863bee2ca9213c884df7.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/39b6ff3aaafb863bee2ca9213c884df7.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>顺便提一句，这张照片正是本篇论文的一作潘新钢，2021 年在香港中文大学多媒体实验室获得博士学位，师从汤晓鸥教授。目前是马克斯普朗克信息学研究所博士后，并将从 2023 年 6 月开始担任南洋理工大学计算机科学与工程学院 MMLab 的任助理教授。</p> <p>这项工作旨在为 GAN 开发一种交互式的图像操作方法，用户只需要点击图像来定义一些对（操纵点，目标点），并驱动操纵点到达其对应的目标点。</p> <p>这项研究基于 StyleGAN2，基本架构如下：</p> <p><img alt="799061c416dc3b8d839b3bbdd9ec4cea.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/799061c416dc3b8d839b3bbdd9ec4cea.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>在 StyleGAN2 架构中，一个 512 维的潜在代码∈N（0，）通过一个映射网络被映射到一个中间潜在代码∈R 512 中。的空间通常被称为 W。然后，被送到生成器，产生输出图像 I = ()。在这个过程中，被复制了几次，并被送到发生器的不同层，以控制不同的属性水平。另外，也可以对不同层使用不同的，在这种情况下，输入将是<img alt="79163b966f600038fe8fa5a2b8908b40.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/79163b966f600038fe8fa5a2b8908b40.png" src="https://codeantenna.com/assets/images/photo.gif"/>，其中是层数。这种不太受约束的 W^+ 空间被证明是更有表现力的。由于生成器学习了从低维潜在空间到高维图像空间的映射，它可以被看作是对图像流形的建模。</p> <p><strong>实验</strong></p> <p>为了展示 DragGAN 在图像处理方面的强大能力，该研究展开了定性实验、定量实验和消融实验。实验结果表明 DragGAN 在图像处理和点跟踪任务中均优于已有方法。</p> <p><strong>定性评估</strong></p> <p>图 4 是本文方法和 UserControllableLT 之间的定性比较，展示了几个不同物体类别和用户输入的图像操纵结果。本文方法能够准确地移动操纵点以到达目标点，实现了多样化和自然的操纵效果，如改变动物的姿势、汽车形状和景观布局。相比之下，UserControllableLT 不能忠实地将操纵点移动到目标点上，往往会导致图像中出现不想要的变化。</p> <p><img alt="008fe63ffc7cd2b8e93e09f1c2fd375c.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/008fe63ffc7cd2b8e93e09f1c2fd375c.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>如图 10 所示，它也不能像本文方法那样保持未遮盖区域固定不变。</p> <p><img alt="4b2722399751edbde2e1437b446c2d6f.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/4b2722399751edbde2e1437b446c2d6f.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>图 6 提供了与 PIPs 和 RAFT 之间的比较，本文方法准确地跟踪了狮子鼻子上方的操纵点，从而成功地将它拖到了目标位置。</p> <p><img alt="dab615c61180d8fffbe15eeba41dbd09.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/dab615c61180d8fffbe15eeba41dbd09.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>真实图像编辑。使用 GAN inversion 技术，将真实图像嵌入 StyleGAN 的潜空间，本文方法也可以用来操作真实图像。</p> <p>图 5 显示了一个例子，将 PTI inversion 应用于真实图像，然后进行一系列的操作来编辑图像中人脸的姿势、头发、形状和表情：</p> <p><img alt="6c37bd79f12890b3302c56efa6ae27c9.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/6c37bd79f12890b3302c56efa6ae27c9.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>图 13 展示了更多的真实图像编辑案例：</p> <p><img alt="2272cd3f179db59884c0c42ee092df50.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/2272cd3f179db59884c0c42ee092df50.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p><strong>定量评估</strong></p> <p>研究者在两种设置中下对该方法进行了定量评估，包括人脸标记点操作和成对图像重建。</p> <p>人脸标记点操作。如表 1 所示，在不同的点数下，本文方法明显优于 UserControllableLT。特别是，本文方法保留了更好的图像质量，正如表中的 FID 得分所示。</p> <p><img alt="3bba88575621db165f5c603bc12611b6.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/3bba88575621db165f5c603bc12611b6.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>这种对比在图 7 中可以明显看出来，本文方法打开了嘴巴并调整下巴的形状以匹配目标脸，而 UserControllableLT 未能做到这一点。</p> <p><img alt="2738eaa45ca42ac040c9fb764edbc4b1.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/2738eaa45ca42ac040c9fb764edbc4b1.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>成对图像重建。如表 2 所示，本文方法在不同的目标类别中优于所有基线。</p> <p><img alt="8498ebd14dc75072fb0fdd702460be55.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/8498ebd14dc75072fb0fdd702460be55.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p><strong>消融实验</strong></p> <p>研究者研究了在运动监督和点跟踪中使用某种特征的效果，并报告了使用不同特征的人脸标记点操作的性能（MD）。如表 3 所示，在运动监督和点跟踪中，StyleGAN 的第 6 个 block 之后的特征图表现最好，显示了分辨率和辨别力之间的最佳平衡。</p> <p><img alt="47691ba2af637f675470567b960d07f1.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/47691ba2af637f675470567b960d07f1.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>表 4 中提供了_1 的效果。可以看出，性能对_1 的选择不是很敏感，而_1=3 的性能略好。</p> <p><img alt="e872571448ee1488fc906bc6de3ae987.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/e872571448ee1488fc906bc6de3ae987.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p><strong>讨论</strong></p> <p>掩码的影响。本文方法允许用户输入一个表示可移动区域的二进制掩码，图 8 展示了它的效果：</p> <p><img alt="e0735a64eb544f12b1d240bdf3aeb7bd.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/e0735a64eb544f12b1d240bdf3aeb7bd.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>Out-of-distribution 操作。从图 9 可以看出，本文的方法具有一定的 out-of-distribution 能力，可以创造出训练图像分布之外的图像，例如一个极度张开的嘴和一个大的车轮。</p> <p><img alt="670cafe8d9b67f78d5c708e6235af23e.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/670cafe8d9b67f78d5c708e6235af23e.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <p>研究者同样指出了本文方法现存的局限性：尽管有一些推断能力，其编辑质量仍然受到训练数据多样性的影响。如图 14（a）所示，创建一个偏离训练分布的人体姿势会导致伪影。此外，如图 14（b）和（c）所示，无纹理区域的操纵点有时会在追踪中出现更多的漂移。因此，研究者建议尽可能挑选纹理丰富的操纵点。</p> <p><img alt="fb518c67ae5484cc3a4400eff284b163.png" data-src="/image/https://img-blog.csdnimg.cn/img_convert/fb518c67ae5484cc3a4400eff284b163.png" src="https://codeantenna.com/assets/images/photo.gif"/></p> <h2/> <p><em><em><strong><strong><a href="https://codeantenna.com/a/exnSg68Kzf" target="_blank" rel="external nofollow"><strong><strong><strong><strong>点击进入—></strong>【GAN和扩散模型】微信技术交流群</strong></strong></strong></a></strong></strong></em></em></p> <p><strong>最新CVPR 2023论文和代码下载</strong><br/></p> <pre/> <p>后台回复：<strong>CVPR2023，</strong>即可下载CVPR 2023论文和代码开源的论文合集</p> <p>后台回复：<strong>Transformer综述，</strong>即可下载最新的3篇Transformer综述PDF</p> <pre class="has"><code class="language-go">GAN和扩散模型交流群成立扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-GAN或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。一定要备注：研究方向+地点+学校/公司+昵称（如GAN或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群 ▲扫码或加微信号: CVer333，进交流群 CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉，已汇集数千人！ ▲扫码进星球 ▲点击上方卡片，关注CVer公众号 </code></pre> <p><strong><strong><strong><strong><strong><strong><strong><strong>整理不易，请点赞和在看<strong><img alt="bd294fa200a829aa82ae1edab8d07260.gif" data-src="/image/https://img-blog.csdnimg.cn/img_convert/bd294fa200a829aa82ae1edab8d07260.gif" src="https://codeantenna.com/assets/images/photo.gif" width="30"/></strong></strong></strong></strong></strong></strong></strong></strong></strong></p> </div> </div></div> </section>  <aside class="ri-box fr"> <div class="tj_info"><li><a href="?c=1&taskid=3eecf63ba9708a6ae03cf9934532243a&.html" target="_blank"><h3>NoSQL数据库类型 </h3></a> <p> 本文摘自 Introducing Data Science，我们将向您介绍四大NoSQL数据库类型。有四大NoSQL类型：键值存储(key-value store)，文件存储(document store)，列导向的数据库(Column-Oriented Database)和</p></li><li><a href="?c=1&taskid=c06243e942f789d40547427b14b17b60&.html" target="_blank"><h3>计算机竞赛基于YOLO实现的口罩佩戴检测 - python opemcv 深度学习 </h3></a> <p> 文章目录 0 前言</p></li><li><a href="?c=1&taskid=78c9d7769207630a3bdf9e04ed355e9d&.html" target="_blank"><h3>LogStash 中字段的排除和数据的排除 </h3></a> <p> 排除字段字段的排除需要在filter中进行操作，使用一个叫做 mutate 的工具，具体操作如下由于这个</p></li><li><a href="?c=1&taskid=1383de2ae3cf652cd8b05ee440e274b5&.html" target="_blank"><h3>网安预习课程笔记(九到十节) </h3></a> <p> 目录 </p></li><li><a href="?c=1&taskid=6ff60d40fe4d28ea5bb9a4d773716c3b&.html" target="_blank"><h3>LeetCode算法题整理(200题左右) </h3></a> <p> 目录前言</p></li><li><a href="?c=1&taskid=56bd17c6601806ed3b8517f25d88f38d&.html" target="_blank"><h3>基于MATLAB基础信号插值算法（后附MATLAB代码） </h3></a> <p> 一、再MATLAB库中已有的插值算法； 1、分段线性插值：利用每两个相邻的插值基点做线性插值；分段线性插值具有很强的收敛性，在每个分段区间都是线性的；在MATLAB中自带函数inte</p></li><li><a href="?c=1&taskid=32d3a82b03fef533028c0ddcf75840bf&.html" target="_blank"><h3>React+Typescript 父子组件事件传值 </h3></a> <p> 好之前我们将 state 状态管理简单过了一下那么本文我们来研究一下事假处理点击事件上文中我们已经用过了这里我们就不去讲了主要来说说父子之间的事件我们直接来编写一个小dom 我们父组件编写代码如下 </p></li><li><a href="?c=1&taskid=eeaa65ba2092da2ed9c45f3d68dae627&.html" target="_blank"><h3>告那些对学习PHP还不坚定的朋友 </h3></a> <p> 对于PHP，很多朋友抱怨发展问题，能力问题。还有自己以后的发展及薪水问题。还有一些口吻就是PHP不行，不适合大型架构等等。快下班了，作为一个开发PHP已经6年多了老鸟，在这里随意说上几句。希望能对那些刚刚入门的PHPER有些帮助。首先任何语言的能力关键在于自己的技术能力。否则给</p></li><li><a href="?c=1&taskid=0d3bde8ec92b37c99cd52409d979b1cb&.html" target="_blank"><h3>Unity3d Animator 动画倒放 </h3></a> <p> 首先：百度到的Animator倒放方法可以用（https://j</p></li><li><a href="?c=1&taskid=ef186119051c563de86b8b64b73a6978&.html" target="_blank"><h3>vba vbscript.regexp加载dll错误_TFS金钥匙系列04期：WPS 加载项之“团队”功能 </h3></a> <p> </p></li> <div class="inner">  <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-4271124403256393" data-ad-slot="2025597846" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script></div> </div> </aside>  </main> <footer> <div class="inner">  <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-4271124403256393" data-ad-slot="9277896008" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </footer> </body> </html>