搜索
首页科技周边人工智能传统GAN修改后可解释,并保证卷积核可解释性和生成图像真实性

图片

  • 论文地址:https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
  • 作者单位:中国科学院计算技术研究所、上海交通大学、之江实验室

研究背景及研究任务

生成对抗网络(GAN)已经在生成高分辨率图像方面取得了巨大成功,而关于其可解释性的研究也在近年来引起了广泛关注。

在这一领域,如何令 GAN 学习出一个解耦的表征仍是一项重大挑战。所谓 GAN 的解耦表征,即该表征每个部分只影响生成图像的特定方面。此前关于 GAN 解耦表征的研究关注于不同的角度。

例如,在下图 1 中,方法 1 解耦了图像的结构和风格。方法 2 学习了图像中局部对象的特征。方法 3 学习了图像中属性的解耦特征,例如人脸图像的年龄属性和性别属性。然而,这些研究未能在 GAN 中为不同的视觉概念(例如人脸的眼睛、鼻子和嘴巴等部分)提供一个清晰且符号化的表征。

图片

图 1:与其他 GAN 解耦表征方法的视觉对比

为此,研究者提出了一种将传统 GAN 修改为可解释 GAN 的通用方法,该方法确保生成器中间层中的卷积核可以学习到解耦的局部视觉概念。具体地,如下图 2 所示,与传统 GAN 相比,可解释 GAN 中间层中的每个卷积核在生成不同图像时始终代表一个特定的视觉概念,不同的卷积核则代表不同的视觉概念。

图片

图 2:可解释 GAN 与传统 GAN 编码表征的视觉对比

建模方法

可解释 GAN 的学习应满足以下两个目标:卷积核的可解释性生成图像的真实性。 

  • 卷积核的可解释性:研究者希望中间层的卷积核能够自动学习有意义的视觉概念,而无需对任何视觉概念进行人工标注。具体来说,每个卷积核在生成不同图像时都应该稳定地生成对应于相同视觉概念的图像区域。不同的卷积核则应该生成对应于不同视觉概念的图像区域;
  • 生成图像的真实性:可解释 GAN 的生成器仍然能够生成逼真的图像。

为了确保目标层中卷积核的可解释性,研究者注意到当多个卷积核生成与某个视觉概念对应的相似区域时,它们通常联合代表了这一视觉概念。

因此,他们使用一组卷积核来共同表示一个特定的视觉概念,并使用不同组的卷积核来分别表示不同的视觉概念。

为了同时确保生成图像的真实性,研究者设计下述损失函数来将传统的 GAN 修改为可解释的 GAN。 

  • 传统 GAN 的损失:该损失用于确保生成图像的真实性;
  • 卷积核划分损失:给定生成器,该损失用于找到卷积核的划分方式,使得同一组中的卷积核生成相似的图像区域。具体地,他们使用高斯混合模型 (GMM) 来学习卷积核的划分方式,以确保每组中卷积核的特征图具有相似的神经激活;
  • 能量模型真实性损失:给定目标层卷积核的划分方式,强制同一组中的每个卷积核生成相同的视觉概念可能会降低生成图像的质量。为了进一步确保生成图像的真实性,他们使用能量模型来输出目标层中特征图的真实性概率,并采用极大似然估计来学习能量模型的参数;
  • 卷积核可解释性损失:给定目标层的卷积核划分方式,该损失用于进一步提升卷积核的可解释性。具体地,该损失会使得同一组中的每个卷积核唯一地生成相同的图像区域,而不同组的卷积核则分别负责生成不同的图像区域。

实验结果

在实验中,研究者分别定性和定量地评估了他们的可解释 GAN。

对于定性分析,他们将每个卷积核的特征图可视化,以评估卷积核在不同图像上所表示的视觉概念的一致性。如下图 3 所示,在可解释 GAN 中,每个卷积核在生成不同图像时始终生成对应于相同视觉概念的图像区域,而不同的卷积核生成对应于不同视觉概念的图像区域。

图片

图 3:可解释 GAN 中特征图的可视化

实验中还比较了每组卷积核的组别中心和卷积核之间的感受野的区别,如下图 4(a)所示。图 4(b)给出了可解释 GAN 中不同视觉概念对应卷积核的数目比例。图 4(c)则表明,当选择划分的卷积核组数不同时,组数越多的可解释 GAN 学习到的视觉概念越详尽。

图片

图 4:可解释 GAN 的定性评估

可解释 GAN 还支持修改生成图像上特定的视觉概念。例如,可以通过交换可解释层中相应的特征图,来实现图像之间特定视觉概念的交互,即完成局部 / 全局换脸。

下图 5 给出了在成对图像之间交换嘴、头发和鼻子的结果。最后一列给出了修改后的图像和原始图像之间的差异。该结果表明,研究者的方法只修改了局部的视觉概念,而没有改变其他不相关的区域。

图片

图 5:交换生成图片的特定视觉概念

此外,下图 6 还给出了他们的方法在交换整张人脸时的效果

图片

图 6:交换生成图片的整张人脸

对于定量分析,研究者采用人脸验证实验来评估人脸交换结果的准确性。具体而言,给定一对人脸图像,将原始图像的人脸替换为源图像的人脸以生成修改后的图像。然后,测试修改后图像的人脸和源图像的人脸是否具有相同的身份。

下表 1 给出了不同方法人脸验证结果的准确性,他们的方法在身份保持方面优于其他的面部交换方法。

图片

表 1:换脸身份的准确性评估

此外,实验中还评估了方法在修改特定视觉概念时的局部性。具体来说,研究者计算了 RGB 空间中原始图像和修改后图像之间的均方误差 (MSE),并以特定视觉概念的区域外 MSE 和区域内 MSE 的比值,作为局部性评估的实验指标。

结果如下表 2 所示,研究者的修改方法具有更好的局部性,即所修改视觉概念之外的图片区域变化较少。

图片

表 2:修改视觉概念的局部性评估

更多的实验结果参见论文。

总结

本工作提出了一种通用方法,可以在无需任何视觉概念的人工标注下,将传统的 GAN 修改为可解释的 GAN。在可解释的 GAN 中,生成器中间层中的每个卷积核在生成不同图像时可以稳定地生成相同的视觉概念。

实验表明,可解释 GAN 还使得人们能够在生成的图像上修改特定的视觉概念,为 GAN 生成图像的可控编辑方法提供了一个新的角度。

以上是传统GAN修改后可解释,并保证卷积核可解释性和生成图像真实性的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
及时工程中的思想图是什么及时工程中的思想图是什么Apr 13, 2025 am 11:53 AM

介绍 在迅速的工程中,“思想图”是指使用图理论来构建和指导AI的推理过程的新方法。与通常涉及线性S的传统方法不同

优化您的组织与Genai代理商的电子邮件营销优化您的组织与Genai代理商的电子邮件营销Apr 13, 2025 am 11:44 AM

介绍 恭喜!您经营一家成功的业务。通过您的网页,社交媒体活动,网络研讨会,会议,免费资源和其他来源,您每天收集5000个电子邮件ID。下一个明显的步骤是

Apache Pinot实时应用程序性能监视Apache Pinot实时应用程序性能监视Apr 13, 2025 am 11:40 AM

介绍 在当今快节奏的软件开发环境中,确保最佳应用程序性能至关重要。监视实时指标,例如响应时间,错误率和资源利用率可以帮助MAIN

Chatgpt击中了10亿用户? Openai首席执行官说:'短短几周内翻了一番Chatgpt击中了10亿用户? Openai首席执行官说:'短短几周内翻了一番Apr 13, 2025 am 11:23 AM

“您有几个用户?”他扮演。 阿尔特曼回答说:“我认为我们上次说的是每周5亿个活跃者,而且它正在迅速增长。” “你告诉我,就像在短短几周内翻了一番,”安德森继续说道。 “我说那个私人

pixtral -12b:Mistral AI'第一个多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一个多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介绍 Mistral发布了其第一个多模式模型,即Pixtral-12b-2409。该模型建立在Mistral的120亿参数Nemo 12B之上。是什么设置了该模型?现在可以拍摄图像和Tex

生成AI应用的代理框架 - 分析Vidhya生成AI应用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想象一下,拥有一个由AI驱动的助手,不仅可以响应您的查询,还可以自主收集信息,执行任务甚至处理多种类型的数据(TEXT,图像和代码)。听起来有未来派?在这个a

生成AI在金融部门的应用生成AI在金融部门的应用Apr 13, 2025 am 11:12 AM

介绍 金融业是任何国家发展的基石,因为它通过促进有效的交易和信贷可用性来推动经济增长。交易的便利和信贷

在线学习和被动攻击算法指南在线学习和被动攻击算法指南Apr 13, 2025 am 11:09 AM

介绍 数据是从社交媒体,金融交易和电子商务平台等来源的前所未有的速度生成的。处理这种连续的信息流是一个挑战,但它提供了

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器