译者 | 朱先忠
审校 | 孙淑娟
红葡萄园(作者:Vincent van Gogh)
据《纽约时报》报道,数据中心90%的能源被浪费,这是因为公司收集的大部分数据从未被分析或以任何形式使用。更具体地说,这被称为“暗数据(Dark Data)”。
“暗数据”是指通过各种计算机网络操作获取的数据,但不以任何方式用于得出见解或进行决策。组织收集数据的能力可能超过其分析数据的吞吐量。在某些情况下,组织甚至可能不知道正在收集数据。IBM估计,大约90%的传感器和模数转换产生的数据从未被使用。——维基百科上的“暗数据”定义
从机器学习的角度来看,这些数据对于得出任何见解都没有用处的关键原因之一是缺乏标签。这使得无监督学习算法对于挖掘这些数据的潜力非常有吸引力。
2014年,Ian Goodfello等人提出了一种通过对抗过程估计生成模型的新方法。它涉及同时训练两个独立的模型:一个生成器模型试图建模数据分布,另一个鉴别器试图通过生成器将输入分类为训练数据或假数据。
该论文在现代机器学习领域树立了一块非常重要的里程碑,为无监督学习开辟了新的途径。2015年,深度卷积Radford等人发布的GAN论文通过应用卷积网络的原理成功地生成了2D图像,从而继续构建了论文中的这一思想。
通过本文,我试图解释上述论文中论述的关键组件,并使用PyTorch框架来实现它们。
为了理解GAN或DCGAN(深度卷积生成对抗网络:Deep Convolutional Generative Adversarial Networks)的重要性,首先让我们来了解一下是什么使它们如此流行。
1. 由于大部分真实数据未标记,GAN的无监督学习特性使其非常适合此类用例。
2. 生成器和鉴别器对于具有有限标记数据的用例起到非常好的特征提取器的作用,或者生成附加数据以改进二次模型训练,因为它们可以生成假样本而不是使用增强技术。
3. GANs提供了最大似然技术的替代方法。它们的对抗性学习过程和非启发式成本函数使得它们对强化学习非常有吸引力。
4. 关于GAN的研究非常有吸引力,其结果引起了关于ML/DL影响的广泛争论。例如,Deepfake是GAN的一种应用,它可以将人的面部覆盖在目标人身上,这在本质上是非常有争议的,因为它有可能被用于邪恶的目的。
5. 最后一点也是最重要的一点是,使用这种网络很酷,该领域的所有新研究都令人着迷。
深度卷积GAN的架构
正如我们前面所讨论的,我们将通过DCGAN进行工作,DCGAN试图实现GAN的核心思想,用于生成逼真图像的卷积网络。
DCGAN由两个独立的模型组成:一个生成器(G)尝试将随机噪声向量建模为输入并尝试学习数据分布以生成假样本,另一个鉴别器(D)获取训练数据(真实样本)和生成的数据(假样本),并尝试对它们进行分类。这两种模型之间的斗争就是我们所说的对抗性训练过程,一方的损失是另一方的利益。
生成器架构图
生成器是我们最感兴趣的部分,因为它是一个生成假图像以试图欺骗鉴别器的生成器。
现在,让我们更详细地了解一下生成器的架构。
其中,层2至层5构成核心生成器块,可以重复N次以获得所需的输出图像形状。
下面是我们如何在PyTorch中实现它的关键代码(完整源码见地址https://github.com/akash-agni/ReadThePaper/blob/main/DCGAN/dcgan.py)。
使用PyTorch框架的生成器实现关键代码
鉴别器架构图
从图中易见,鉴别器更像是一个图像分类网络,只是做了一些小的调整。例如,它没有使用任何池层进行下采样,而是使用了一种称为跨距卷积层(stride convolutional layer)的特殊卷积层,允许它学习自己的下采样。
下面,让我们更详细地了解一下鉴别器架构。
在该架构中,层2至层5构成鉴别器的核心块,可以重复N次计算以使模型对于每个训练数据更复杂。
下面是我们如何在PyTorch中实现它(完整源码见地址https://github.com/akash-agni/ReadThePaper/blob/main/DCGAN/dcgan.py)。
用PyTorch实现的鉴别器关键代码部分
我们训练鉴别器(D)以最大化将正确标签分配给训练样本和来自生成器(G)的样本的概率,这可以通过最小化log(D(x))来完成。我们同时训练G以最小化log(1 − D(G(z))),其中z代表噪声向量。换句话说,D和G都是使用值函数V (G, D)来玩以下两人极小极大博弈(two-player minimax game):
对抗性成本函数计算公式
在实际应用环境中,上述方程可能无法为G提供足够的梯度来很好地学习。在学习的早期,当G较差时,D可以以高置信度拒绝样本,因为它们与训练数据明显不同。在这种情况下,log(1 − D(G(z)))函数达到饱和。我们不是训练G以最小化log(1 − D(G(z))),而是训练G以最大化logD(G(z))。该目标函数能够生成动态G和D的相同的固定点,但在学习早期却提供了更强的梯度计算。——arxiv论文
由于我们同时训练两个模型,这可能会很棘手,而GAN是出了名的难以训练,我们将在后面讨论的已知问题之一称为模式崩溃(mode collapse)。
论文建议使用学习率为0.0002的Adam优化器,如此低的学习率表明GAN倾向于非常快地发散。它还使用值为0.5和0.999的一阶和二阶动量来进一步加速训练。模型初始化为正态加权分布,平均值为零,标准差为0.02。
下面展示的是我们如何为此实现一个训练循环(完整源码见https://github.com/akash-agni/ReadThePaper/blob/main/DCGAN/dcgan.py)。
DCGAN的训练循环
理想情况下,我们希望生成器生成各种输出。例如,如果它生成人脸,它应该为每个随机输入生成一个新的人脸。但是,如果发生器产生足够好的似是而非的输出从而能够欺骗鉴别器的话,它可能会一次又一次地产生相同的输出。
最终,生成器会对单个鉴别器进行过度优化,并在一小组输出结果之间旋转(rotate),这种情况称为“模式崩溃”。
以下方法可用于纠正该情况。
总之,本文上面提到的有关GAN和DCGAN的论文简直称的上是一篇里程碑式的论文,因为它在无监督学习方面开辟了一条新的途径。其中提出的对抗式训练方法为训练模型提供了一种新的方法,该模型紧密模拟真实世界的学习过程。因此,了解一下这个领域是如何发展的将是一件非常有趣的事情。
最后,您可以在我的GitHub源码仓库上找到本文示例工程完整的实现源码。
朱先忠,51CTO社区编辑,潍坊一所高校计算机教师,自由编程界老兵一枚。
原文标题:Implementing Deep Convolutional GAN,作者:Akash Agnihotri
以上是深度卷积生成对抗网络实战的详细内容。更多信息请关注PHP中文网其他相关文章!