瓦瑟斯坦生成对抗网络WGAN:通过改进损失函数提升训练稳定性

生成对抗网络(GANs)自2014年被提出以来,一直是深度学习领域的研究热点。然而,GANs在训练过程中存在模式崩溃和不稳定的问题。为了解决这些问题,瓦瑟斯坦生成对抗网络(WGAN)应运而生,它通过改进损失函数,显著提升了训练的稳定性。

WGAN的核心原理

WGAN的核心在于将原始GAN的损失函数从Jensen-Shannon散度替换为瓦瑟斯坦距离(Wasserstein Distance),也称为Earth Mover's Distance。瓦瑟斯坦距离度量了两个概率分布之间的距离,相较于JS散度,它在两个分布没有重叠部分时仍然能够提供一个有意义的梯度。

瓦瑟斯坦距离的定义

瓦瑟斯坦距离定义如下:

W(P_r, P_g) = inf_{γ∈Π(P_r, P_g)} E_{(x,y)∼γ}[‖x−y‖]

其中,\(P_r\)和\(P_g\)分别是真实数据分布和生成数据分布,\(Π(P_r, P_g)\)是所有可能的\(P_r\)和\(P_g\)的联合分布的集合,\(E_{(x,y)∼γ}[‖x−y‖]\)表示在联合分布\(γ\)下样本对\((x, y)\)距离的期望值。

WGAN的损失函数

WGAN使用以下损失函数替代了传统的GAN损失函数:

  • 对于判别器(Critic):\(L(D) = -E_{x∼P_r}[D(x)] + E_{z∼P_z}[D(G(z))]\)
  • 对于生成器(Generator):\(L(G) = -E_{z∼P_z}[D(G(z))]\)

这里,\(D\)是判别器,\(G\)是生成器,\(P_r\)是真实数据分布,\(P_z\)是潜在空间中的噪声分布。

权重裁剪

为了保证判别器的函数满足1-Lipschitz连续性,WGAN引入了权重裁剪技术,即将判别器的权重限制在一个紧致的范围内(例如[-0.01, 0.01])。这一技术虽然简单,但有效地保证了判别器的K-Lipschitz连续性。

WGAN的优势

  • 训练稳定性提升:由于瓦瑟斯坦距离在分布没有重叠部分时仍然能够提供梯度,WGAN显著提升了训练的稳定性。
  • 模式多样性:相较于原始GAN,WGAN能够更好地捕捉数据的多模式特性,避免了模式崩溃的问题。
  • 训练过程透明化:WGAN的训练过程通常更为平滑,生成器损失与生成数据质量之间的相关性更加明显。

瓦瑟斯坦生成对抗网络(WGAN)通过改进损失函数,引入了瓦瑟斯坦距离,显著提升了训练的稳定性,解决了原始GAN存在的模式崩溃和不稳定问题。尽管权重裁剪技术有其局限性,但WGAN的出现为GANs的研究开辟了新的方向,为生成模型在实际应用中的广泛应用奠定了基础。