GAN生成对抗网络：数学原理

文章目录

1. 极大似然估计

GAN用到了极大似然估计（MLE），因此我们对MLE作简单介绍。

MLE的目标是从样本数据中估计出真实的数据分布情况，所用的方法是最大化样本数据在估计出的模型上的出现概率，也即选定使得样本数据出现的概率最大的模型，作为真实的数据分布。

将真实模型用参数 $\theta$

其中 $x_i$

最大化(1)式的概率，求得满足条件的 $\theta$

还可以使用KL散度来代表MLE方法：
$\begin{aligned} \theta^*&=\arg\min_\theta D_{KL}(p_{data}(x) || p_{model}(x;\theta)\\ & = \arg\min_\theta\left\{ \sum_{i=1}^mp_{data}(x_i)\log p_{data}(x_i) - \sum_{i=1}^mp_{data}(x_i)\log p_{model}(x_i;\theta) \right\}\\ & = -\arg\min_\theta\sum_{i=1}^mp_{data}(x_i)\log p_{model}(x_i;\theta) \\ & = \arg\max_\theta\sum_{i=1}^mp_{data}(x_i)\log p_{model}(x_i;\theta) \end{aligned}$

在实际上，我们无法得到数据的真实分布 $p_{data}$

为了便于理解KL散度，我们在下面对其进行简要介绍。

2. 相对熵，KL散度

两个概率分布 $P P 和 Q Q 的KL散度定义如下： D K L ( P ∣ ∣ Q ) = ∑ i P ( i ) log ⁡ P ( i ) Q ( i ) D_{KL}(P||Q)=\sum_iP(i)\log{\frac{P(i)}{Q(i)}}$

性质：
$D_{KL}(P||Q)\ge0$

当且仅当 $时，等号成立。（证明过程借用吉布斯不等式：$

KL散度反映了两个分布 $和的相似情况，KL散度越小，两个分布越相似。$

KL散度是不对称的：
$D_{KL}(P||Q) \quad\neq D_{KL}(Q||P)$

3. KL散度与交叉熵的关系

神经网络中常常使用交叉熵作为损失函数：
$-\sum_i y_i\log h_i$

其中 $y_i$

我们将 $y y 和 h h 的KL散度展开，得到： D K L ( y ∣ ∣ h ) = ∑ i y i log ⁡ y i h i = ∑ i y i log ⁡ y i − ∑ i y i log ⁡ h i = ∑ i y i log ⁡ y i + L = C o n s t a n t + L \begin{aligned} D_{KL}(y||h) & = \sum_iy_i\log{\frac{y_i}{h_i}}\\ & = \sum_iy_i\log y_i - \sum_iy_i\log h_i\\ & = \sum_iy_i\log y_i + L\\ &= Constant + L \end{aligned}$

因此，最小化KL散度，等价于最小化损失函数 $。也即交叉熵损失函数反应的是网络输出结果和样本实际标签结果的KL散度的大小，交叉熵越小，KL散度也越小，网络的输出结果越接近实际值。$

4. JS散度

对于两个分布 $P P 和 Q Q ，JS散度是： D J S ( P ∣ ∣ Q ) = 1 2 D K L ( P ∣ ∣ P + Q 2 ) + 1 2 D K L ( Q ∣ ∣ P + Q 2 ) D_{JS}(P||Q) = \frac{1}{2}D_{KL}(P||\frac{P+Q}{2}) + \frac{1}{2}D_{KL}(Q||\frac{P+Q}{2})$

JS散度是对称的，并且有界 $\log2]$

5. GAN 框架

生成器，生成与训练集数据相同分布的样本；判别器，检查生成器生成的样本是真的还是假的。
The generator is trained to fool the discriminator.

判别器的损失函数

判别器的损失函数为：
$J^{(D)}(\theta^{(D)}, \theta^{(G)})= -\frac{1}{2}\mathbb{E}_{x\sim p_{data}}\log D(x) - \frac{1}{2}\mathbb{E}_{z\sim p_{model}}\log (1-D(G(z)))\tag{2}$

上式其实就是一个交叉熵损失函数。GAN的判别器在训练的过程中，数据集包含两个部分，一部分是训练集的样本 $，对应的标签，一部分是生成器生成的数据，对应的标签，因此判别器的训练集可以看做$

训练集样本是 $X X ，标签是 Y Y ，网络输出是 H H ，则交叉熵损失函数为： (3) J = 1 m ∑ i = 1 m { − Y i log ⁡ H i − ( 1 − Y i ) log ⁡ ( 1 − H i ) } J = \frac{1}{m} \sum_{i=1}^m\{-Y_i\log H_i - (1-Y_i)\log(1-H_i)\}\tag{3}$

与式(2)作比较，前一项的 $\log H$

对上式关于 $D ( x ) D(x) 求导，并令导数为0，得到： D ∗ ( x ) = p d a t a ( x ) p d a t a ( x ) + p m o d e l ( x ) D^*(x) = \frac{p_{data}(x)}{p_{data}(x)+p_{model}(x)}$

淘先锋技术网