正向kl散度 python 正向kl散度

转载

云端筑梦工匠 2023-09-15 16:14:39

文章标签 正向kl散度 python 最小化 文章分类 Python 后端开发

KL散度的公式是
$正向kl散度 python 正向kl散度_正向kl散度 python$

假设真实分布为 $正向kl散度 python 正向kl散度_最小化_02$ ，我们想用分布 $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 去近似 $正向kl散度 python 正向kl散度_最小化_02$ ，我们很容易想到用最小化KL散度来求，但由于KL散度是不对称的，所以并不是真正意义上的距离，那么我们是应该用 $正向kl散度 python 正向kl散度_正向kl散度 python_05$ 还是用 $正向kl散度 python 正向kl散度_正向kl散度 python_06$ ?

下面就来分析这两种情况：

正向KL散度: $正向kl散度 python 正向kl散度_正向kl散度 python_05$

$正向kl散度 python 正向kl散度_正向kl散度 python_05$ 被称为正向KL散度，其形式为：
$正向kl散度 python 正向kl散度_正向kl散度 python_09$
仔细观察（1）式， $正向kl散度 python 正向kl散度_最小化_02$ 是已知的真实分布，要求使上式最小的 $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 。

考虑当 $正向kl散度 python 正向kl散度_正向kl散度 python_12$ 时，这时 $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 取任何值都可以，因为 $正向kl散度 python 正向kl散度_正向kl散度 python_14$ 这一项对整体的KL散度没有影响。当 $正向kl散度 python 正向kl散度_正向kl散度 python_15$ 时， $正向kl散度 python 正向kl散度_正向kl散度 python_14$ 这一项对整体的KL散度就会产生影响，为了使（1）式最小， $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 又处于 $正向kl散度 python 正向kl散度_正向kl散度 python_14$ 中分母的位置，所以 $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 尽量大一些才好。

总体而言，对于正向 KL 散度，在 $正向kl散度 python 正向kl散度_最小化_02$ 大的地方，想让 KL 散度小，就需要 $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 的值也尽量大；在 $正向kl散度 python 正向kl散度_最小化_02$ 小的地方， $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 对整体 KL 影响并不大（因为 log 项本身分子很小，又乘了一个非常小的 p(x)）。换一种说法，要想使正向 KL 散度最小，则要求在 $正向kl散度 python 正向kl散度_正向kl散度 python_24$ 不为 0 的地方， $正向kl散度 python 正向kl散度_正向kl散度 python_25$ 也尽量不为 0，所以正向 KL 散度被称为是 zero avoiding。此时得到的分布 $正向kl散度 python 正向kl散度_正向kl散度 python_25$

反向KL散度： $正向kl散度 python 正向kl散度_正向kl散度 python_06$

$正向kl散度 python 正向kl散度_正向kl散度 python_06$ 被称为反向KL散度，其形式为：
$正向kl散度 python 正向kl散度_最小化_29$
仔细观察（2）式， $正向kl散度 python 正向kl散度_最小化_02$ 是已知的真实分布，要求使上式最小的 $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 。

考虑当 $正向kl散度 python 正向kl散度_正向kl散度 python_12$ 时，这时为了使（2）式变小， $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 取0值才可以，否则（2）式就会变成无穷大。当 $正向kl散度 python 正向kl散度_正向kl散度 python_15$ 时，为了使（2）式变小，必须在 $正向kl散度 python 正向kl散度_最小化_02$ 小的地方， $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 也小。在 $正向kl散度 python 正向kl散度_最小化_02$ 大的地方可以适当忽略。换一种说法，要想使反向 KL 散度最小，则要求在 $正向kl散度 python 正向kl散度_正向kl散度 python_24$ 为 0 的地方， $正向kl散度 python 正向kl散度_正向kl散度 python_25$ 也尽量为 0，所以反向 KL 散度被称为是 zero forcing。此时得到分布 $正向kl散度 python 正向kl散度_正向kl散度 python_25$

一个例子

假如 $正向kl散度 python 正向kl散度_最小化_02$ 是两个高斯分布的混合， $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 是单个高斯，用 $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 去近似 $正向kl散度 python 正向kl散度_最小化_02$ ，两种KL散度该如何选择？

正向kl散度 python 正向kl散度_正向kl散度 python_45

对于正向KL散度来说， $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 的分布图像更符合第二行，正向KL散度更在意 $正向kl散度 python 正向kl散度_最小化_02$ 中的常见事件，也就是首先要保证 $正向kl散度 python 正向kl散度_最小化_02$ 峰值附近的 $正向kl散度 python 正向kl散度_最小化_49$ ，在 $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 中的概率密度值不能为0。当 $正向kl散度 python 正向kl散度_正向kl散度 python_24$ 具有多个峰时， $正向kl散度 python 正向kl散度_正向kl散度 python_25$ 选择将这些峰模糊到一起，以便将高概率质量放到所有峰上。

正向kl散度 python 正向kl散度_正向kl散度 python_53

对于反向KL散度来说， $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 的分布图像更符合第二行。反向KL散度更在意 $正向kl散度 python 正向kl散度_最小化_02$ 中的罕见事件，也就是首先要保证 $正向kl散度 python 正向kl散度_最小化_02$ 低谷附件的 $正向kl散度 python 正向kl散度_最小化_49$ ，在 $正向kl散度 python 正向kl散度_正向kl散度 python_03$ 中的概率密度值也较小。当 $正向kl散度 python 正向kl散度_正向kl散度 python_24$ 具有多个峰并且这些峰间隔很宽时，如该图所示，最小化 KL 散度会选择单个峰，以避免将概率密度放置在 $正向kl散度 python 正向kl散度_正向kl散度 python_24$ 的多个峰之间的低概率区域中。

在机器学习的变分推理中使用的是反向 $正向kl散度 python 正向kl散度_最小化_61$ 。