大模型流式应答python怎么解析流式生成模型

转载

mob64ca1411a6fc 2024-05-31 10:46:10

文章标签 大模型流式应答python怎么解析机器学习算法人工智能深度学习 文章分类 Python 后端开发

前文我介绍了部分关于生成学习的内容，前面介绍的各个生成模型，都存在一定的问题：

对于PixelRNN这类模型来说，就是从左上角的像素开始一个个地进行生成，那么这个生成顺序是否合理，每一个像素是否只与它前面的像素有关，这就是其问题
VAE的问题在前文就已经提到，它只能够学会模仿训练集中的例子，无法真正做到“创造”
对于GAN来说可能是生成方面最好的模型，但是实在是太难训练了

因此我们接下来要介绍的流形生成模型，就是用多个比较简单的生成器进行串联，来达到用简单的分布转换成复杂的分布的效果。

Generator

一般来说，生成器是一个神经网络，其定义了一个概率分布。例如我们有一个生成器G如下图，那么我们输入一个z，就可以得到输出x；而z我们可以看成是从简单的正态分布中采样得来的，而最终得到的x的分布则可以认为跟生成器G相关，因此定义该分布为 $大模型流式应答python怎么解析流式生成模型_机器学习$ 。这里可以将x称为观测变量，也就是我们实际能够得到的样本；将z称为隐变量，其对于样本的生成式至关重要的。因此可以认为观测变量x的真实分布为 $大模型流式应答python怎么解析流式生成模型_深度学习_02$ ，如下图：

大模型流式应答python怎么解析流式生成模型_算法_03

那么我们调整生成器的目的就是希望 $大模型流式应答python怎么解析流式生成模型_人工智能_04$ 和 $大模型流式应答python怎么解析流式生成模型_深度学习_05$ 能够越接近越好，即：
$大模型流式应答python怎么解析流式生成模型_机器学习_06$
其中， $大模型流式应答python怎么解析流式生成模型_深度学习_07$ 是从分布 $大模型流式应答python怎么解析流式生成模型_算法_08$ 中采样得到的。那么求解生成器G也就是极大似然的求解，也就是最大化每个样本被采样得到的概率，这相当于极小化那两个分布的KL散度，是满足我们的预期的。

Math Background

Jacobian Matrix

雅可比矩阵可以通过下图来简单理解：

大模型流式应答python怎么解析流式生成模型_深度学习_09

那么存在一个重要的性质是：

$大模型流式应答python怎么解析流式生成模型_机器学习_10$

即它们互为逆矩阵，且行列式也存在互为倒数的关系。而行列式还有另外一个含义，就是将矩阵的每一行都当成一个向量，并在对应维度的空间中展开，那么形成的那个空间的“体积“就是行列式的绝对值，如下图的二维的面积和三维的体积：

大模型流式应答python怎么解析流式生成模型_深度学习_11

Change of Variable Theorem

根据前面的描述，我们已知了z的分布，假设当前也知道了x的分布，那么我们想要的是求出来生成器G，或者说求出来怎么从z的分布转换到x的分布，如下图：

大模型流式应答python怎么解析流式生成模型_人工智能_12

我们先从最简单的情形来介绍我们具体解决问题的方式。

假设当前z满足的分布为一个0到1之间的均匀分布，而z和x之间的关系已知，为 $大模型流式应答python怎么解析流式生成模型_算法_13$ ，那么就可以得到下面的图形。而由于两者都是概率分布，因此两者的积分都应该为1（面积相同），因此可以解出来x的分布对应的高度为0.5。

大模型流式应答python怎么解析流式生成模型_大模型流式应答python怎么解析_14

那么假设z和x的分布都为更加复杂的情况，那我们可以在某点 $大模型流式应答python怎么解析流式生成模型_深度学习_15$ 上取一定的增量 $大模型流式应答python怎么解析流式生成模型_机器学习_16$ ，那么对应映射到x的分布上就也有 $大模型流式应答python怎么解析流式生成模型_深度学习_17$ 和 $大模型流式应答python怎么解析流式生成模型_算法_18$ 。那么假设 $大模型流式应答python怎么解析流式生成模型_机器学习_16$ 很小，可以使得在该段之内的 $大模型流式应答python怎么解析流式生成模型_机器学习_20$ 都相同， $大模型流式应答python怎么解析流式生成模型_机器学习_21$ 也同理相等，再根据这两部分的面积相同即可得到：

大模型流式应答python怎么解析流式生成模型_人工智能_22

需要注意的是转换成微分之后需要加上绝对值，因为微分可正可负。

那么接下来拓展到二维空间，假设当前的 $大模型流式应答python怎么解析流式生成模型_机器学习_23$ 处对于两个方向都进行了增量，那么映射到x之中将会有四个增量：其中 $大模型流式应答python怎么解析流式生成模型_大模型流式应答python怎么解析_24$ 表示 $大模型流式应答python怎么解析流式生成模型_深度学习_25$ 改变的时候 $大模型流式应答python怎么解析流式生成模型_机器学习_26$ 的改变量， $大模型流式应答python怎么解析流式生成模型_深度学习_27$ 表示 $大模型流式应答python怎么解析流式生成模型_深度学习_25$ 改变的时候 $大模型流式应答python怎么解析流式生成模型_算法_29$ 的改变量，以此类推，因此在x的空间中就扩展为一个菱形。

大模型流式应答python怎么解析流式生成模型_大模型流式应答python怎么解析_30

那么它们之间存在的关系从面积相等拓展到了体积相等，即：
$大模型流式应答python怎么解析流式生成模型_算法_31$
也就是两个图形的面积和在对应点的取值的乘积相等。那么对上式进行推导：

大模型流式应答python怎么解析流式生成模型_深度学习_32

可以发现两者分布之间相差为雅克比矩阵的行列式的绝对值。

Flow-based Model

经过上面的各种推导，我们可以将目标函数进行转换：

大模型流式应答python怎么解析流式生成模型_深度学习_33

而我们如果要最大化最下面的式子，我们首先需要知道怎么算雅克比矩阵的行列式，这在当矩阵的大小很大的时候是非常耗时的；其次是要知道怎么算生成器G的逆 $大模型流式应答python怎么解析流式生成模型_算法_34$ ，这个会要求输入的维度和输出的维度必须是一样的，因此我们要巧妙地设计网络的架构，使其能够方便计算雅克比矩阵的行列式和生成器的逆 $大模型流式应答python怎么解析流式生成模型_算法_35$ 。而在实际的Flow-based Model中，G可能不止一个。因为上述的条件意味着我们需要对G加上种种限制。那么单独一个加上各种限制就比较麻烦，我们可以将限制分散于多个G，再通过多个G的串联来实现，这也是称为流形的原因之一：

大模型流式应答python怎么解析流式生成模型_算法_36

因此要最大化的目标函数也变成了：
$大模型流式应答python怎么解析流式生成模型_机器学习_37$
可以发现上述要最大化的目标函数中只有 $大模型流式应答python怎么解析流式生成模型_算法_35$ ，因此在训练的时候我们可以只训练 $大模型流式应答python怎么解析流式生成模型_算法_34$ ，其接受x作为输入，输出为z；而在训练完成后就将其反过来，接受z作为输入，输出为x。

因为我们在训练的时候就会从分布中采样得到x，然后代入得到z，并且根据最大化上式来调整 $大模型流式应答python怎么解析流式生成模型_算法_35$ 。那么如果只看上式的第一项，因为 $大模型流式应答python怎么解析流式生成模型_机器学习_41$ 是正态分布，因此当t取零向量的时候其会达到最大值，因此如果只求第一项的最大化的话会使得我们输出的z向量都变成零向量。但是这会导致雅克比矩阵全为0（因为z都是零向量，因此没有变化的梯度），那么第二项将会冲向负无穷，因此这两项之间是相互约束的关系！第一项使得所有的z向量都往零向量附近靠近，第二项使得z向量都全部为零向量。