logistics回归P值接近1

转载

mob64ca140ac564 2024-07-11 13:44:25

文章标签 logistics回归P值接近1 机器学习李宏毅学习笔记生成式 文章分类 机器学习人工智能

李宏毅机器学习学习笔记汇总课程链接

文章目录

Logistic Regression

Step 1: Function Set
Step 2: Goodness of a Function
Step 3: Find the best function

为什么逻辑回归不能用square error平方误差

Discriminative vs Generative

生成式模型的优势

Multi-class Classification
Limitation of Logistic Regression 逻辑回归的限制

对于线性回归和的logistic回归的理解:
那么如何让机器自己可以产生这种transformation呢？

Logistic Regression

Step 1: Function Set

logistics回归P值接近1_机器学习

logistics回归P值接近1_李宏毅_02

逻辑回归和线性回归的step1的区别：

logistics回归P值接近1_机器学习_03

Step 2: Goodness of a Function

假设这批N个training data是从function定义的posterior probability所产生的

给出w和b，就给定了posterior probability，就可以计算某组w和b产生这N个training data的概率

最可能的w和b是那组最大概率（最大化L(w,b)函数）产生这批training data的w和b，称作 $logistics回归P值接近1_机器学习_04$ 和 $logistics回归P值接近1_学习笔记_05$

logistics回归P值接近1_生成式_06

对公式进行转换：

logistics回归P值接近1_学习笔记_07

logistics回归P值接近1_logistics回归P值接近1_08

两个伯努利分布的交叉熵，cross entropy代表这俩个分布有多么接近

如果这两个分布一样的话，KL散度是0，交叉熵等于真实分布的熵，是一个正常的熵，而不是0

逻辑回归和线性回归的step2的区别：

线性回归中的1/2方便求导去系数

Question：为什么我们不能用square error作为线性回归（在这里视频暂时未给出理由，记忆即可）

弹幕给出的回答：
一个先验是二项，一个先验是正态
两边本质都是似然，左边是二项的似然右边是高斯似然

Step 3: Find the best function

使用gradient descent来最小化 $logistics回归P值接近1_机器学习_11$

logistics回归P值接近1_机器学习_12

logistics回归P值接近1_生成式_13

最后的化简结果：

logistics回归P值接近1_生成式_14

w的更新取决于：

learning rate
$logistics回归P值接近1_logistics回归P值接近1_15$ ，来自于data
$logistics回归P值接近1_logistics回归P值接近1_16$

$logistics回归P值接近1_logistics回归P值接近1_17$ 是目标

$logistics回归P值接近1_机器学习_18$ 是现在模型的output

logistics回归P值接近1_logistics回归P值接近1_19

逻辑回归和线性回归的step3的区别：

公式是一模一样的，但是其中：

逻辑回归中的target( $logistics回归P值接近1_生成式_20$ )介于0-1（见step2的区别对比），f的取值也是介于0-1（见step1的区别对比）
线性回归中，target( $logistics回归P值接近1_生成式_20$ )可以是任何实数，output也可以是任何实数
但是这俩个的更新方式是一模一样的

这里提到实验：老师说的是直接找到最佳解（因为是线性回归，求导为零，找到一个解），然后再梯度下降

为什么逻辑回归不能用square error平方误差

无论距离目标远近，微分算出来都是0

logistics回归P值接近1_李宏毅_22

logistics回归P值接近1_生成式_23

把参数变化，对total loss作图：

logistics回归P值接近1_机器学习_24

交叉熵：距离目标越远，梯度越大
square error：距离目标远的时候，微分很小，移动速度很慢，容易卡住

Discriminative vs Generative

逻辑回归是discriminative方法判别式模型
用高斯分布来描述后验概率的方法是Generative方法，生成式模型

只要在做概率模型时候，把协方差矩阵共用，那么他们的模型是完全一样的，都是 $logistics回归P值接近1_logistics回归P值接近1_25$

下图左右两边的w和b不是同一组的

logistics回归P值接近1_生成式_26

logistics回归P值接近1_李宏毅_27

logistics回归P值接近1_机器学习_28

logistics回归P值接近1_机器学习_29

进行计算，对于NB来说，P<0.5，这组testing data（x1=1,x2=1）属于class2，而不是class 1，与认知相反，是因为data数量太少了

logistics回归P值接近1_logistics回归P值接近1_30

生成式模型和判别式模型的差别在于：

生成式模型有做某些假设，假设data来自某些概率模型

gm模型提前假设，包含的函数会受限，dm则包含更多可能，因此可以得到比较好的效果
朴素贝叶斯是生成模型逻辑回归是判别模型

生成式模型的优势

如果training data很少，针对同一个问题，给判别式模型和生成式模型不同量的data：
1、判别式模型，没有做任何假设，完全依靠data，他的performance变化量会受data量影响很大，data越多，error越小
2、生成式模型，受data影响小，因为他本身会有一个假设/脑补，有时会无视data，遵从他的假设。
3、所以在data数量比较小的时候，生成式模型可能会赢过判别式模型。只有在数量增加时候，判别式模型才可能赢过生成式模型。
生成式模型，对于含有噪声的data，有了概率分布的假设，对于噪声可以更加鲁棒，忽视掉有问题的data
在判别式模型中，是假设了一个后验概率，然后去找后验概率的参数，但是生成式模型中把公式拆成先验概率和class-dependent probability类相关的概率两个部分，这样是有好处的，他们两个可以是来自不同的来源。（计算先验概率，某一句话被说出来的概率，所以语音辨识中，未必需要声音data，可以从网上爬一些数据，来计算这个先验概率，这就是language model。语音辨识其实是一个生成式模型。先验概率使用文字data来处理，class-dependent部分才需要声音data处理）

朴素贝叶斯是生成模型逻辑回归是判别模型

Multi-class Classification

做完softmax后，output为0-1，且求和为1

softmax，对最大的值做强化，将大的和小的之间的差别做强化。

logistics回归P值接近1_学习笔记_31

要计算y和 $logistics回归P值接近1_生成式_32$ 的cross entropy， $logistics回归P值接近1_生成式_32$ 也要是一个概率分布，才可以算cross entropy，如何计算呢？

不可以假设class1是1，class2是2，class3是3：
因为这样会隐含class1和class2近，class2和class3近，而class1和class3较远，这样是不对的

logistics回归P值接近1_机器学习_34

最小化cross entropy来自于极大似然，在多个class情况下，依然一模一样。

Limitation of Logistic Regression 逻辑回归的限制

逻辑回归无法对下面的例子进行分类

logistics回归P值接近1_生成式_35

因为逻辑回归的两个class之间的boundary是一条直线

logistics回归P值接近1_学习笔记_36

所以，如果要坚持使用逻辑回归的话，可以用下面这种方法——Feature Transformation

前面的 $logistics回归P值接近1_李宏毅_37$ ， $logistics回归P值接近1_logistics回归P值接近1_38$ 的feature定的不好，可以转化一下，找一个好的feature space，从 $logistics回归P值接近1_李宏毅_37$ ， $logistics回归P值接近1_logistics回归P值接近1_38$ 到 $logistics回归P值接近1_学习笔记_41$ ， $logistics回归P值接近1_logistics回归P值接近1_42$

logistics回归P值接近1_机器学习_43

对于线性回归和的logistic回归的理解:

其实主要原因是分布问题，在前面的线性回归里面，其分布主要是为高斯分布, 而在logistic里面的分布为伯努利分布
在线性回归中，同样用最大似然估计去估计w和b的值，得到的结果其实是和用square error (最小二乘)是一样的
在logistic 回归中，因为估计的是伯努利分布，然后严格来说，也是可以用最大似然估计，但是数学家们发现用cross entropy 能更容易的找到希望的结果

那么如何让机器自己可以产生这种transformation呢？

把多个逻辑回归模型cascade 级联起来

假设输入是 $logistics回归P值接近1_学习笔记_44$ ， $logistics回归P值接近1_生成式_45$ ，有一个逻辑回归模型，

对 $logistics回归P值接近1_logistics回归P值接近1_46$ ， $logistics回归P值接近1_李宏毅_47$ 分别乘以一个权重，然后求和得到 $logistics回归P值接近1_logistics回归P值接近1_48$ ，经过sigmoid 函数，output就是新的transform的第一维 $logistics回归P值接近1_学习笔记_49$ ；
对于另外一个逻辑回归模型。对 $logistics回归P值接近1_logistics回归P值接近1_46$ ， $logistics回归P值接近1_李宏毅_47$ 分别乘以另外一组权重，然后求和得到 $logistics回归P值接近1_机器学习_52$ ，经过sigmoid函数，得到transform后的另外一维 $logistics回归P值接近1_logistics回归P值接近1_53$ ，
如果把 $logistics回归P值接近1_logistics回归P值接近1_46$ ， $logistics回归P值接近1_李宏毅_47$ 经过这俩个逻辑回归的transform，得到 $logistics回归P值接近1_学习笔记_49$ 和 $logistics回归P值接近1_logistics回归P值接近1_53$ ，而在这个新的transform上，class1和class2是可以用一条直线分开的，只需要再接上另外一个逻辑回归模型，input是 $logistics回归P值接近1_学习笔记_49$ 和 $logistics回归P值接近1_logistics回归P值接近1_53$ ， $logistics回归P值接近1_学习笔记_49$ 和 $logistics回归P值接近1_logistics回归P值接近1_53$ 是每一个example的feature，根据这俩个新的feature就可以把class1和class2分开，
所以前面两个逻辑回归模型做的工作就是feature transformation，随后再由后面的逻辑回归模型来进行classification分类

可以调整蓝色/绿色逻辑回归的权重参数，让他的后验概率的output分别像图中颜色分布

logistics回归P值接近1_学习笔记_62

有了前面这俩个逻辑回归后，就可以把input的数据做transform，得到另外一组feature， $logistics回归P值接近1_学习笔记_41$ 和 $logistics回归P值接近1_logistics回归P值接近1_42$

logistics回归P值接近1_学习笔记_65

把多个逻辑回归模型相互连接起来，变得powerful，并且把每个逻辑回归模型赋予一个新的名字“Neuron”，把串起来之后组成的network叫做Neural Network，进入Deep Learning！妙啊！！！

logistics回归P值接近1_生成式_66

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python热门的持久层框架

下一篇：HBase client常用配置参数

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯