随机误差方差R语言方差分析随机误差

关注网络安全守护先锋

文章目录

什么是方差分析？
回到最初的问题上，组内误差、组间误差是怎么计算的呢？

随机误差方差R语言方差分析随机误差

转载

网络安全守护先锋 2024-07-08 22:03:47

文章标签 随机误差方差R语言方差分析方差假设检验 文章分类 R语言后端开发

什么是方差分析？

假设检验是用于两组数据之间的差异分析，方差分析是用于多组数据之间是否有差异，但具体哪些组之间有差异方差分析是不知道的，需要用到假设检验进行两两分析

具体的来说，方差分析是利用不同组之间的组间方差与每组的组内方差进行比较，比较的结果越接近于1 说明每组之间的差异越小，这里面组内方差看做是抽样的随机误差，组间误差看做是系统性误差与随机误差的总和，系统性误差也就是不同组之间的差异性描述。

为什么说“组间方差与每组的组内方差进行比较，比较的结果越接近于1 说明每组之间的差异越小”呢？

我们回到方差的定义上来，方差反映了什么？方差代表了一组抽样样本数据的离散程度，方差越大离散程度越大，那么造成离散的原因又是什么呢？

可能是随机抽样本身固有的误差、可能是某一因素引起了真实的变化造成了差异变化(比如煎饼果子加了蛋，口味吃起来，比不加蛋的煎饼果子要好吃)

随机抽样本身的固有误差不可避免！

如果某一因素的确引起了真实的变化，那么这个系统性差异就一定会存在的，且变化越大差异越大，系统性误差也就越大

那么组内误差(SSE)和组间误差(SSA)怎么计算呢？

我们直接看书里面的例子：

随机误差方差R语言方差分析随机误差_方差分析

随机误差方差R语言方差分析随机误差_假设检验_02

现在要解决的问题是：不同行业是否对投诉数量有影响

单从这个问题从发，要判断行业对投诉数量的影响，那么就分析一下不同行业的投诉数量情况，我们拿书中给出的散点图来看：

随机误差方差R语言方差分析随机误差_方差_03

图中的连线是同一行业中的投诉均值，从这个图上我们可以直观的看到行业对投诉数量是有影响的，因为明显不同行业的均值不同，在抽样的情况下，均值可以很大程度的反应真实情况，其实问题到这里已经有结论了。但是是否有个指标来直接说明这个事情呢？这个指标又该如何计算呢？这就是方差分析要做的事情。基于统计学理论来给结论提供一个必要的证明

回到最初的问题上，组内误差、组间误差是怎么计算的呢？

首先说组内误差(SSE)，组内误差在上面的举例中，比如零售业的几个抽样值为一组，组内误差就是计算组的每个样本值与组内样本均值之差的平方，然后将所有组的差方进行求和，它反映了组内抽样的离散状况(这不就是少了分母的方差吗)。

随机误差方差R语言方差分析随机误差_随机误差方差R语言_04

，

随机误差方差R语言方差分析随机误差_随机误差方差R语言_05

是每组样本的平均值

组间误差(SSA)，组间误差在上面的举例中，不同组之间的均值与总体抽样样本均值之差的平方，然后求和，它反映了组内抽样的离散状况，以及不同组之间的系统性差异，在例子中也就是行业因素造成的差异

随机误差方差R语言方差分析随机误差_假设检验_06

，随机误差方差R语言方差分析随机误差_假设检验_07 是总体抽样样本的平均值，随机误差方差R语言方差分析随机误差_随机误差方差R语言_08 是对应组的组内样本数量

好了现在我们有了组件和组内误差，是不是可以直接进行比较了呢？

答案是不可以，因为我们计算的误差包含了样本数量(观测值的多少)的影响，进行比较之前，需要消除样本数量的影响，采用的方式就是误差除以对应的自由度()，除了之后就是方差了.....终于知道为啥被叫做方差分析了

组间误差自由度：例子中有4组，自由度为4-1=3(共计有4个组，只需要三个组以及均值便可知道4个组的整体信息)

组内误差自由度：例子中总样本数量是23，分了4个组，自由度为23-4=19(分了4个组，假设每组数量为n，那么每组只需要n-1样本即可获取样本的全部信息，所以这里组内误差的自由度是23-4)

随机误差方差R语言方差分析随机误差_随机误差方差R语言_09

随机误差方差R语言方差分析随机误差_随机误差方差R语言_10

MSA叫做组间均方或者组间方差，MSE叫做组内均方或者组内方差。

有了MSA和MSE，我们直接进行比值，可以得到：

随机误差方差R语言方差分析随机误差_随机误差方差R语言_11

，计算的结果远大于1，说明了系统性误差真实存在，行业的确是对投诉数量有影响。

好了，有了结论后，我们进一步分析

仔细观察MSA和MSE的表达式，他是符合F分布的，具体可以说它符合分子自由度为k-1，分母自由度为n-k的F分布，自然又可以采用假设检验的思路，利用F分布的特征进行判断了。

具体的来说包括提出假设、构造统计量、接收或驳回原假设

本例子中

提出假设：提出假设的原则为假设的设置以较为少量的信息、明确的信息为假设。

比如假设为：假设行业对投诉有影响。

有影响？，是正影响还是负影响呢，这个假设的设置隐含内容较多，我们一般不这么设置，我们设置的假设条件是，行业对投诉没有影响，具体的来说就是不同行业的投诉数量均值都相同

构造统计量：F分布、置信水平

$\alpha$

接收或驳回原假设：

随机误差方差R语言方差分析随机误差_随机误差方差R语言_13

附带python 方差分析代码：

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：dubbo接口注册不上 dubbo注册服务配置

下一篇：非Spring环境使用reddsion 不使用spring

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册