基于psych包中的describe函数可以综合输出重要的特征统计量 psych包中的describe()函数

关注 karen

基于psych包中的describe函数可以综合输出重要的特征统计量 psych包中的describe()函数

转载

karen 2024-04-12 15:54:14

文章标签 数据方差缺失值 文章分类 架构后端开发

summary()，统计描述，因子向量和逻辑向量的频数统计，包括缺失值统计，同样作用的有

Hmisc包中的describe()
pastecs包中的stat.desc()
psych包中的describe()
多个包中有相同名的函数，运行最后载入的，可用包名::函数()来使用

分组计算描述性统计量

aggregate(x,by,FUN)，单返回值函数
by(x,indices,FUN)，indices分组因子列表list，可以返回多个值
分组计算的拓展

doBy包中的summaryBy(formula,data=dataframe,FUN)，其中formula可以是y~x，y是数值型变量，x是类别型分组变量
psych包中的describeBy(dataframe,list(x))，不允许指定任意函数，适普性较低，且分组变量交叉后不出现空白单元格时才有效

频数表和列联表：类别型变量，交叉的分类

频数统计表table()、prop.table()（其中的margins=1为按行计算、=2为按列计算）

二维列联表table(row,col)
xtabs(formula,data)，公式风格创建列联表，formula是~A+B，交叉分类变量在~右边
margin.table()其中的margins=1代表按行添加边际列表，=2为按列添加边际列表
前面复杂的方法可以用addmargins()来为表格添加边际和
table()默认忽略缺失值NA

多维列联表ftable()
独立性检验

卡方独立性检验：chisq.test()对二维表的行列进行独立性检验，用卡方，H0：独立
Fisher精确检验：fisher.test()，H0：边界固定的列联表中的行列是相互独立的，R中的Fisher检验必须用于行列数>=2，但不能2*2
mantelhaen.test()，H0：两个名义变量在第三个变量的每一个水平下都是条件独立的

相关性度量：独立性的检验后，必须要相关性的检验查看相关性

vcd包中的assocstats

相关

相关的类型

Pearson相关：两个定量变量之间的线性相关程度
Spearman相关：分级定序变量间的相关程度
Kendall's Tau相关：非参数的等级相关度量

相关函数cor()，协方差cov()

cor(x,use=,method=)

use=：

all.obs遇到缺失数据时报错
everything遇到缺失数据时将结果设为missing，默认
complete.obs行删除
pairwise.complete.obs成对删除

method=：

pearson，默认
spearman
kendall

偏相关ggm包中的pcor(u,S)，u是数值向量，前两个数值是计算相关系数的变量下标，其他为排除影响的变量，S为变量的协方差矩阵cov(dataframe)

psych包中的pcor.test(r,q,n)偏相关检验，r是由pcor()计算得到的偏相关系数，q是控制的变量数值位置，n为样本大小

相关性的显著性检验cor.test(x,y,alternative=,method=)，H0：不相关，只能检验一对

alternative=

two.sided双侧，默认
less或greater单侧

method=pearson，……
psych包中的corr.test(x,use="",method=“”)，多个变量的检验

use=

pairwise成对删除
complete行删除

t检验：样本间是否有差别，R中的t检验默认方差不相等，var.equal=T假定方差相等且可用合并方差估计，默认双侧检验，H0：=

独立样本t.test(y~x,data)，y是数值型变量，x是二分变量

t.test(y1,y2)，y1、y2是数值型向量

非独立样本t检验，假定组间的差异呈正态分布t.test(y1,y2,paired=T)
多于两个组之间的比较用ANOVA方差分析

组间差异的非参数检验，当数据不能确定分布时，用非参数

两组比较

数据独立wilcox.test(y~x,data)、wilcox.test(y1,y2)
数据不独立wilcox.test(……,paired=T)

多于两组的比较，均值的多重比较，控制第1类错误的重复叠加

数据独立kruskal.test(y~A,data)，y是数值结果变量，A是一个拥有多个水平的分组变量
数据不独立friedman.test(y~A|B,data)，y是数值型结果变量，A是分组变量，B是区组变量

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：用cmake配置opencv cmake添加opencv

下一篇：sas 一元二次回归一元二次回归方程拟合

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册