1. summary(),统计描述,因子向量和逻辑向量的频数统计,包括缺失值统计,同样作用的有
  1. Hmisc包中的describe()
  2. pastecs包中的stat.desc()
  3. psych包中的describe()
  4. 多个包中有相同名的函数,运行最后载入的,可用包名::函数()来使用
  1. 分组计算描述性统计量
  1. aggregate(x,by,FUN),单返回值函数
  2. by(x,indices,FUN),indices分组因子列表list,可以返回多个值
  3. 分组计算的拓展
  1. doBy包中的summaryBy(formula,data=dataframe,FUN),其中formula可以是y~x,y是数值型变量,x是类别型分组变量
  2. psych包中的describeBy(dataframe,list(x)),不允许指定任意函数,适普性较低,且分组变量交叉后不出现空白单元格时才有效
  1. 频数表和列联表:类别型变量,交叉的分类
  1. 频数统计表table()、prop.table()(其中的margins=1为按行计算、=2为按列计算)
  1. 二维列联表table(row,col)
  2. xtabs(formula,data),公式风格创建列联表,formula是~A+B,交叉分类变量在~右边
  3. margin.table()其中的margins=1代表按行添加边际列表,=2为按列添加边际列表
  4. 前面复杂的方法可以用addmargins()来为表格添加边际和
  5. table()默认忽略缺失值NA
  1. 多维列联表ftable()
  2. 独立性检验
  1. 卡方独立性检验:chisq.test()对二维表的行列进行独立性检验,用卡方,H0:独立
  2. Fisher精确检验:fisher.test(),H0:边界固定的列联表中的行列是相互独立的,R中的Fisher检验必须用于行列数>=2,但不能2*2
  3. mantelhaen.test(),H0:两个名义变量在第三个变量的每一个水平下都是条件独立的
  1. 相关性度量:独立性的检验后,必须要相关性的检验查看相关性
  1. vcd包中的assocstats
  1. 相关
  1. 相关的类型
  1. Pearson相关:两个定量变量之间的线性相关程度
  2. Spearman相关:分级定序变量间的相关程度
  3. Kendall's Tau相关:非参数的等级相关度量
  1. 相关函数cor(),协方差cov()
  1. cor(x,use=,method=)
  1. use=:
  1. all.obs遇到缺失数据时报错
  2. everything遇到缺失数据时将结果设为missing,默认
  3. complete.obs行删除
  4. pairwise.complete.obs成对删除
  1. method=:
  1. pearson,默认
  2. spearman
  3. kendall
  1. 偏相关ggm包中的pcor(u,S),u是数值向量,前两个数值是计算相关系数的变量下标,其他为排除影响的变量,S为变量的协方差矩阵cov(dataframe)
  1. psych包中的pcor.test(r,q,n)偏相关检验,r是由pcor()计算得到的偏相关系数,q是控制的变量数值位置,n为样本大小
  1. 相关性的显著性检验cor.test(x,y,alternative=,method=),H0:不相关,只能检验一对
  1. alternative=
  1. two.sided双侧,默认
  2. less或greater单侧
  1. method=pearson,……
  2. psych包中的corr.test(x,use="",method=“”),多个变量的检验
  1. use=
  1. pairwise成对删除
  2. complete行删除
  1. t检验:样本间是否有差别,R中的t检验默认方差不相等,var.equal=T假定方差相等且可用合并方差估计,默认双侧检验,H0:=
  1. 独立样本t.test(y~x,data),y是数值型变量,x是二分变量
  1. t.test(y1,y2),y1、y2是数值型向量
  1. 非独立样本t检验,假定组间的差异呈正态分布t.test(y1,y2,paired=T)
  2. 多于两个组之间的比较用ANOVA方差分析
  1. 组间差异的非参数检验,当数据不能确定分布时,用非参数
  1. 两组比较
  1. 数据独立wilcox.test(y~x,data)、wilcox.test(y1,y2)
  2. 数据不独立wilcox.test(……,paired=T)
  1. 多于两组的比较,均值的多重比较,控制第1类错误的重复叠加
  1. 数据独立kruskal.test(y~A,data),y是数值结果变量,A是一个拥有多个水平的分组变量
  2. 数据不独立friedman.test(y~A|B,data),y是数值型结果变量,A是分组变量,B是区组变量