一.统计分析软件说明


统计分析软件有:SPSS, SAS、R语言,Matlab,S-PLUS,S-Miner。


SPSS: 最简单的,都是菜单操作,不过不利于二次程序开发。

SAS: 需要购买,该软件录入语言要非常精确,不能出错,难操作。

R语言:免费软件,可以菜单操作,不过一般要编程的,二次程序开发。

Matlab:基本是程序操作,和R语言差不多,不过功能比较强大。

S-PLUS: 需要购买,基本也是菜单操作,和SPSS差不多。


R与SPSS、SAS相比较,拥有非常突出的优势:

1)产品线齐全。在功能与产品线齐全上已经远远超出SPSS,而与SAS不相上下。有些R的包,比如基因分析常用的Bioconductor在在线基因数据库连接等众多功能上甚至已经远远超出商业软件。

  2)免费。请注意,标记为TM或者®符号的软件均需要在SPSS、SAS的基础模块基础之上另行购买,费用往往在千元美元以上。而R的一切功能均是免费。

  3)开放。由于R本身是一个统计语言环境,再新的统计模型也很快能实现,所以在结构方程模型、项目反应理论、认知诊断等众多心理测量所使用的功能上,没有现成的统计软件包,使用R则完全可以自己编写算法。同样,由于R是完全开源,我们可以很快地基于研究者已经开发出的算法编写更适合自己情况的算法。


表:R与SAS、SPSS之比较

主题

SAS产品线

SPSS产品线

R语言相关包

高级模块

SAS/STAT®

SPSS Advanced Models™

stat, MASS及众多扩展包

基础模块

SAS®

SPSS Base™

R

联合分析

SAS/STAT®: Transreg

SPSS Conjoint™

homals, psychoR , bayesm

对应分析

SAS/STAT®: Corresp

SPSS Categories™

homals, MASS, FactoMineR
ade4, PTAk, cocorresp, vegan, made4, PsychoR

自定义表格

SAS Base® Report、SQL, Tabulate

SPSS Custom Tables™

reshape

数据接口

SAS/ACCESS®

SPSS Data Access Pack™

DBI, foreign, RODBC

数据挖掘

Enterprise Miner™

Clementine®

rattle, arules, FactoMineR

数据校验

Various procedures

Various procedures,
SPSS Data Preparation™

dprep, various functions

Exact Tests

SAS/STAT®: various

SPSS Exact Tests™

coin, elrm, exactLoglinTest,
exactmaxsel, exactRankTests,及其他许多包

基因分析

SAS/Genetics®,
SAS/Microarray®
Solution®, JMP
Genomics®

Bioconductor

GIS

SAS/GIS®,
SAS/Graph®

SPSS Maps™

maps, mapdata, mapproj,
GRASS via spgrass6,
RColorBrewer及其他包的部分功能

交互图

Enterprise Guide®

SPSS Base™

JGR, R Commander, pmg,
Sciviews

SAS/INSIGHT®

GGobi via rggobi
iPlots, Mondrian via Rserve

统计图

SAS/GRAPH®

SPSS Base™

ggplot, gplots, graphics, grid, gridBase, hexbin, lattice, plotrix, scatterplot3d, vcd, lot, geneplotter, Rgraphics

分析向导

SAS/LAB®

矩阵数学

SAS/IML®, SAS/IML

SPSS Matrix™

R, matlab, Matrix, sparseM

缺省值分析

SAS/STAT®: MI

SPSS Missing Values Analysis™

aregImpute (Hmisc), EMV,
fit.mult.impute (Design), mice,
mitools, mvnmle

统筹研究

SAS/OR®

glpk, linprog, LowRankQP, TSP

统计效力检验

SAS® Power and
Sample Size
Application,
SAS/STAT: Power,
GLM Power

SamplePower™

asypow, powerpkg, pwr,
MBESS

品质控制

SAS/QC®

SPSS Base™

qcc, spc

回归模型

SAS/BASE®

SPSS Regression
Models™

R, Hmisc, Design, lasso, VGAM, pda

抽样及调查

SAS/STAT®:
surveymeans,等

SPSS Complex Samples™

pps, sampfling, sampling,
spsurvey, survey

结构方程模型

SAS/STAT®: Calis

Amos™

sem

文本分析

Text Miner

SPSS Text Analysis for
Surveys™, Text Miner
for Clementine®

Rstem, lsa, tm

时间序列

SAS/ETS®

SPSS Trends™ Expert
Modeler

大量的包可完成

时间序列分析预测

SAS Forecast
Studio®

SPSS Trends,
DecisionTime/WhatIf™

决策树

Enterprise Miner™

SPSS Classification
Trees™, AnswerTree™

ada, adabag, BayesTree,
boost, GAMboost, gbev, gbm,
maptree, mboost, mvpart,
party, pinktoe,
quantregForest, rpart,
rpart.permutation,
randomForest,
randomForests, tree



二.R 语言

  R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的​​软件​​,它是一个用于统计计算和统计制图的优秀工具。


R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;​​数组​​​运算工具(其向量、​​矩阵​​运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输入,可实现分支、循环,用户可自定义功能。


与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。


 

这个图是R 官网上的一个图片,该图片对应的代码可以直接从官网上查看。


该语言的语法表面上类似 C,但在语义上是函数设计语言的(functional programming language)的变种并且和Lisp 以及 APL有很强的兼容性。特别的是,它允许在“语言上计算”(computing on the language)。这使得它可以把表达式作为函数的输入参数,而这种做法对统计模拟和绘图非常有用。


R是一个免费的自由软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的。


R 官网地址:​​http://www.r-project.org/​

R 中国官网:​​http://www.rproject.cn/​


在R官网可以下载到R的安装程序、各种外挂程序和文档。


在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得(​​http://cran.r-project.org​​)。



也可以从如下地址下载R 资料:

​http://www.biosino.org/R/R-doc/​


该站点提供了如下资料:

2005年6月

《R导论》HTML 版本:​​简体中文​​​; ​​繁体中文​​​;(附带的​​PowerPoint​​) (版本:0.01β)

2005年11月

《R导论》CHM 版本:下载(​​chm​​​,​​zip​​)(K Tu制作)(版本:0.01β)

2006年7月

《R导论》PDF 版本:下载(​​pdf​​​, ​​zip​​​)(版本:0.1)(​​官方下载​​)

2006年

《R for beginners》中文版:下载(​​pdf​​​,​​zip​​)(版本:2.0)

2006年10月

《R 语言定义》HTML 版本(草稿):​​简体中文​​​; ​​英文版​​;(版本:0.01β)

2007年12月

《R 内核》HTML 版本(草稿):​​简体中文​​​; ​​英文版​​;(版本:0.01α)

2008年1月

《R 数据的导入和导出》HTML 版本: ​​简体中文(分页)​​​; ​​简体中文(单页)​​; (版本:0.01β)

2008年1月

​R 语言中国论坛(版本:1.0 β)​



三.R 发展史

R 是统计领域广泛使用的诞生于 1980年左右的 S 语言的一个分支。 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是​​S-PLUS​​。


S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处,两个​​软件​​有一定的兼容性。S-PLUS的使用手册,只要经过不多的修改就能成为 R的使用手册。所以有人说:R,是S-PLUS的一个“克隆”。但是请不要忘了:R isfree。



四.CRAN

CRAN为Comprehensive R Archive Network(R综合典藏网)的简称。它除了收藏了R的执行档下载版、​​源代码​​​和说明文件,也收录了各种用户撰写的​​软件包​​。现时,全球有超过一百个CRAN镜像站。