一.统计分析软件说明
统计分析软件有:SPSS, SAS、R语言,Matlab,S-PLUS,S-Miner。
SPSS: 最简单的,都是菜单操作,不过不利于二次程序开发。
SAS: 需要购买,该软件录入语言要非常精确,不能出错,难操作。
R语言:免费软件,可以菜单操作,不过一般要编程的,二次程序开发。
Matlab:基本是程序操作,和R语言差不多,不过功能比较强大。
S-PLUS: 需要购买,基本也是菜单操作,和SPSS差不多。
R与SPSS、SAS相比较,拥有非常突出的优势:
1)产品线齐全。在功能与产品线齐全上已经远远超出SPSS,而与SAS不相上下。有些R的包,比如基因分析常用的Bioconductor在在线基因数据库连接等众多功能上甚至已经远远超出商业软件。
2)免费。请注意,标记为TM或者®符号的软件均需要在SPSS、SAS的基础模块基础之上另行购买,费用往往在千元美元以上。而R的一切功能均是免费。
3)开放。由于R本身是一个统计语言环境,再新的统计模型也很快能实现,所以在结构方程模型、项目反应理论、认知诊断等众多心理测量所使用的功能上,没有现成的统计软件包,使用R则完全可以自己编写算法。同样,由于R是完全开源,我们可以很快地基于研究者已经开发出的算法编写更适合自己情况的算法。
表:R与SAS、SPSS之比较
主题 | SAS产品线 | SPSS产品线 | R语言相关包 |
高级模块 | SAS/STAT® | SPSS Advanced Models™ | stat, MASS及众多扩展包 |
基础模块 | SAS® | SPSS Base™ | R |
联合分析 | SAS/STAT®: Transreg | SPSS Conjoint™ | homals, psychoR , bayesm |
对应分析 | SAS/STAT®: Corresp | SPSS Categories™ | homals, MASS, FactoMineR |
自定义表格 | SAS Base® Report、SQL, Tabulate | SPSS Custom Tables™ | reshape |
数据接口 | SAS/ACCESS® | SPSS Data Access Pack™ | DBI, foreign, RODBC |
数据挖掘 | Enterprise Miner™ | Clementine® | rattle, arules, FactoMineR |
数据校验 | Various procedures | Various procedures, | dprep, various functions |
Exact Tests | SAS/STAT®: various | SPSS Exact Tests™ | coin, elrm, exactLoglinTest, |
基因分析 | SAS/Genetics®, | 无 | Bioconductor |
GIS | SAS/GIS®, | SPSS Maps™ | maps, mapdata, mapproj, |
交互图 | Enterprise Guide® | SPSS Base™ | JGR, R Commander, pmg, |
SAS/INSIGHT® | 无 | GGobi via rggobi | |
统计图 | SAS/GRAPH® | SPSS Base™ | ggplot, gplots, graphics, grid, gridBase, hexbin, lattice, plotrix, scatterplot3d, vcd, lot, geneplotter, Rgraphics |
分析向导 | SAS/LAB® | 无 | 无 |
矩阵数学 | SAS/IML®, SAS/IML | SPSS Matrix™ | R, matlab, Matrix, sparseM |
缺省值分析 | SAS/STAT®: MI | SPSS Missing Values Analysis™ | aregImpute (Hmisc), EMV, |
统筹研究 | SAS/OR® | 无 | glpk, linprog, LowRankQP, TSP |
统计效力检验 | SAS® Power and | SamplePower™ | asypow, powerpkg, pwr, |
品质控制 | SAS/QC® | SPSS Base™ | qcc, spc |
回归模型 | SAS/BASE® | SPSS Regression | R, Hmisc, Design, lasso, VGAM, pda |
抽样及调查 | SAS/STAT®: | SPSS Complex Samples™ | pps, sampfling, sampling, |
结构方程模型 | SAS/STAT®: Calis | Amos™ | sem |
文本分析 | Text Miner | SPSS Text Analysis for | Rstem, lsa, tm |
时间序列 | SAS/ETS® | SPSS Trends™ Expert | 大量的包可完成 |
时间序列分析预测 | SAS Forecast | SPSS Trends, | 无 |
决策树 | Enterprise Miner™ | SPSS Classification | ada, adabag, BayesTree, |
二.R 语言
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输入,可实现分支、循环,用户可自定义功能。
与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。
这个图是R 官网上的一个图片,该图片对应的代码可以直接从官网上查看。
该语言的语法表面上类似 C,但在语义上是函数设计语言的(functional programming language)的变种并且和Lisp 以及 APL有很强的兼容性。特别的是,它允许在“语言上计算”(computing on the language)。这使得它可以把表达式作为函数的输入参数,而这种做法对统计模拟和绘图非常有用。
R是一个免费的自由软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的。
R 官网地址:http://www.r-project.org/
R 中国官网:http://www.rproject.cn/
在R官网可以下载到R的安装程序、各种外挂程序和文档。
在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得(http://cran.r-project.org)。
也可以从如下地址下载R 资料:
http://www.biosino.org/R/R-doc/
该站点提供了如下资料:
2005年6月 | 《R导论》HTML 版本:简体中文; 繁体中文;(附带的PowerPoint) (版本:0.01β) |
2005年11月 | |
2006年7月 | |
2006年 | |
2006年10月 | |
2007年12月 | |
2008年1月 | 《R 数据的导入和导出》HTML 版本: 简体中文(分页); 简体中文(单页); (版本:0.01β) |
2008年1月 |
三.R 发展史
R 是统计领域广泛使用的诞生于 1980年左右的 S 语言的一个分支。 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。
S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性。S-PLUS的使用手册,只要经过不多的修改就能成为 R的使用手册。所以有人说:R,是S-PLUS的一个“克隆”。但是请不要忘了:R isfree。
四.CRAN
CRAN为Comprehensive R Archive Network(R综合典藏网)的简称。它除了收藏了R的执行档下载版、源代码和说明文件,也收录了各种用户撰写的软件包。现时,全球有超过一百个CRAN镜像站。