基于不同的应用领域,在数理统计的理论基础上,各机构和公司推出了多款高可用的数据分析工具。本节从易用性、专业性以及应用场景等维度,着重介绍MATLAB、SPSS、Stata、SAS、EViews、Excel、Python、R这几款工具。
(1)MATLAB
MATLAB是Matrix Laboratory(矩阵实验室)的缩写,是一款由美国The MathWorks公司出品的商业数学软件。MATLAB不仅仅是一款可以用来做统计分析的软件,它还可以高效地处理其他很多的数学问题[4]。它常被用于各种数学建模和工程设计,相比于它强大的统计分析功能,这可说是大材小用。它具有丰富的库函数(工具箱);内嵌绘图功能,可实现数据的多维度展现;同时有良好的交互设计,活跃的社区以及丰富的文档……这些都使它具有极高的易用性,我们也可使用解释执行语言对其进行编程。
(2)SPSS
SPSS是Statistical Product and Service Solutions的缩写,是一款由IBM公司推出的用于分析运算、数据挖掘、预测分析和决策支持等一系列任务的软件产品及相关服务的总称[5]。SPSS可以用在经济分析、市场调研、自然科学等林林总总的领域。它最大的特点是“简单易用”。虽然它对前沿理论的支持不够全面,但是囊括了绝大部分常用的统计方法。简单的操作方式、友好的操作界面,再加上强大的功能,使其在国内统计分析工作领域吸引了大量用户。
(3)Stata
Stata是Statacorp于1985年开发出来的统计程序[6]。和SPSS一样,它也支持常用分析方法,可用于多个领域,不过实践中在医学和生物学研究上的应用较多。Stata采用菜单和编程相结合的使用方式,其易用性虽不如SPSS,但在功能上略胜一筹。它在企业和学术机构的应用比较广泛。
(4)SAS
SAS诞生于北卡罗莱纳州立大学,起初只是一个用于分析农业研究的项目。随着需求的增长,它的使用范围扩展至医药企业、银行业以及学术和政府机关[7]。SAS系统提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等。SAS功能极其强大,算法包非常完善,但是它是纯编程界面,易用性低且入门困难,适合高级数据分析师或者专业人士使用。在统计分析领域,SAS一度是“统计分析系统”的缩写,被誉为国际上的标准软件和最具权威性的优秀统计软件包。
(5)EViews
EViews是Econometrics Views的缩写,由Quantitative MicroSoftware(QMS)开发,是一款基于Windows设计的统计分析软件[8]。EViews可以用于常规的统计分析,但它在计量经济分析方面特别有效。它的易用性高,且相比于上述其他分析软件,入门级别低。针对计量经济学相关的分析,可以首先考虑该软件。
(6)ExcelExcel是微软公司为Windows操作系统编写的一款电子表格系统,可以画各种图表、做方差分析、回归分析等基础分析。它的专业性虽然不高,但是完全可以胜任日常工作中简单的统计分析工作。同时,它极其方便的操作方式,以及Microsoft Office软件包成员之一的身份,使它成为最流行的个人计算机数据处理软件。
(7)Python
Python是由荷兰人Guido van Rossum于1989年发明的一种面向对象的解释型编程语言,并于1991年公开发行第一个版本[9]。Python是本书各种代码实现所使用的语言。之所以把Python语言列为数据分析的工具,是因为围绕它实现的各种数据分析与数据可视化的开源代码库被广泛应用。同时,Excel、SPSS等工具虽然具有可操作的界面,但并不能有效地结合Hadoop、Hive等组件有效地处理海量数据,而这些都是Python可以胜任的。
(8)R语言
R是专用于统计分析以及可视化的语言,是AT&T研发S语言时的产物,可以认为是S语言的另一种实现方式[9a]。同Python一样,R也提供了极其丰富的库函数来做统计和展现。因为R太过强大且拥有大量的用户,为了能顺应用户的习惯,降低学习的成本,Python在数据处理上的很多库函数都是模仿R的实现,以保持与其基本一致的使用方式。我们下面通过表1-1对比上述八款软件。