数据分析的总体流程一般分为6步:明确分析类型-->制定分析方案-->搜集并整理数据-->实施建模和分析-->分析结果验证-->数据分析报告输出。

数据分析常用的工具有:MATLAB、SPSS、SAS、Stata、SAS、EViews、ExcelPython、R等等。


python做实证分析 python 验证数据分析_数据

数据分析流程

》明确分析类型

明确并细化分析目标,是数据分析中极为重要的一点,直接关系到分析工作的有效展开和业务收益。从分析目标的维度,对数据分析做抽象归纳,可以分为以下三类:

  • 验证型分析,对提出的问题用数据进行合理的验证,在日常分析中最为常用;
  • 描述型分析,从数据角度说明现状或问题,如通过描述网站的PV、UV、留存率或转化率等数据来分析网站的运营状况;
  • 预测型分析,根据历史数据或其它的数据信息,对可能发生或者即将发生的事情做出数据上的合理推测。

》制定分析方案

明确了分析目标之后,需要制定具体的分析方案,可以分为三个步骤:

  1. 明确可用数据范围,在已有且可用的合理数据基础上才能进行后续的有效分析;
  2. 选择可行、合适的分析建模以及实施方法,通常需要综合考虑难易程度、效率、效果等方面来选择;
  3. 制定结果的校验准则,通过制定完善的数据校验策略来验证数据分析结果的可信度是及其重要的。

》搜集并整理数据

数据分析是与业务紧密相关的,因此需要围绕业务来搜集充分的数据。通常搜集的数据都是渠道来源多样、格式繁杂的,因此需要进一步进行数据整理。

》实施建模和分析

借助各类建模工具逐步实施第2步时确定的建模方案。

》分析结果验证

得到分析结果后,还需要对结果进行验证,常用的验证方法有:

  1. 多维对比法,对于某一项数据,从线和面的维度分别进行比较。从线的维度,对比该指标今天和昨天或过去一周的数据是否有较大的波动或异常;从面的维度,对比该指标的统计结果与本地统计的其它数据是否存在冲突。
  2. 冗余验证法,对于某些重要指标或关键指标,请多位分析师共同来做,然后对比结果的差异,从而找出可能存在的问题。

》数据分析报告输出

得到可信的分析结果后,就可以输出完整的分析报告了。分析报告中最重要的一个环节就是结果的展现,数据是高度抽象化的,所以通常需要用合理的图形来直观地展现和说明结果。常用的图形有:柱状图、折线图、饼图、散点图、漏斗图、雷达图、气泡图等等。通常需要根据数据特点选择合适的图形或图形组合来展现,才会更加直观。


python做实证分析 python 验证数据分析_数据_02

数据分析工具

在数理统计科学的理论基础上,基于不同的应用领域,有不同的高可用的数据分析工具,如:MATLAB、SPSS、SAS、Stata、SAS、EViews、Excel、Python、R等等。本系列文章将主要介绍基于Python和Excel的数据分析。

  • Excel:是Microsoft为使用Windows和Apple Macintosh操作系统的电脑编写的一款电子表格软件。直观的界面、出色的计算功能和图表工具,再加上成功的市场营销,使Excel成为最流行的个人计算机数据处理软件。在1993年,作为Microsoft Office的组件发布了5.0版之后,Excel就开始成为所适用操作平台上的电子制表软件的霸主。
  • Python:是由荷兰人吉多·范罗苏姆(Guido van Rossum)于1989年开发的一种跨平台的计算机程序设计语言, 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。围绕Python实现的各种数据分析与数据可视化的开源代码库非常丰富且被广泛应用,因此成为数据分析领域极受欢迎的主流语言工具。

python做实证分析 python 验证数据分析_python数据分析_03

小数据与大数据

近来大数据概念越来越受到关注,传统的数据分析和大数据分析的异同点有哪些呢?

传统的数据分析着眼于抽样,利用样本数据来推算整体,立足于如何使用更有效的理论和模型。

大数据分析则用全量取代了样本,全量的数据通常意味着数据量大这一根本特征。因此大数据分析需要先解决海量数据的存储和计算的问题,然后才是分析。从分析角度讲,大数据的分析理论及建模思路与传统数据分析基本相似,但是受计算模式和存储方式的限制,很多传统的数据分析方法,无法直接运用到大数据分析上。


Python在数据分析中常用的库有哪些?如何运用Python做数据分析?这些将是本系列文章想要回答的问题。