什么是数据分析

数据分析是基于历史数据进行预处理,分析、对比、汇总,产出用于辅助决策的有效信息的过程。

数据分析的着力点

1. 现状分析:当前出于什么样的状况,运营的整体状况,各分业务的盈亏等等。

2. 原因分析:是什么原因导致的某种现象,或对现状的原因分析。

3. 未来预测:基于现有数据,对未来的可能性、趋势等进行预测。
 

数据分析的对象

总体概览指标

总体概览指标就是统计数据的绝对数值。例如:当日销售总额为60万元,订单量为2万单。

总体概览指标用于反映某个时间段内某些业务的某些指标的绝对数值。

其中,我们比较关心的指标称为关键指标。

对比性指标

对比性指标指的是现象之间的数量对比的指标。 比较常见的是同比,环比,差。

同比:相邻时间段上,两个相同时间点上的数据比对。

环比:相邻时间段上,小时间段间的数据比对。

差:两个比对时间段数据的数值差异,差的绝对值就是两个时间段之间的变化量。

python数据分析问题 python 数据分析要点_数据

集中趋势指标 

集中趋势指标是一段时间内的达到的一般水平,通常用平均指标来表示。

python数据分析问题 python 数据分析要点_结构化_02

 数值平均指标就是基于统计数值进行绝对计算,普通平均数就是统计数值的绝对平均数,加权平均是在计算的时候,每个数据加上权重进行计算。

位置平均指标就是基于统计数据所处图表的位置,进行的统计结论,例如出现次数最多的”众数“,体现了最普遍的结论,而位于中间位置的”中位数“在另一个维度上体现了中间水平。

离散程度指标

数值的离散程度是指在平均值上下波动的情况。

python数据分析问题 python 数据分析要点_数据_03

 极差就是最大值与最小值的差,体现了数值范围。

方差是每个数值与均值差的平方的均值。

标准差是方差开根号。

python数据分析问题 python 数据分析要点_结构化_04

 相关性指标

通过相关系数体现自变量和因变量之间的关联程度,范围是[-1, 1],相关系数的绝对值越大,说明与这个自变量的变化越有关系

python数据分析问题 python 数据分析要点_时间段_05

 正负号代表正相关还是负相关

python数据分析问题 python 数据分析要点_时间段_06

 

数据的分类

python数据分析问题 python 数据分析要点_python_07

结构化数据

结构化数据遵从一定的数据规范和格式,一般存储在结构化的文件中,或者结构化数据库中。

python数据分析问题 python 数据分析要点_python_08

 例如这就是一条结构化的数据,按照Company、Date、Stock这样的数据格式进行存储,数据类型是确定的,数据的格式也是确定的。优点是数据格式统一,便于处理。

非结构化数据

非结构化数据没有任何规范和格式可言,尤其是图像、声音、视频等信息,一般通过解析帧数据,频谱计算、RGB化等方式提取有效信息。对于自然语言文本来说,我们有NLP处理技术,提取有效信息。

python数据分析问题 python 数据分析要点_python数据分析问题_09

 例如这就是一种非结构化的数据。

半结构化数据

半结构化数据介于两者之间,遵从一定的数据规范和格式要求,但不像结构化数据那么完全统一,也不像非结构化数据那样完全没有规律可言。通常是JOSN或者XML数据格式。

python数据分析问题 python 数据分析要点_python数据分析问题_10

数据格式有一定的规范,不完全统一。

时序数据

时序数据可以是结构化的,也可以是非结构化的数据。之所以称之为时序的,也就是说跟时间有关系,随着时间的推移获取到的数据。

python数据分析问题 python 数据分析要点_python_11

 其中的时序,可以是次序,1,2,3。。。也可以是时间戳。

常见数据源

python数据分析问题 python 数据分析要点_时间段_12

 API:需要使用Request包

WebPage:需要使用Request、BeautifulSoup包

DataBase:使用SQL语句查询

File:open打开文件,使用相关的工具处理不同格式的数据

数据处理流水线

python数据分析问题 python 数据分析要点_python数据分析问题_13

数据获取 :从各种渠道获取到待处理的数据,这是首要步骤。

数据清洗:检查、修正不正确的数据、移除无效数据,移除无用数据,为后续的处理做准备

数据转换:将非结构化、不规范的数据,转换成便于分析处理的结构化数据

数据分析:对数据进行分析,得出一些有用的结论或进行决策

数据存储:一般分析结果会存储到数据库或文件中,便于后续的使用