1 什么是数据分析?

数据分析:就是使用分析方法分析工具在大量数据中提取有价值的信息,形成有效结论,挖掘数据最大价值的过程。
再简单来说,数据分析就是用来分析数据对象内在规律的,变废为宝。
如果再做成图表,就更能清晰的看出其中的规律,方便对症下药。

1.1 必备技能

硬实力:

  1. Excel:数据存储、数据清洗、可视化方面,需要掌握常用的操作及重要函数,图标和数据透视功能。
  2. SQL:SQL语句的提取分析。
  3. SPSS:统计分析软件,提供可视化按钮。
  4. Python:数据爬取、分析,含数据分析第三方包numpy/pandas/matplotilib/sklearn。

软实力:

  1. 业务知识:要懂业务,要懂爬虫。
  2. 逻辑思维&分析方法:对比分析、多维度拆解分析、相关分析等。
  3. 沟通表达:良好的沟通能力,不说废话,擅长跨部门协作。
  4. 统计学知识:统计学原理,对知识的要求不高。
  5. 机器学习:机器学习模型和算法,有难度,但是发展好。

1.2 业务数据分析

  1. 数据支持
  2. 数据报表
  3. 数据监控,问题分析
  4. 专题报告

1.3 建议

做什么工作都不容易,当你下决心做一件事情的时候,不要只是三分钟热度,坚持下去,没有学不会的知识,也没有过不去的坎儿,只有不愿付出的努力,一起加油!

2 常见业务指标

公司肯定会有不同的分析场景,我们需要做的就是根据场景,明确问题,分析问题,然后提供数据支持,最后进行总结,得出有价值的结论。

  1. 明确问题
    明确数据来源,从时间地点事件角度。
    明确业务指标,指标的口径、数据对比等。

2.1 常用指标

用户数据

  1. 日增用户数
  2. 活跃用户数
  3. 活跃率
  4. 留存率:40-20-10法则
  5. 单位获客成本
  6. 客单价
  7. ARPU:Average Revenue Per User,每个用户的平均收入
  8. ARPPU:Paying 每位付费用户的平均收入

行为数据

  1. PV:page view,页面访问/点击量,只要刷新就算一次。
  2. UV:独立访客数,以记录用户浏览器为准,100个人用一个浏览器访问,也只算1次。
  3. IP:计算某ip地址的计算机访问网站的次数,局域网里的同一个ip访问100次,也只算1次。
  4. 平均访问时长:用来衡量用户体验,体验越好,肯定留存时间越长。用总时长/访问次数来计算。
  5. 跳出率:反应网站流量质量的重要指标,只访问了一个页面就离开网站的访问次数占总访问次数的百分比。跳出率=只访问一个页面就离开网站的访问次数/总访问次数
  6. 转化率:潜在用户在我们的网站上完成一次我们期望的行为,就叫做一次转化,转化率=转化次数/访问次数
  7. 复购率:购买两次及以上的客户/总购买客户数。

产品数据

  1. 成交总额(GMV):也叫“流水”,包含销售额、取消、拒收、退货订单总额。
  2. SKU(stock keeping unit):库存量单位,一个商品有多个SKU,比如衣服颜色。
  3. SPU(standard product unit):标准化单元产品,SPU是一个集合,比如一款手机是一个SPU,内存等参数就是一个SKU。
  4. ROI(return on investment):投资回报率,交易金额/投放成本。

2.2 如何选择指标?

我们都会挑选核心指标,一般反应业务能力的指标,比如各种率。

3 常见分析方法

“五法三模”

  • 逻辑树分析法
  • 多维度拆解分析法
  • 对比分析法
  • 归因分析法
  • 相关性分析法
  • RFM分析模型
  • 漏斗分析模型
  • AARRR分析模型

3.1 逻辑树分析法

就是将一个复杂的大问题,拆解成多个关系密切的小问题,用来解决验证估算问题,比如费米问题。
主要培养我们的逻辑及思维方式,锻炼清晰的表达能力
你要如何知道煎饼铺一年能卖多少煎饼呢?

3.2 多维度拆解分析法

通过逻辑树分析法得出的结论没有明显用处的时候,可以考虑从多个维度对问题进行拆解。
比如指标拆解、业务流程拆解等

3.3 对比分析法

通过对两个事物进行比较,我们知道的同比和环比横比和纵比,都属于对比分析法。
同一时间和别人比,这叫横向;不同时间和自己比,这叫纵向。
同年异月和自己比,这叫环比;异年同月和自己比,这叫同比。

3.4 假设检验法

就是针对问题做假设,然后搜集证据证明假设的过程。成则是,失则排。

3.5 相关分析法

需要研究两种或两种以上的变量间关系时使用,判断哪些因素是印象某种现象的主要原因,记住是主要原因。
在相关分析法中,会有相关系数r的概念,表示关系强弱,r的取值范围为[-1,1],r>0.6表示相关性强;具体r值需要通过方差协方差来计算。
相关性又分为正相关:++和负相关:±

3.5.1 注意事项

A和B相关的五种可能性,A->B / B->A / C(A&B) / A<=>B / 巧了

相关分析要讲究数据,不是凭经验靠感觉
但是要避免一个误区,相关关系并不一定是因果关系,因此在进行相关分析时除了看相关系数大小外,还要进一步验证,如果其他因素不变,该变量是否能够引起另外一个变量相应的变化。

3.5.2 协方差

两个变量在变化过程中的同向或反向的程度,就是通过协方差来体现,同向协方差为正,异向协方差为负

python数据分析模块有哪些 python数据分析包括哪些_数据


理解为:X和Y两组数据,在每个时刻的 值与其均值之差 的乘积,求期望(求和并求出平均值)。

很多时候,正负项会抵消掉,最后求平均得出的值就是协方差,其数值大小,可以判断这两个变量同向或反向的程度。

协方差为正时,数值越大,说明XY同向程度越高;协方差为负时,数值越小,说明XY同向程度越高。

3.5.3 相关系数

python数据分析模块有哪些 python数据分析包括哪些_协方差_02


理解为:X、Y的协方差 / X的标准差 和 Y的标准差。

所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。其消除了两个变量变化幅度的影响,而只是单纯反应量两个变量每单位变化时的相似程度。

标准差的计算:

python数据分析模块有哪些 python数据分析包括哪些_数据_03


理解为:每个时刻的变量值与均值之差再平方,得到数值后相加后求平均,再开方。

怎么理解偏离均值的幅度?为什么又要平方?为什么又要进行开方?

所以标准差描述了变量在整体变化过程中偏离均值的幅度。协方差除以标准差,也就是把协方差中变量变化幅度对协方差的影响剔除掉,这样协方差也就标准化了,它反应的就是两个变量每单位变化时的情况。这也就是相关系数的公式含义了。
同时,你可以反过来想象一下:既然相关系数是协方差除以标准差,那么,当X或Y的波动幅度变大的时候,它们的协方差会变大,标准差也会变大,这样相关系数的分子分母都变大,其实变大的趋势会被抵消掉,变小时也亦然。于是,很明显的,相关系数不像协方差一样可以在+无穷到负无穷间变化,它只能在+1到-1之间变化。

3.6 RFM分析模型

  • 近度(Recency):最近一次消费到当前的时间间隔
  • 频度(Frequecy):最近一段时间内的消费次数
  • 额度(Monetory):最近一段时间内的消费金额

RFM模型反映了用户的现在价值和潜在价值,并对用户分类,便于因材施教,使效果最大化。
此时三高为最优。

3.6.1 RFM模型能够轻松地解答业务上的这些问题

  1. 谁是我最好的客户?
  2. 哪些客户正处于流失的边缘?
  3. 谁有可能转化为更有利可图的客户?
  4. 谁是你不需要关注的无价值客户?
  5. 你必须保留哪些客户?
  6. 谁是你的忠实客户?
  7. 哪些客户最有可能对当前的营销动作做出回应?

3.6.2 RFM计算方式

3.7 漏斗分析模型

用来分析从潜在用户到最终用户这个过程中用户数量的变化趋势,从而寻找到最佳的优化空间,这个方法被普遍用于产品各个关键流程的分析中。
在一个流程里,每个环节都会造成用户的流失,通过计算用户流失数量,来发现存在问题的环节。

3.7.1 数据收集

数据埋点,可以自己开发,也可以利用第三方统计工具。

"""
网站分析工具:Alexa、中国网站排名、网络媒体排名(iwebchoice)、Google Analytics、百度统计
移动应用分析工具:Flurry、Google Analytics、友盟、TalkingData、Crashlytics
"""

3.8 AAARR模型

(Acquisition获取、Activation激活、Retention留存、Revenue收入、Refer推荐),用于帮助业务成长。

python数据分析模块有哪些 python数据分析包括哪些_python数据分析模块有哪些_04


python数据分析模块有哪些 python数据分析包括哪些_标准差_05

4 统计学概述

4.1 集中趋势与离散趋势

均数、中位数的适用范围及特点
标准差、方差、变异系数

4.2 分类变量与数值变量

分类变量分为有序和无序;数值变量分为连续和离散。

总结:

无序分类变量:无大小之分,无顺序之分,仅知道属于哪个类别

有序分类变量:无大小之分,但是有顺序之分,各个类别客户划分等级

连续型变量:有大小之分,一定区间范围内取值个数无法确定

离散变量:有小大之分,一定区间范围内取值个数是有限的,可数的。