1 什么是数据分析?
数据分析:就是使用分析方法和分析工具在大量数据中提取有价值的信息,形成有效结论,挖掘数据最大价值的过程。
再简单来说,数据分析就是用来分析数据对象内在规律的,变废为宝。
如果再做成图表,就更能清晰的看出其中的规律,方便对症下药。
1.1 必备技能
硬实力:
- Excel:数据存储、数据清洗、可视化方面,需要掌握常用的操作及重要函数,图标和数据透视功能。
- SQL:SQL语句的提取分析。
- SPSS:统计分析软件,提供可视化按钮。
- Python:数据爬取、分析,含数据分析第三方包numpy/pandas/matplotilib/sklearn。
软实力:
- 业务知识:要懂业务,要懂爬虫。
- 逻辑思维&分析方法:对比分析、多维度拆解分析、相关分析等。
- 沟通表达:良好的沟通能力,不说废话,擅长跨部门协作。
- 统计学知识:统计学原理,对知识的要求不高。
- 机器学习:机器学习模型和算法,有难度,但是发展好。
1.2 业务数据分析
- 数据支持
- 数据报表
- 数据监控,问题分析
- 专题报告
1.3 建议
做什么工作都不容易,当你下决心做一件事情的时候,不要只是三分钟热度,坚持下去,没有学不会的知识,也没有过不去的坎儿,只有不愿付出的努力,一起加油!
2 常见业务指标
公司肯定会有不同的分析场景,我们需要做的就是根据场景,明确问题,分析问题,然后提供数据支持,最后进行总结,得出有价值的结论。
- 明确问题
明确数据来源,从时间地点事件角度。
明确业务指标,指标的口径、数据对比等。
2.1 常用指标
用户数据
- 日增用户数
- 活跃用户数
- 活跃率
- 留存率:40-20-10法则
- 单位获客成本
- 客单价
- ARPU:Average Revenue Per User,每个用户的平均收入
- ARPPU:Paying 每位付费用户的平均收入
行为数据
- PV:page view,页面访问/点击量,只要刷新就算一次。
- UV:独立访客数,以记录用户浏览器为准,100个人用一个浏览器访问,也只算1次。
- IP:计算某ip地址的计算机访问网站的次数,局域网里的同一个ip访问100次,也只算1次。
- 平均访问时长:用来衡量用户体验,体验越好,肯定留存时间越长。用总时长/访问次数来计算。
- 跳出率:反应网站流量质量的重要指标,只访问了一个页面就离开网站的访问次数占总访问次数的百分比。跳出率=只访问一个页面就离开网站的访问次数/总访问次数。
- 转化率:潜在用户在我们的网站上完成一次我们期望的行为,就叫做一次转化,转化率=转化次数/访问次数。
- 复购率:购买两次及以上的客户/总购买客户数。
产品数据
- 成交总额(GMV):也叫“流水”,包含销售额、取消、拒收、退货订单总额。
- SKU(stock keeping unit):库存量单位,一个商品有多个SKU,比如衣服颜色。
- SPU(standard product unit):标准化单元产品,SPU是一个集合,比如一款手机是一个SPU,内存等参数就是一个SKU。
- ROI(return on investment):投资回报率,交易金额/投放成本。
2.2 如何选择指标?
我们都会挑选核心指标,一般反应业务能力的指标,比如各种率。
3 常见分析方法
“五法三模”
- 逻辑树分析法
- 多维度拆解分析法
- 对比分析法
- 归因分析法
- 相关性分析法
- RFM分析模型
- 漏斗分析模型
- AARRR分析模型
3.1 逻辑树分析法
就是将一个复杂的大问题,拆解成多个关系密切的小问题,用来解决验证估算问题,比如费米问题。
主要培养我们的逻辑及思维方式,锻炼清晰的表达能力
你要如何知道煎饼铺一年能卖多少煎饼呢?
3.2 多维度拆解分析法
通过逻辑树分析法得出的结论没有明显用处的时候,可以考虑从多个维度对问题进行拆解。
比如指标拆解、业务流程拆解等。
3.3 对比分析法
通过对两个事物进行比较,我们知道的同比和环比,横比和纵比,都属于对比分析法。
同一时间和别人比,这叫横向;不同时间和自己比,这叫纵向。
同年异月和自己比,这叫环比;异年同月和自己比,这叫同比。
3.4 假设检验法
就是针对问题做假设,然后搜集证据证明假设的过程。成则是,失则排。
3.5 相关分析法
需要研究两种或两种以上的变量间关系时使用,判断哪些因素是印象某种现象的主要原因,记住是主要原因。
在相关分析法中,会有相关系数r的概念,表示关系强弱,r的取值范围为[-1,1],r>0.6表示相关性强;具体r值需要通过方差和协方差来计算。
相关性又分为正相关:++和负相关:±。
3.5.1 注意事项
A和B相关的五种可能性,A->B / B->A / C(A&B) / A<=>B / 巧了
相关分析要讲究数据,不是凭经验靠感觉;
但是要避免一个误区,相关关系并不一定是因果关系,因此在进行相关分析时除了看相关系数大小外,还要进一步验证,如果其他因素不变,该变量是否能够引起另外一个变量相应的变化。
3.5.2 协方差
两个变量在变化过程中的同向或反向的程度,就是通过协方差来体现,同向协方差为正,异向协方差为负。
理解为:X和Y两组数据,在每个时刻的 值与其均值之差 的乘积,求期望(求和并求出平均值)。
很多时候,正负项会抵消掉,最后求平均得出的值就是协方差,其数值大小,可以判断这两个变量同向或反向的程度。
协方差为正时,数值越大,说明XY同向程度越高;协方差为负时,数值越小,说明XY同向程度越高。
3.5.3 相关系数
理解为:X、Y的协方差 / X的标准差 和 Y的标准差。
所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。其消除了两个变量变化幅度的影响,而只是单纯反应量两个变量每单位变化时的相似程度。
标准差的计算:
理解为:每个时刻的变量值与均值之差再平方,得到数值后相加后求平均,再开方。
怎么理解偏离均值的幅度?为什么又要平方?为什么又要进行开方?
所以标准差描述了变量在整体变化过程中偏离均值的幅度。协方差除以标准差,也就是把协方差中变量变化幅度对协方差的影响剔除掉,这样协方差也就标准化了,它反应的就是两个变量每单位变化时的情况。这也就是相关系数的公式含义了。
同时,你可以反过来想象一下:既然相关系数是协方差除以标准差,那么,当X或Y的波动幅度变大的时候,它们的协方差会变大,标准差也会变大,这样相关系数的分子分母都变大,其实变大的趋势会被抵消掉,变小时也亦然。于是,很明显的,相关系数不像协方差一样可以在+无穷到负无穷间变化,它只能在+1到-1之间变化。
3.6 RFM分析模型
- 近度(Recency):最近一次消费到当前的时间间隔
- 频度(Frequecy):最近一段时间内的消费次数
- 额度(Monetory):最近一段时间内的消费金额
RFM模型反映了用户的现在价值和潜在价值,并对用户分类,便于因材施教,使效果最大化。
此时三高为最优。
3.6.1 RFM模型能够轻松地解答业务上的这些问题
- 谁是我最好的客户?
- 哪些客户正处于流失的边缘?
- 谁有可能转化为更有利可图的客户?
- 谁是你不需要关注的无价值客户?
- 你必须保留哪些客户?
- 谁是你的忠实客户?
- 哪些客户最有可能对当前的营销动作做出回应?
3.6.2 RFM计算方式
3.7 漏斗分析模型
用来分析从潜在用户到最终用户这个过程中用户数量的变化趋势,从而寻找到最佳的优化空间,这个方法被普遍用于产品各个关键流程的分析中。
在一个流程里,每个环节都会造成用户的流失,通过计算用户流失数量,来发现存在问题的环节。
3.7.1 数据收集
数据埋点,可以自己开发,也可以利用第三方统计工具。
"""
网站分析工具:Alexa、中国网站排名、网络媒体排名(iwebchoice)、Google Analytics、百度统计
移动应用分析工具:Flurry、Google Analytics、友盟、TalkingData、Crashlytics
"""
3.8 AAARR模型
(Acquisition获取、Activation激活、Retention留存、Revenue收入、Refer推荐),用于帮助业务成长。
4 统计学概述
4.1 集中趋势与离散趋势
均数、中位数的适用范围及特点
标准差、方差、变异系数
4.2 分类变量与数值变量
分类变量分为有序和无序;数值变量分为连续和离散。
总结:
无序分类变量:无大小之分,无顺序之分,仅知道属于哪个类别
有序分类变量:无大小之分,但是有顺序之分,各个类别客户划分等级
连续型变量:有大小之分,一定区间范围内取值个数无法确定
离散变量:有小大之分,一定区间范围内取值个数是有限的,可数的。