该博文内容仅针对《深入浅出数据分析》第一节到第五节
1. 数据分析固定的基本流程
(了解问题)确定问题,分解问题和数据,评估,决策
1.1 如何确定问题?
客户作为分析结果的服务对象,将根据数据分析的内容做决策,需要尽量从客户那里多了解一些信息,才能确定问题
首先要了解客户的情况(你的客户可能):
相当了解或者不甚了解自己提供的数据;相当了解或者不甚了解自己的问题或目标;相当了解或者不甚了解自己的业务;目标明确或者优柔寡断;头脑清醒或者稀里糊涂;富有直觉或者善于分析
确定问题的框架(能够让客户确定你的分析目标,给出对实现目标的重要基准假设):
您希望销量提高多少?
您觉得我们怎么样才能办到呢?
您觉得销量提高多少是可行的?目标销量合理吗?
(不停的问是”是多少“使你的各种目标和确信观点得到量化)
我们的竞争对手销量如何?
广告和社交网络营销预算是怎么回事?
1.2 分解
分解:将大问题划分成小问题
”我们如何提高销量“将分划为:
”我们最好的客户希望我们给他们什么?“;
”哪种促销方式最有可能产生效果?“
”我们的广告做得怎么样了?“
尝试分解最重要因子的最好起步方法就是找出高效的比较因子
1.3 评估
评估:让自己介入分析,做出自己的明确假设,并且以自己的信用为自己的结论打赌
1.4 提出建议
提出建议:报告内容要以得到客户理解,鼓励客户以数据为基础做出明智的决策为重点
报告内容:
背景,数据解说,建议
背景:
指的是我们在确定问题的过程中,询问相关人员和调查具体情况得到的一些数据,这些数据同时也是客户对目标的一些假设
数据解说:
将获得数据分解成几个重要的比较因子,可以配合使用图形对比较结果进行描述
建议:
基于客户给出的假设,给出相应的建议有助于说服客户,更能被客户所接受
心智模型:用于理解现实,会大大影响你对数据的解释
心智模型应当包括不了解的,不确定的因素
”关于貌洁保湿霜的销售情况,你觉得自己在哪方面最缺乏了解?“
”关于广告对提高销量的贡献,你有多少信心?“
”除了少女消费者,还有谁可能会买这些产品?“
”有没有我该知道的其他难以排解的不确定因素?“
2. 实验检验
统计与分析最基本的原理之一就是比较法,它指出,数据只有通过比较才会有意义
观察研究法:被研究的人自行决定自己属于哪个群体的一种研究方法
在观察数据的过程中,有一个描述性词语叫做”有限范围内波动“
观察研究法充满混杂因素,混杂因素就是研究对象的个人差异,它们不是这次观察数据过程中的比较因子,最终会导致分析结果的敏感度变差
P45 中SOHO区的区域经理表述的内容说明,选择的采访客户的住址(店址)会影响咖啡价值的数据收集结果,而住址(店址)就是混杂因素,是研究对象的个人差异
好的检验试验总是有一个控制组(对照组),使得我们能够将检验情况与现状进行比较
控制组:一组体现现状的处理对象,未经过任何新的处理
选择有效的分组,能够避免混杂因素:
- 轮流按照不同的价格给顾客结账。这样一来,一般顾客进入实验组,一半顾客进入控制组,店址不再成为混杂因素(随机对象:顾客)
- 使用历史控制法,将这个月的所有店作为控制组,下个月的所有店作为实验组
- 将不同的店随机分配给控制组和实验组(随机对象:店址)
- 将大的地理区域分成小的地理区域,随机将这些微区域分进控制组和实验组(随机对象:店址)
随机控制实验能证明因果关系,通过随机分组,将混杂因素对实验对象和结果的影响转化成一样
做数据分析的数据分为两类:无法控制的因素和能控制的因素
P78中的项目对应的两类因素的数据分别为:
无法控制的因素(约束条件):橡皮鱼的利润;橡皮鸭的利润;厂家有多少橡胶可以用来生产橡皮鱼;厂家有多少橡胶可以用来生产橡皮鸭;生产橡皮鱼要用多少时间;生产橡皮鸭要用多少时间
能控制的因素(决策变量):生产多少橡皮鱼;生产多少橡皮鸭
不要假定变量之间是不相关的。创建模型时,务必要规定假设中的各种变量的相互关系
P114中关于网站建设和优化的建议,角度从关键词点击,页面访问数,网站页面访问路径三种角度去收集数据
散点图常常用于发现因果关系,即一个变量影响另一个变量的关系。通常用散点图的X轴代表自变量,用Y轴代表应变量
图形的展示除了收集到的数据,还需要将客户的目标对应的展现出来,这样才能做正确的比较
最常见的散点图是验证两个变量的相关性(散点图中数据点的分布情况),如果一个图形能对三个以上的变量进行比较,这张图形就是多元图形,图形多元化最有可能促成最有效的比较。多元化的常见方法就是将多张相似的散点图相邻排放
对网站的评估:
页面加载速度,主色调冷暖色,导航方式,风格,内容
关于公司信息和数据的来源方式:(已公开的内容)
博客,专利,供配件制造商参考的手机规格,消费者新闻,政府档案,公共经济数据,配件制造商规格,竞争对手产品线,PodPhone新闻报道
数据分析初步阶段生成多个假设和包含因果关系的心智模型,假设验证的核心是证伪,即剔除无法证实的假设,对各个假设进行评级,不利证据越少的排在越前面
只要证据能够帮助你按照强弱程度对假设进行排列,就具有诊断性,诊断性是证据所具有的一种功能,能够帮助你评估所考虑的假设的相对似然。(似然表达的是给定样本X = x下参数θ = θ1 为真实值的可能性)