该博文内容仅针对《深入浅出数据分析》第一节到第五节

1. 数据分析固定的基本流程

(了解问题)确定问题,分解问题和数据,评估,决策

1.1 如何确定问题?

客户作为分析结果的服务对象,将根据数据分析的内容做决策,需要尽量从客户那里多了解一些信息,才能确定问题

首先要了解客户的情况(你的客户可能):

相当了解或者不甚了解自己提供的数据;相当了解或者不甚了解自己的问题或目标;相当了解或者不甚了解自己的业务;目标明确或者优柔寡断;头脑清醒或者稀里糊涂;富有直觉或者善于分析

确定问题的框架(能够让客户确定你的分析目标,给出对实现目标的重要基准假设):

您希望销量提高多少?

您觉得我们怎么样才能办到呢?

您觉得销量提高多少是可行的?目标销量合理吗?

(不停的问是”是多少“使你的各种目标和确信观点得到量化)

我们的竞争对手销量如何?

广告和社交网络营销预算是怎么回事?

1.2 分解

分解:将大问题划分成小问题

”我们如何提高销量“将分划为:

”我们最好的客户希望我们给他们什么?“;

”哪种促销方式最有可能产生效果?“

”我们的广告做得怎么样了?“

尝试分解最重要因子的最好起步方法就是找出高效的比较因子

1.3 评估

评估:让自己介入分析,做出自己的明确假设,并且以自己的信用为自己的结论打赌

1.4 提出建议

提出建议:报告内容要以得到客户理解,鼓励客户以数据为基础做出明智的决策为重点

报告内容:

背景,数据解说,建议

背景:

指的是我们在确定问题的过程中,询问相关人员和调查具体情况得到的一些数据,这些数据同时也是客户对目标的一些假设

数据解说:

将获得数据分解成几个重要的比较因子,可以配合使用图形对比较结果进行描述

建议:

基于客户给出的假设,给出相应的建议有助于说服客户,更能被客户所接受

心智模型:用于理解现实,会大大影响你对数据的解释

心智模型应当包括不了解的,不确定的因素

”关于貌洁保湿霜的销售情况,你觉得自己在哪方面最缺乏了解?“

”关于广告对提高销量的贡献,你有多少信心?“

”除了少女消费者,还有谁可能会买这些产品?“

”有没有我该知道的其他难以排解的不确定因素?“

2. 实验检验

统计与分析最基本的原理之一就是比较法,它指出,数据只有通过比较才会有意义

观察研究法:被研究的人自行决定自己属于哪个群体的一种研究方法

在观察数据的过程中,有一个描述性词语叫做”有限范围内波动“

观察研究法充满混杂因素,混杂因素就是研究对象的个人差异,它们不是这次观察数据过程中的比较因子,最终会导致分析结果的敏感度变差

P45 中SOHO区的区域经理表述的内容说明,选择的采访客户的住址(店址)会影响咖啡价值的数据收集结果,而住址(店址)就是混杂因素,是研究对象的个人差异

好的检验试验总是有一个控制组(对照组),使得我们能够将检验情况与现状进行比较

控制组:一组体现现状的处理对象,未经过任何新的处理

选择有效的分组,能够避免混杂因素:

  1. 轮流按照不同的价格给顾客结账。这样一来,一般顾客进入实验组,一半顾客进入控制组,店址不再成为混杂因素(随机对象:顾客)
  2. 使用历史控制法,将这个月的所有店作为控制组,下个月的所有店作为实验组
  3. 将不同的店随机分配给控制组和实验组(随机对象:店址)
  4. 将大的地理区域分成小的地理区域,随机将这些微区域分进控制组和实验组(随机对象:店址)

随机控制实验能证明因果关系,通过随机分组,将混杂因素对实验对象和结果的影响转化成一样

做数据分析的数据分为两类:无法控制的因素能控制的因素

P78中的项目对应的两类因素的数据分别为:

无法控制的因素(约束条件):橡皮鱼的利润;橡皮鸭的利润;厂家有多少橡胶可以用来生产橡皮鱼;厂家有多少橡胶可以用来生产橡皮鸭;生产橡皮鱼要用多少时间;生产橡皮鸭要用多少时间

能控制的因素(决策变量):生产多少橡皮鱼;生产多少橡皮鸭

不要假定变量之间是不相关的。创建模型时,务必要规定假设中的各种变量的相互关系

P114中关于网站建设和优化的建议,角度从关键词点击页面访问数网站页面访问路径三种角度去收集数据

散点图常常用于发现因果关系,即一个变量影响另一个变量的关系。通常用散点图的X轴代表自变量,用Y轴代表应变量

图形的展示除了收集到的数据,还需要将客户的目标对应的展现出来,这样才能做正确的比较

最常见的散点图是验证两个变量的相关性(散点图中数据点的分布情况),如果一个图形能对三个以上的变量进行比较,这张图形就是多元图形,图形多元化最有可能促成最有效的比较。多元化的常见方法就是将多张相似的散点图相邻排放

对网站的评估:

页面加载速度,主色调冷暖色,导航方式,风格,内容

关于公司信息和数据的来源方式:(已公开的内容)

博客,专利,供配件制造商参考的手机规格,消费者新闻,政府档案,公共经济数据,配件制造商规格,竞争对手产品线,PodPhone新闻报道

数据分析初步阶段生成多个假设和包含因果关系的心智模型,假设验证的核心是证伪,即剔除无法证实的假设,对各个假设进行评级,不利证据越少的排在越前面

只要证据能够帮助你按照强弱程度对假设进行排列,就具有诊断性,诊断性是证据所具有的一种功能,能够帮助你评估所考虑的假设的相对似然。(似然表达的是给定样本X = x下参数θ = θ1 为真实值的可能性)