你不相信数据,引导你相信数据,你相信数据,引导你不要相信数据,其实讲的都是逻辑。
从数据到信息的过程我们总结为如下三个关键逻辑步骤,没有对步骤再做过于细节的拆解。
1、数据处理陷阱
我们得相信,即便是多年得数据工作者,也总会因主观或者客观犯了各种各样得错误。
(1)违背结论原则——使用过时的数据
在处理数据时,可能受限于实验条件,使用已经过时的数据来进行数据分析,因为事物都是在不断发展的,这样获得的结论可信度就非常值得商榷。
(2)违背结论原则——选用有利于结论的数据
通常面对样本时需要做整体数据观察,以确认样本数量、均值、极值、方差、标准差以及数据范围等。其中的极值很可能是异常值,此时如何处理异常值会直接影响数据结果。比如某天的销售数据中,可能存在异常下单或行单,导致品类销售额和转化率异常高。如果忽视该情况,结论就是利好的,但实际并非如此。通常我们会把异常值拿出来,单独做文字说明,甚至会说明没有异常值下的真实情况。
(3)错误处理数据——使用错误的算法
大数据技术的发展,使得数据分析进入到了一个新的阶段,有非常多的算法模型可以辅助我们去做分析,但有很多的算法使用场景是不同的,要熟悉相关算法的使用规则,当然这是技术层面的问题,这里暂时不做过多的探讨。
(4)错误处理数据——过于相信工具
大数据相关的技术工具越来越多,同样的工具也是有一定的场景和约束条件的,对实验的结果要有独立的思考和判断。
(5)错误处理数据——对数据的不同理解
惠普和普林斯顿的两组研究人员所看到的数据不仅仅是推文。惠普的研究人员建立了一个模型,来研究电影首映时的发推率和上映影院数量。但上映影院的数量与票房成功之间有很强相关性。而普林斯顿的研究人员使用机器学习技术,来研究在三个不同时间段(影片上映之前、期间或观影后)用户的推文情绪特征(正面或负面)。也就是说,这两个研究团队都表示,他们在研究Twitter的预测能力。但实际上,他们除了使用twitter数据之外还利用了其它数据资源,例如上映影院数量和IMDB评分等等。这样Twitter的预测效果与其它因素混合在一起,它或许是预测票房成功的一种影响因素,这要取决于研究人员如何理解和使用它。
一句话总结数据处理陷阱:可能是无心插柳,也可能是别有用心。
2、数据分析陷阱
(1)利用非对称性理解——混淆概念
偷换概念是非常容易的,一般人注意不到,尤其是在专业领域。
平均数有很多个,你认为的平均数是哪一个?
房地产商费尽心思大力宣传,你所居住的小区是高档小区,你邻居的年均收入是10000英镑;而该区域的纳税人委员会却反复向政府强调,这里居民的平均年收入只有2000英镑,是该减减税赋了。
到底谁在说谎?事实上,他们都是诚实的。两个数字都是正规的平均数,来自相同的居民,根据相同的收入,计算方法也完全正确。
如果你的数据里有9个人有1000美元银行存款,第十个人只有1美元存款,那么算术平均值就是900.10美元,几乎比最常见的水平低了10%。如果一个公司前9年每年涨价3%,但是在今年涨了20%,那么中位数可能仍然是3%。如果你的数据里的数值都在1-100之间,但是1出现了3次,那么1就会成为众数,虽然平均值(这种情况下比较敏感)会接近50。
在比较可信的数据调查中,在计算算术平均值之前往往会去掉最高和最低的数值,同时可能选用比较合适的统计方式来呈现数据的真实面貌。但是,并不是每一条新闻中的调查都这么可信。除非你能直观地看到所有统计数据,那最好不要对这些数据照单全收。
算税的规则
问个问题,某个税种的税率是27%,请问要怎么算?这难道还有什么套路吗?当然是100元收27元吗?然而并不是。在有些地方,27%的税率是这么算的:100*1/(1-27%)=36.98元。有兴趣的朋友可以了解一下世界各国常见税种的计算方法,保证大开眼界。
(2)利用非对称性理解——选用不够准确的定义
比如用平均数均价来描述某城区的房价,就是不合理的,极值很可能是离群值。而应该使用中位数乘数(Median Multiple):房价-收入乘数,即该城市房价中位数 / 该城市每户居民税前年收入的中位数。这一指标被世界银行以及联合国推荐使用,以评估城市房地产市场。
大部分情况下,我们接受信息的方式比较被动,有很多分析报告,并未公布指标具体的计算方法,所以数据的可信度更应该值得我们去怀疑。
(3)利用非对称性理解——忽略数字后面的内容
构建虚荣性指标,忽略数字背后的内容,不呈现最本源的问题,比重就轻、报喜不报忧,不能反应最真实的业务情况。
粉丝数量的增长,无法提升公司业绩收入,可能导致投入更多的成本
越来越多的数字营销者开始意识到粉丝的数量并不能完全等于品牌的关注度。你在新浪微博上的一个粉丝,通过新浪官方的广告系统获取可能花费0.5到1元。也可以用其他更加廉价的方法来获取。这些机器人粉丝对你来说毫无用处。目前的社交媒体早已告别了僵尸粉时代,这些机器人粉丝不单有自己的头像,昵称,还会定时自动关注、互相关注、自动转发一些微博。到头来你在金钱上的付出仅仅是建立在机器人网络中的垃圾数据。真正在社交媒体中获得与投入相当的回报还需有非常好的创意内容和建立有效的评估系统。在考量你的数字营销部门或外包营销公司的绩效时,不应该把粉丝数量作为KPI之一。
访问者在网站的停留时间增加了,可能是因为页面响应速度变慢,用户会逐步流失
如果你有很好的内容,原创、可读性强并且有良好的结构,你的访客会花费更多时间在你的网站上。他们会阅读更多文章,观看更多视频,对你的内容进行留言。最终你会发现这种因为优秀的内容产生的粘性会让用户每次访问时间延长。
每次访问页面数提升了,可能是产品的体验变差了
和网站平均停留时间一样,平均访问页面数也有可能是一个不好的信号。当访问者面对一个糟糕的网站用户体验或者一个糟糕的页面结构时会导致用户浏览更多的页面。如果你的有价值的信息隐藏在网站很深的地方,也会造成用户花费更多步骤来寻找。有些网站改版后把长文章分成几个页面,或者把图库做成多页面以此提高广告播放次数,这也会使得每次访问页面数提升。
购物车废弃率下降了,营收反倒提升了,被忽略的用户习惯
如果你的业务涵盖电子商务,你应该对购物车废弃率非常熟悉。显然,购物车废弃率意味着你的电子商务在某一环节存在较高的提升机会。
然而,极诣对购物车废弃率有不同的看法。因为事实上许多消费者对于线上购物的购物车是作为收藏功能使用的。当他们需要做比较的时候他们就会一次加入多个商品到购物车留待之后进行比较。假如我要购买一台笔记本,我会同时加入5台笔记本到我的购物车,在结账时只支付我最喜欢的那台。然后剩下的那四台将会永远留在我的购物车中。购物车的废弃率越高,消费者对网站的认同度也越高。相反,如果购物车废弃率下降了,那可能说明把商品加入购物车的用户变少了。
点击率上升了,成本增加了,却没有带来太多的转化
点击率是网络广告中相当重要的指标。大家都爱高点击率。谷歌AdWords也用创意和关键字组合的点击率作为质量度的重要参数。遗憾的是点击率并不必定代表更好的广告创意,它还和如广告的位置以及其他欺诈相关的因素相关。
你以为的未必是你以为的。
(4)忽略数字的约定因素——指标定义陷阱
教学笔记关注人数日增长率 700%,要搞清楚样本时间期间是7天,30天,还是365天?样本越小,误差越大,诱导性也越大。如果基数很小,这个指标定义可能就不合适了。
只看单一指标,忽略多环节指标
在统计用户反馈的时候,只看到几个用户反馈一个问题,这些反馈在整个问题里占比只有1%,你觉得这个太低了,不加以重视!但是,你不知道另外99%遇到这个问题的用户很可能卸载了。
(4)错误的分析方法——遗漏关键因素
描述一个事实需要多个维度的数据,才能立体呈现。想掩盖一个事实的最好方式,莫过于不要暴露。给出的数据指标越多,信息就越全面,即需要多个概念或加权概念来描述。往往一个概念或指标是无法表述清楚的。
我们的会员数达到了6亿
我们喜欢大数字。很大,让人印象很深刻。但是这里的背后有几个问题:
你如何定义会员,一条email地址还是一个完整的会员档案?达到这个数字所花的时间是多少?这些会员的活跃度如何?你的平均会员获取成本是多少?每个会员的终身价值又是多少?
比方说,新浪微博拥有高达6亿的会员数量。但是据透露仅有20%会员活跃并且仅有5%会员会发原创微博。如果能回答上述这些问题,就能更好地看待会员数量这个指标。
亚利桑那州气候环境容易导致患肺结核
经过调查统计,亚利桑那州居民患肺结核比例高于全美平均水平49%,由此可以推断——亚利桑那州的气候环境容易导致患肺结核。
实际上,亚利桑那州气候温暖,是治疗肺结核的宝地,当地有很多治疗肺结核的疗养院,全美很多肺结核患者搬迁到亚利桑那州治疗肺结核,所以导致当地居民患病比例高。忽略掉导致这个结果的主要因素,片面强调患者比例,得出的推断显然是不可靠的。
同理,北京居民的癌症患病率肯定高于平均水平,这是因为北京集中了优质的医疗资源。说起癌症患病率,现代人的癌症患病率远高于古人,但这并不能说明是因为现代环境恶化导致癌症频发。因为癌症是老人病,而古人平均寿命三十多,很多古人没机会活到癌症高发的年纪就早早死于饥荒、营养不良、传染病、战乱...所以古人癌症患病率肯定更低。
单双号限行制度可以有效降低PM2.5指数
某市今年开始实行严格的机动车单双号限行制度,年底的时候统计数据显示,PM2.5指数下降明显,由此可以推断——单双号限行制度可以有效降低PM2.5指数。实际上,该市除了单双号限行,还实施了严格的环保管制,迁移了重污染工厂,以及一系列其他措施,单独只看单双号限行制度对PM2.5的影响,其实并不能准确判断,因此并不能得出上面的那个结论。但是有意忽略掉其余因素,就能得出对支持限行者有利的结论。
(4)错误的分析方法——隐藏部分真相
最高明的撒谎是用真话撒谎,通过隐藏部分信息,只呈现部分信息的方式,达成误导的目的。
只讲一个数据,其余的全部忽略
瓜子二手车,成交量遥遥领先。请问市场份额是多少?领先谁?比较的范围是什么?不好意思,消费者不需要知道这些,只要知道瓜子二手车很厉害,成交量遥遥领先就行了。类似的栗子还有,某打火机公司称已累计销售产品超过一亿件,全球驰名。能生产一亿件产品,肯定是大厂子吧?不好意思,做打火机的,真正的大厂子生产一亿件产品都不怎么要出汗。
(5)错误的分析方法——设置存疑参照
调整对比标准
常用于百分比数据。主要方式为调整对比的参照系,灵活选用“同比”“环比”,灵活选用计算方法。
忽略通胀批评现代经济行为
过去几年,某国媒体在攻击某位总统消耗财力过度时,说过“在任8年积累的财政赤字超过前200年的总和”。问题是,200年前1000美元可以买一个骑马转一圈都要半天的农场,美国买阿拉斯加总共只花了1500万美元,当时的世界首富可能净资产不足一百万美元...忽略通货膨胀的影响,用这种夸张的数据对比攻击现任总统,未免耸人听闻。
(6)错误的分析方法——选错指标口径
针对不同的分析场景,我们通常会对同样的指标选择不同的口径,比如我们来衡量团队的离职率和公司的离职率时会综合考虑各方面的因素,在指标定义上采取不同的定义方法,一方面在分析结果中未明确将指标的差异表达出来,另一反面可能未出现偏差,比如将团队的离职率指标用在公司的离职率定义上,从而带来不同的分析结论。
(7)错误的分析方法——错误理解原理
辛普森悖论
辛普森悖论以统计学家爱德华•辛普森 (Edward Simpson) 和乔治•U•尤尔 (George Udny Yule) 命名。在所有统计学研究中,都会发现辛普森悖论的身影,其中尤以医学统计居多。其实,该悖论可谓“放之任何统计案例而皆准”,特别是在市场营销领域内。
有欺骗性的的例子莫过于统计学中著名的辛普森悖论,看看来自斯坦福讲义里的一个简单例子。某大学历史系和地理系招生,共有13男13女报名。
Men Women
History 1/5 < 2/8
Geography 6/8 < 4/5
University 7/13 > 6/13
历史系5男报名录取1男,8女报名录取2女。地理系8男报名录取6男,5女报名录取4女。分析数据,会发现以下问题:
整个学校统计,男生录取率(7/13)高于女生录取率(6/13)但是,按系统计,每个系的女生的录取率却都高于男生录取率。历史系女生的录取率(2/8)大于男生录取率(1/5)。地理系女生录取率(4/5)也高于男生录取率(6/8)。
被误解的相关
对于两个相关的变量A和B,有如下6种可能的关系:A导致B;B导致A;C导致A,C导致B;A和B互为因果;A导致C,C导致B,间接因果;A和B无联系,由巧合导致的相关关系。解释成一句话,即:因果关系为相关关系的子集,有因果关系一定相关,相关关系不一定互为因果。很多事物表现出相关性,之间却不存在因果关系,两个事情的关联关系并不能说明其中一个变化能引起另一个的变化。关联却无因果很可能是他们同受第三方因素的影响。
英国新赫布里底( N e wH e b r i d e s) 群岛上的土著居民曾经有一个信条: 身上的跳蚤会带来健康的身体。因为通过长期的经验累积,土著居民发现健康的人身上总有一些跳蚤, 而身体赢弱的人通常没有。于是他们得出结论: 跳蚤使人身体健康, 每个人身上都应该有跳蚤。这种观察发现跳蚤与健康之间似乎是相关的, 并经历了多年来人们随意的检验。但这并不意味着土著居民的病因推论也是正确的, 后来的研究工作最终发现了新赫布里底的真相:在大多数情况下, 每个居民身上都有跳蚤, 这是正常情况, 然而, 随着体温升高, 跳蚤不能承受高温而引起的不适, 因此选择离开。由此可以看到, 统计数据往往容易被混杂因素所混淆或遮挡因果或相关关系。统计结果更多反映的是相关关系, 而非因果关系。
科学家从几万人胳膊长度和治理测试的统计数据中,发现人的智力水平个胳膊长度是正相关的:胳膊长的人,智力一般也较高。上述数据的统计范围从不足1岁的孩子到完全成长的成年人,在人成长中,体型会逐渐变大,智力会发展,实际上,两者都是随着年龄变量进行变化,从而变现出相关性。
毫无意义的精确
同许多受教育的孩子一样,小王和小红接受了智力测试,小王的智商是101,小红只有98。当然你很清楚:智商的平均数是100,即100意味着“正常”。 哈.小王是比较聪明的孩子,而且他的智商高于平均水平,小红则低于平均水平。对此我们先不详细评论。任何类似的结论纯粹都是胡说。与其他抽样的结果一样,代表智力水平的数据也具有统计误差,这个误差将用来衡量该数据的准确度和可信度。然而人们有时会为了一个数学上可论证却小得没有意义的差别费尽力气。这种行为是对这句古训的藐视:只有当差别有意义时才能称之为差别。
(8)错误的分析方法——方法选择不当
对研究对象的科学理解需要耐心。可能你的实验获得了预期的效果,但这还不够。你应该进行后续实验看能否得到相同的结果,还要看其他研究人员能否重现你的实验结果。特别是在处理人类个体或团队行为的时候,这一点尤其重要。这是因为事物在是不断变化的。惠普和普林斯顿大学的研究项目有两年的时间间隔,在这段时间中Twitter用户有可能发生了改变。同样的道理,如果观察到公司的增长速度发生变化,这有可能是客户群的情绪变化,也可能是使用了错误的数据收集或分析方法。
(9)错误的分析方法——理论与数据证据不足
所谓的专家
伯克利大学的心理学家TetLock曾经做过一个长期跟踪研究。他选择了284位专家,让这些专家预测是否将要发生某些政治或经济事件,例如,南非会不会以非暴力方式结束种族隔离?,在约20年中,TetLock收集了这些专家的82361个预测,这些问题大多以三选一的方式出现,然而,专家预测和事态实际发展的对比结果出人预料,哪怕让三岁婴儿在红黄蓝三个球中随机挑一个都比这些专家的预测更好。当然,专家自己并不承认他们的预测能力不佳,当预测正确时,他们将之归功于自己的洞察和专业能力,如果错误,要么怪形式超出常规,要么消失或根本不承认自己错了。
很多看似专家主导的专业领域,专家表现也差强人意,Olivier等人曾经对金融分析师在1987至2004年的预测进行研究,在20年中,分析师对于每股盈利这个重要经济指标预测能力很差,甚至不如简单的把上一年每股盈利作为下一年预测效果好。从这个角度看,这些分析师什么也没做。
缺乏证据的论点,我们都应该保持怀疑态度。
(10)错误的分析方法——工具与系统误差
系统误差,是指一种非随机性误差。如违反随机原则的偏向性误差,在抽样中由登记记录造成的误差等。它使总体特征值在样本中变得过高或过低。产生原因主要有:(1)所抽取的样本不符合研究任务;(2) 不了解总体分布的性质选择了可能曲解总体分布的抽样程序;(3)有意识地选择最方便的和解决问题最有利的总体元素,但这些元素并不代表总体(例如只对先进企业进行抽样)。这类误差只要事先作好充分准备,是可以避免的。
直接忽略工具与系统误差,得出的结论来误导结果。
(11)错误的分析方法——别有用心的目的
销量数据
今年汽车销量整体下滑。公布月销量数据时,如果用“同比”,参考标准是去年同期的销量,那几乎没有能看的,平均下降十几个点;但是如果用“环比”,参考标准是上个月的销量,那说不定还能增长呢。运用这个原理,根据目的不同,“同比”“环比”数据哪个好看就用哪个。在表达的时候,“同比”“环比”这两个字可以省略不说,毕竟节约资源嘛。
量少,则用比率,增量不足,则用总量,总量不够,则用同比,旺季同比不足,则用淡季环比。
数字增长的背后
以开源项目 walle-web.io 的 github star 为例,总用户趋势还是很漂亮的,尽管新增用户在下跌(不要替孤担心),我不把后面的数据放出来,会有几个眼尖的能看到?
一句话总结数据分析陷阱:可能是无心插柳,也可能是别有用心。
3、数据结论陷阱
(1)编造故事——为数据编造故事
编造的故事
这是一个关于零售帝国沃尔玛的故事。 在一次例行的数据分析之后, 研究人员突然发现: 跟尿布一起搭配购买最多的商品,竟是啤酒!尿布和啤酒,听起来风马牛不相及,但这是对历史数据进行挖掘的结果,反映的是数据层面的规律。这种关系令人费解,但经过跟踪调查,研究人员发现,一些年轻的爸爸常到超市去购买婴儿尿布,有30%~40%的新爸爸,会顺便买点啤酒犒劳自己。随后,沃尔玛对啤酒和尿布进行了捆绑销售,不出意料,销售量双双增加。这个故事虽经典,但是让你意想不到的是:案例是编造的,这个经典的“啤酒和尿布” (Beer and Diapers)的案例,不仅是《大数据》类图书的常客,事实上,它更是无数次流连于“数据挖掘”之类的书籍中,特别是用来解释“关联规则(Association Rule)”的概念。实际上,它是Teradata公司一位经理编出来的“故事”,目的是让数据分析看起来更有力,更有趣,而在历史上从没有发生过。
(2)模糊规则——忽略使用范围
我们可能构建了一个数据挖掘模型来预测人员的离职,但实际上我们的预测模型,仅仅限定在研发人员范围,对销售人员并不适用,所以我们在确定结论以及模型时,需要明确约定适用范围。
比如新的美容产品可能只针对某个群体有比较好的效果,但并未特殊说明,从而刻意营销,当产品未达到预期效果时,才说明其适用条件,这类陷阱在日常生活中随处可见。
(3)模糊规则——忽略限定条件
GDP增长率
如果要在09年2月公布08年GDP增长率,可以在09年1月份悄无声息地发布一个修订文件,大概内容是通过重新审计、结合通胀调整等等因素,对07年的GDP数据进行了修正。这个修订,不会开发布会,不会上头条,也许只会存在于政府网站的某个角落里。由于已经是前年的事情了,不会有多少人注意到这个修订值比原先的值到底是多了还是少了、变化的幅度大不大。
(4)模糊规则——忽略有效期
失效的法则
谷歌在2008年推出的流感趋势系统监测全美的网络搜索,寻找与流感相关的词语,比如“咳嗽”和“发烧”等。它利用这些搜索来提前9个星期预测可能与流感相关的就医量,这个案例被当成大数据应用的一个经典案例。
但是,没有人关注这个事情的然后,真相是这样的,在过去3年,该系统一直高估与流感相关的就医量,在这类数据最有用的流感季节高峰期尤其预测不准确。在2012/2013流感季节,它预测的就医量是美国疾控中心(CDC)最终记录结果的两倍;在2011/2012流感季节,它高估了逾50%,原因可能是媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数,进而影响Google的预测。
(5)胡编乱造——混乱的逻辑
当你每天“以每小时70英里的速度疾驶在高速公路上”,如果时间是早上7点,那么你生还的机会将是晚上7点的4倍。证据是,“晚上7点发生的灾难是早上7点的4倍”。但根据这样的证据是否能得到上述的结论?晚上的车祸比早上多,仅仅因为晚上有更多的车和人在高速公路上。单独一个驾驶员在晚上也许会比较危险,但上述的数据却不足以证明这一点。
(5)胡编乱造——为营销没有底线
牵强附会
谈影视大数据,怎么都绕不开《纸牌屋》。“Netflix通过分析3000万北美用户观看视频的行为数据,发现凯文·史派西、大卫·芬奇和‘英剧《纸牌屋》’’3个关键词的受众存在交集,由此预测将三种元素结合在一起的片子将会大火特火。”这段模凌两可的描述真的太诱人了,简直像要发起一场影视革命!但回到原点,美剧《纸牌屋》成功的原因,真的就是“1+1+1”这么简单吗?数据倘若真的这么NB,那为什么Netflix的第一部自制剧《莉莉海默》和《纸牌屋》之后的自制剧《铁杉树丛》并没有复制辉煌呢?这不禁令人生疑:如果大数据应用如此可行,Netflix为何情有独钟《纸牌屋》。
真相被淹没在有关《纸牌屋》和大数据关系的海量报道中。早在去年7月,美剧《纸牌屋》改编方、美国独立制片公司MRC的联合CEO莫迪·维克茨克(Modi Wiczyk)就公开表示,此剧的诞生源自公司一名实习生的推荐。你没看错,是至今姓甚名谁都不知道的实习生,和大数据没有半毛钱关系。事实上,《纸牌屋》的诞生,决定性因素不是“大数据”,而是影视圈里永恒的关键词——“资金”和“人脉”,这其中,数据最多只是一个指南针,甚至只是一个手电筒。可以说,《纸牌屋》的成功宣传了大数据,而不是大数据造就了《纸牌屋》,大数据只是Netflix在宣传《纸牌屋》的过程中使用的噱头。
现在,就看Netflix真正用大数据算出的下一部自制剧是否会大红大紫了。亦或仅仅是个牵强的附会。
(6)胡编乱造——文案营销
算利息
不用年息,而是说月息甚至是日息。日息0.1%给人的感觉不是很多,但是这个利率换个说法就是年息36.5%!
一句话总结数据结论陷阱:可能是无心插柳,也可能是别有用心。