这些年,要说IT圈子最火的 是什么,数据分析绝对能排进去前三(不管机器学习、深度学习、人工智能、云计算……神马的,大部分都是作为数据分析的基石或者数据分析的主要实现体存在),分析实际上是人类一种本能。
经典的统计学思维里面,分析主要是用来进行因果关系的总结,比如民间各种相关谚语:朝霞不出门,暮霞行千里一类的,都是通过日常的观察来获得某种经验总结。
到了现代统计学中,分析开始转为了对现象的细分描述和表达,因为大家发现总结的经验很多时候可能过于片面了,比如在塔勒布(纳西姆·尼古拉斯·塔勒布,黑天鹅的作者)曾经在他另外一本知名的书籍《随机致富的傻瓜》里面曾经讲过这样一个故事:
一个原始人在摸鼻子的时候,突然天下雨了,然后这个原始人就认为人类摸鼻子与下雨有必然的因果关系,之后还发展出了一整套摸鼻子祈雨的仪式……
所以,现代数据分析更偏重于对于数据本身的描述,比如下面这张大家都很熟悉的分析图:
这是一张2000年的美国人口统计图,不管是谁,第一眼看见这张图的时候,都会惊叹于制图专家们的职业水准与创意,以及专题图所表达出来的丰富含义和特征,一张图给我们带来的灵感和认知,是一个二维表格永远无法办到的。当然,很多时候我也经常用这种图来说明地理可视化可以给我们带来的令人眼前一亮且印象深刻的效果。
但是,有一个最核心的地方需要绝对的强调:数据可视化,不是分析!可视化不是分析,可视化不是分析……重要的事情说三遍。
诚然,可视化能够给我们带来一些分析的结果,但是可视化仅仅是表达数据的一种方式,仅仅是数据分析的一个辅助过程,绝对不能狭义的将分析直接理解为可视化,更不能将整个统计过程理解为可视化。
可视化的这些图形可能会给我们揭示了一些数据之间的特征,比如差异或者数据的相关性什么的。但是,要得出存在这些差异和相关性是不是可靠结论,多大程度上有意义, 还需要运用统计的方法(置信度、似然度等)。 而且要解释数据真正的意义,还需要各种分析的技能,专业的知识以及对结论的解读能力。
比如上面美国人口专题统计图,我们在图上能够清晰的看出美国的三大人口重心:东海岸的纽约,东中部的芝加哥和西海岸的洛杉矶,也能够很明晰的看出美国的人口分布呈现的哑铃状结构。然后呢?
如果更仔细的观察,会发现美国大部分城镇的分布,都呈现出线性分布的特性,越往中部,这种分布越明显,这又是为什么呢?
答案是美国并没有像我们中国一样的省市县乡村这种政治意义上的行政区划,他们是以“人口聚居区”为基本单位进行划分治理的。
这些城镇的形成,大多是在东部向西部的移民过程中,迁徙的移民们沿着道路,走到一个地方,发现这个地方水草丰茂,土地肥沃,而且还没有主人(印第安人不算),然后就说,咱们不走了,就留在这里吧。
开始只有一两户,随着人越来越多,就慢慢形成了一个聚居区。然后大家发现,我们人多了,没有道路,晚上出门也没有路灯,太不方便,所以我们几户就坐在一起说:我们来选举一个镇(村)长吧,这样把这些事情给管起来……这样,就形成了一个具有政治架构的城镇了。
一般遇上这种事,你只好念上两句诗:
然后就上任了……
实际上上面几段,抛开掉搞笑的部分不谈,就是所谓的分析过程和结论了,分析需要在描述数据基础上,说明数据背后的故事,而这个故事可以是解释数据为什么会形成如此的分布和趋势,也可以是阐述这种情况出现的原因,这样的论述,才是所谓的分析。也就是我们从小学开始,语文老师就一直在强调的读书读作者想要表达的思想。
待续未完。