人人挂在嘴边的数据分析,到底包含哪些方面?学好 Python 真的就能做好数据分析吗?
数据分析,拆开来看其实是几个方面:
工具、理论、业务
工具,指的是我们从事数据分析所使用的具体工具,如 SQL、Excel、Python、R、SAS等;
理论,指的是我们从事数据分析时所依赖的理论基础,如概率论、统计学、机器学习及相关的建模和分析框架;
业务,指的是数据分析落地的具体场景,输入和输出以及要解决的具体问题。
工具和理论都是比较容易速成的,这也是为什么各类网课主要集中在这些领域。
业务是依赖于在行业的经验,因此,转行最好先在同行业里面转,可以借用之前对于行业的业务理解,快速上手。
以上三个方面固然重要,但并不是数据分析的全部。
数据玩家还想再加一个维度,就是思维模式。
也就是,我们除了数据分析的工具、理论以及业务知识,还需要具备数据分析的思维。
那么什么叫做数据分析思维呢?
我认为可以分为三个方面:
第一 定量思维
迪斯尼通过草坪规划道路的故事大家也许都听过:
在迪斯尼乐园提前开放的半年里,草地被踩出许多小道,这些踩出的小道有宽有窄,优雅自然。第二年,格罗培斯让人按这些踩出的痕迹铺设了人行道。1971年在伦敦国际园林建筑艺术研讨会上,迪斯尼乐园的路径设计被评为世界最佳设计。
后来,迪斯尼还推出了 MagicBand,这个手环可以在园内支付,可作为酒店房卡,可以用来当 FastPass,可以用来停车等等,通过这些环节收集的数据,就可以知道哪几个项目最热门,哪几个项目不太热门,什么位置餐厅人满为患,说明还需要增加配置,什么地方餐厅无人问津,可能要做优化……
等等,时间一长,积累的数据就有了各种价值,看起来无法测量的东西,通过巧妙的收集数据,都可以测量。
这就是数据思维第一条,定量思维:万物皆可测。
第二 相关思维
大数据时代,随着算力的不断加强,原来小样本的计算已经可以升级为全样本计算,并且可以发现变量间的相关关系,用来代替原来小样本中推导出的因果关系。
最经典的例子就是08年的 Google Flu:
Google流感趋势(Google Flu Trends,GFT)是Google于2008年推出的一款预测流感的产品。Google认为,某些搜索字词有助于了解流感疫情。Google流感趋势会根据汇总的Google搜索数据,近乎实时地对全球当前的流感疫情进行估测
一个搜索行为,和一个疾病的发生,看似不相关的两件事情,存在强相关,这在原来是不可想象的。
不过,尽信数据不如无数据,一定要找到业务含义。
就拿 Google Flu 来说,在研究成果公布以后,研究人员发现结果不再准确了。经过反复确认和调研,发现因为很多人得知了这项成果,抱着好奇的心态尝试搜索关键字——尽管他们周围并未出现相关病例,导致预测结果不再准确。
当你观测的对象知道你在观测他的时候,观测结果就不再准确了。
这是数据思维的第二条,相关思维:万物皆可连
第三 实验思维
告别拍脑袋决策,告别依赖个人审美决策,告别依赖个人经验决策,通过实际的数据表现来决策。同时,根据实验结果不断的迭代和优化模型。
当然,实验的前提是测量,必须先将所有实验的数据采集下来,才能根据实验数据进行决策,同时,根据数据分析的结果,可能某些人群针对某个方案更加有效,这又会用到相关思维,即某些要素的相关性决定了最后的数据表现。
这是数据思维的第三条,实验思维:万物皆可试
通过以上三个思维模式,我们可以将实际中的业务问题进行拆解,转化为数据分析问题。
举个栗子
这么说可能还是比较抽象,具体来看看如何应用。
在广告营销领域,有一个著名的说法:
这是相当长的一段时间,广告营销行业最大的痛点,蒙着眼睛放广告,来了客户也不知道是广告带来的,还是自己找上门来的,或者其他渠道推荐来的。
那么,用上数据分析思维的广告营销,会变成什么样子呢?
运用定量思维,那就是营销效果要可以度量。一个广告投出去,我需要知道到底带来了多少转化,每个渠道的转化率怎样,以及这些客户的后续活跃程度如何,是不是假量?是不是羊毛党?是不是僵尸户?等等。
那么如何度量呢?我们自然可以想到,要检测转化率,那就要对每个渠道进来的客户打标签,定期出报表,监控每个标签下客户的活跃情况等等,自然的就形成了客户分群经营,分群营销,分群活动投放等等策略。
运用相关思维,那就是通过相关性分析,使得广告的投放更加精准。减少无效的广告投放,在更相关的人群上投放他们感兴趣的广告,提升转化率,节省营销费用。
那么如何进行相关性分析呢?通过前期采集的数据,使用 Apriori 、Collaborative Filtering 等算法,找出用户特征、用户行为及其最终购买之前的相关关系,从而优化投放及推荐模型。
运用实验思维,那就是通过实验,判断哪个投放模型更优,哪个投放渠道更优,同时根据反馈不断迭代和优化模型。
那么如何进行实验呢?自然是通过 A/B Test 方法,随机均分流量到不同的投放模型上,同时采集客户的反馈,不断的根据反馈迭代和优化模型。
总的来说,做好数据分析,除了掌握工具、理论和业务,还需要具备数据分析的思维,有了数据分析的思维框架,更容易将业务、理论和工具贯通,形成自己的数据分析框架,更好、更有效的进行数据分析工作。