Datawhale 零基础入门数据挖掘-Task 2 数据分析

EDA分析

  • EDA步骤
  • 其他工作

EDA分析

探索性数据分析(Exploratory Data Analysis,简称EDA)是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是党我们对面对大数据时代到来的时候,各种杂乱的“脏数据”,往往不知所措,不知道从哪里开始了解目前拿到手上的数据时候,探索性数据分析就非常有效。探索性数据分析是上世纪六十年代提出,其方法有美国统计学家John Tukey提出的。 Howard Seltman 探索数据分析的英语文档

EDA步骤

1、Form hypotheses/develop investigation theme to explore形成假设,确定主题去探索 2、Wrangle data清理数据 http://vis.stanford.edu/wrangler/ https://www.trifacta.com/products/wrangler/ https://www.douban.com/note/501799325/ 3、Assess quality of data评价数据质量 4、Profile data数据报表 5、Explore each individual variable in the dataset探索分析每个变量 6、Assess the relationship between each variable and the target探索每个自变量与因变量之间的关系 7、Assess interactions between variables探索每个自变量之间的相关性 8、Explore data across many dimensions从不同的维度来分析数据

其他工作

1、写出一系列你自己做的假设,然后接着做更深入的数据分析 2、记录下自己探索过程中更进一步的数据分析过程 3、把自己的中间的结果给自己的同行看看,让他们能够给你一些更有拓展性的反馈、或者意见。不要独自一个人做,国外的思维就是知道了什么就喜欢open to everybody,要走出去,多多交流,打开新的世界。 4、将可视化与结果结合一起。探索性数据分析,就是依赖你好的模型意识,(在《深入浅出数据分析》P34中,把模型的敏感度叫心智模型,最初的心智模型可能错了,一旦自己的结果违背自己的假设,就要立即回去详细的思考)。所以我们在数据探索的尽可能把自己的可视化图和结果放一起,这样便于进一步分析。

关于其他EDA相关的,可以在这里看到