数据清洗mongodb mysql 数据清洗的基本流程_数据清洗mongodb mysql


通过对《谁说菜鸟不会数据分析》的阅读,我们知道数据分析的一般流程为:

  • 明确分析目标——一切以目标为导向;
  • 确定分析思路;
  • 数据获取;
  • 数据处理:清洗,转化,提取,计算等;
  • 数据分析及可视化;
  • 报表撰写;

这就是数据分析的一般流程,本章我们就讲一下各个流程中的大体过程,重点在确定分析思路和数据处理的方面。


明确分析目标 & 确定分析思路

明确分析目标,便是不断追问,确定分析的目的是什么,用以指引自己做下面的数据分析;

确定分析思路,这一部分对应秦路老师的第三周的内容“分析思维的训练”。分析思维这个事情很玄妙,难以说清,大多引用秦路老师的见解。

首先,学习《金字塔原理》(个人觉得这本书思想很好,但内容杂沓,可参考秦路老师的总结),学会绘制思维导图(推荐前期在纸上画),每天结构化地思考一个问题,用以锻炼;

然后,可以了解SMART,5W2H,SWOT,4P理论,漏斗图分析等经典框架;数据分析师的思考和咨询行业中思考是基本相同的,故可参考很多咨询面试的题目,搜索Case book来练习;

经过不断的练习和顿悟,你慢慢就会掌握如何结构化地进行分析思考。

Ps:关于如何结构化思考,我进行过一些总结:怎么提高思考能力?,希望对你有帮助;

数据获取

数据一般来自数据库,埋点采集日志,爬虫等以及把它们整理到一起的数据仓库;

对数据库或数据仓库中数据的获取,用到的主要工具是SQL,便是我们下一阶段要学习的主要内容;

数据处理

目的:对有用的字段进行处理,得出数据分析需要的表;

过程:

0,对要分析的字段进行选择和筛选;

1,查看数据特征:数据量大小,内容是否规范,是否有空值;

2,弄明白字段间关系(一对多,一对一,唯一字段),对重复值进行处理;

3,查看关键字段的分布,对异常值和缺失值进行处理;

分布:
自身分布:箱型图(四分位数),直方图;
随其他变量变化:折线图,柱状图;
先异常值(异常值可能有一定的意义不能忽略):
发现:三倍标准差;箱型图(1.5倍IQR,比较常用);
处理:删除,拉格朗日插值法;
再缺失值:
发现:不同工具的方法不同;
处理:删除(空值比较少),填充(平均值,临近值,拉格朗日插值法)。
Ps:先处理异常值,因为缺失值常用均值或插值法,留有异常值会带来不准确;

4,数据加工

字符串或文本的清洗;新字段的计算;分类字段值化(特征工程常用,把分类转化为one-hot编码);

5,通过数据匹配来合并表格,通过分类汇总来得到最后需要分析的表格形式;

考虑最后要主要分析围绕什么维度,以此来设计最终汇总表格行字段和列字段;

其他数据处理:

数据分组;标准化(0-1标准化,Z标准化);机器学习中的特征工程等;

数据分析及可视化

数据分析围绕分析思路展开即可,具体的方法参考工具的特性,比如:Excel常用透视表;Python常用pandas中groupby函数等;

这个阶段会涉及到一些统计学的基础知识,包括如何选择图表等,我们会在后续文章中讲述;

报表撰写:

我们这里提到的报表,主要是单一深入报表,比如针对数据指标变化进行原因分析,或者对运营活动进行评估分析。

主要用到的工具为Power Point,可参考:性价比最高的PPT制作方案

数据分析报告结构:

1,标题页:基本观点,问题,主题;

2,目录:

3,前言:分析背景与目的;分析思路;

4,正文:图文结合,包含数据分析事实和观点;

5,结论&建议;

6,附录;

具体可以参考《谁说菜鸟不会数据分析(入门篇)》“专业的报告”章节;


这就是数据分析的六大常规流程,推荐多次阅读和理解哈,尤其是分析思路部分~