推荐数据汇总资源:

常用的数据获取方式如下:

数据分析架构有哪些 数据分析框架图_数据库


数据存储与提取

数据库这个技能放在这里,是因为这是数据分析师的必备技能。大多数的企业,都会要求你有操作、管理数据库的基本技能,进行数据的提取和基本分析。SQL作为最经典的关系型数据库语言,为海量数据的存储与管理提供可能。MongoDB则是新崛起的非关系型数据库,掌握一种即可。

初学建议SQL。你需要掌握以下技能:

1.查询/提取特定情况下的数据:企业数据库里的数据一定是巨量而繁复的,你需要提取你想要的那一部分。

比如你可以根据你的需要提取2017年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……

2.数据库的增、删、改:这些是数据库最基本的操作,但只要用简单的命令就能够实现。

3.数据的分组聚合、建立多个表之间的联系:这个部分是数据库的进阶操作,多个表之间的关联。

在你处理多维度、多个数据集的时候非常有用,这也让你可以去处理更复杂的数据。

数据库听起来很可怕,但其实满足数据分析的那部分技能不要太简单。当然,还是建议你找一个数据集来实际操作一下,哪怕是最基础的查询、提取等操作。

推荐数据库教程:

SQL-菜鸟教程 https://dwz.cn/a042MLdz

MongoDB-菜鸟教程 https://dwz.cn/sJFhRzj1

mySQL知识框架如下:

数据分析架构有哪些 数据分析框架图_Python_02


MongoDB知识框架如下:

数据分析架构有哪些 数据分析框架图_数据库_03


数据清洗及预分析

很多时候我们拿到的数据是不干净的,数据的重复、缺失、异常值等等。这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。比如空气质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。比如用户行为数据,有很多无效的操作对分析没有意义,就需要进行删除。

·选择:数据访问(标签、特定值、布尔索引等)

·缺失值处理:对缺失数据行进行删除或填充

·重复值处理:重复值的判断与删除

·空格和异常值处理:清楚不必要的空格和极端、异常数据

·相关操作:描述性统计、Apply、图形绘制等

从数据处理开始,就需要介入编程知识了,但不必把Python的教程完全啃一遍,只需要掌握数据分析必备的那部分即可。

·基本的数据类型:比如字符串、列表、字典、元组,不同的数据类型如何创建、进行增、删、改等操作,以及其中常用的函数及方法;

·Python函数:学习如何去创建自己的函数,实现更丰富的定制化程序,知道在使用中如何调用;

·控制语句:主要是条件语句和循环语句,利用不同的语句对流程进行控制,这是实现程序的自动化的基础。

Python教程推荐:

Python3-菜鸟教程 https://dwz.cn/2nJnWkrp

Python练手项目合集 https://dwz.cn/cpM0jua5

Python基础知识框架如下:

数据分析架构有哪些 数据分析框架图_数据库_04


另外,Python中两个非常重要的库Numpy和Pandas也是需要掌握的,我们的很多数据处理及分析方法就源于其中。如果把Python比作是我们的房子,为我们提供基础的框架,那么Numpy和Pandas就是房子里的家具和电器,为我们入住提供各种功能。当然,即便只是这两个库,官方文档的内容也是非常多的,建议先掌握最常用的一些方法,这样你可以解决大部分的实际问题,若后续遇到问题可以有针对性地去查询文档。

Numpy

·数组创建:从已有的数组创建、从数值范围创建

·数组切片:通过切片进行选择

·数组操作:元素增删、数组维度修改、数组的分割及连接

·Numpy函数:字符串函数、数学函数、统计函数

推荐Numpy文档:

Nump快速入门 http://h5ip.cn/ypHr

Numpy中文文档 https://www.numpy.org.cn/

Numpy知识框架如下:

数据分析架构有哪些 数据分析框架图_数据库_05


Pandas

·数据准备:数据读取、创建数据表

·数据查看:查看数据基本信息、查找空值和唯一值

·数据清洗:缺失值处理、重复值处理、字符处理

·数据提取:按标签值进行提取、按位置进行提取

·数据统计:采样、汇总、基本的统计量计算

推荐Pandas文档:

十分钟入门Pandas http://t.cn/EVTGis7

Pandas中文文档 https://www.pypandas.cn/

Pandas知识框架如下:

数据分析架构有哪些 数据分析框架图_数据库_06