经典的Excel数据分析实战案例_截取时间数据


这是小编学习数据分析过程中,利用Excel对数据进行清洗,分析,可视化的一次练习。

数据分析师,有一项必不可少的技能要求就是会 Excel 做数据清洗、建模和分析,现在就用 Excel 来实战分析数据分析师的招聘需求如何。用到的是 Windows版 Excel 2016。

原始的数据如下


经典的Excel数据分析实战案例_截取时间数据_02


第一步,明确分析问题

要分析数据分析师岗位的招聘需求可以从2个维度来思考这个问题

1. 城市需求分布如何

2. 薪资分布如何

第二步,数据清洗

数据清洗是数据分析非常重要的一环,做好数据清洗的目的:是保证数据的准确度,才能让我们进行数据分析的下一步骤,数据清洗的步骤是数据分析中最花费最花费时间的步骤,但是必不可少,数据清洗除了利用Excel进行,也可以利用Python进行。两者最大的差异便是效率与自动程度,本文采用Excel进行数据分析。

1. 理解数据,选择重点分析对象

得到原始数据后,第一步是要理解每一列的数据表示含义,即每一个字段的含义,因为在不同的业务模式中,字段的含义也不尽相同,我们需要先理解好数据含义

第二步:需要我们选择出重点的分析对象,将无关紧要或者意义重复的列进行隐藏(最好是隐藏,不要删除数据,这是为了保留数据的完整性)。

2. 删除重复值、处理缺失值

本数据中发现一个 “职位ID” 对应一个职位,所以只要去看 “职位ID“列 里面的 “职位ID” 有没有重复值,有的话就把重复值删除。

具体操作如下:

选择:数据 > 删除重复项 > 选择列,出现以下图示:

Ps:选择的时候,可以勾选数据是否包含标题来帮助自己选择数据


经典的Excel数据分析实战案例_字符串_03


点击确认后,会自动删除有重复值的那一整行,如下图:


经典的Excel数据分析实战案例_数据分析_04


重复值删除后,若此列的值共有 A 个,其他分析列的值小于 A 个,就需要将有缺失值的列补全。比如此表发现 “城市” 列有缺失,选中 “城市” 列,使用定位功能,定位 “空值”,就可以将缺失值的单元格找出来,定位功能的快捷键是 Control + G,选择定位条件


经典的Excel数据分析实战案例_数据_05


找出空值的单元格后,如果需要输入在所有空格中的内容一致,则在第一个空格中输入内容后按住 Control + Enter 就可以自动将所有空值单元格补全,如果需要输入在空格的内容不一致,则可以使用筛选功能筛选出空格,再进行填充。

处理缺失值有四种办法:

· 通过人工手动补全

· 删除缺失数据

· 用平均值代替缺失值

· 用统计模型计算出的值代替缺失值

3. 数据一致化处理

一致化是什么意思?就是把所有的数据处理成容易使用公式或者数据透视表的形式。

举例1,在 “公司所属” 列中,大部分公司从属一个行业,小部分公司从属两个行业,此时就需要将这两个行业分隔开来。此时需要用到的功能是 “分列”,一般需要将需要分列的列粘贴到最后一列,这样分割出来的列有足够的空间,不会遮挡原本单元格内容,操作如下图:

先选中你要分分列的那一行:


经典的Excel数据分析实战案例_数据分析_06


选择:数据 > 分列 > 分隔符号 > 填写分隔符号:


经典的Excel数据分析实战案例_经典的Excel数据分析实战案例_07


经典的Excel数据分析实战案例_数据_08


注:如果原单元格内容是 “A,B”,用分隔符 “,” 分列后成 A、B 两列;如果原单元格内容是 “A,B,C”,用分隔符 “,” 分列后成 A、B、C 三列。

举例2,我们需要分析薪水的水平如何,但是 “薪水”列中,薪水是使用一个区间表示的,这时需要把最低薪水和最高薪水分隔开来,才能更好的直接使用图表查看薪水情况,这里需要用到函数 Find 和 Left/Mid/Right 和 Len。

Find 函数,用于查找一个字符串在另一个字符串中出现的位置,公式为:

Find("需要查找的字符串”,单元格)

Left/Mid/Right 函数,用于截取字符串内容,分别表示从左中右截取,公式为:

Left(字符串所在单元格,从左开始到##位置进行截取)

Right(字符串所在单元格,从右开始在##位置进行截取)

Mid(字符串所在单元格,开始位置,截取长度)

Len 函数,用于计算文本串的字符个数,公式为:

Len(文本串)

所以如下图所示,最低薪水和最高薪水计算公式为:


经典的Excel数据分析实战案例_数据分析_09


经典的Excel数据分析实战案例_数据_10


公式完后,用筛选功能检查数据是否全部都截取正常,发现 “最低薪水”列 有不能显示的值,如下图:


经典的Excel数据分析实战案例_经典的Excel数据分析实战案例_11


此时需要找出问题在哪,既然公式是正确的,那去查看原本的字符串是否有问题,发现这些不能显示的值对应的 “薪水”列中都是大写的 “K”,而前面用到的公式中都用的小写的 “k”,此时使用替换功能将 K 替换为 k 即可。或者是修改公式中的小k为K,保持保证公式与数据统一就OK了。


经典的Excel数据分析实战案例_字符串_12


在最高薪水列,也有不能显示的值


经典的Excel数据分析实战案例_数据_13


此时可看到,因为没有最高薪水所以显示不出来,处理办法可用最高薪水=最低薪水,来弥补这些缺失值。

计算完成后,将最低薪水和最高薪水复制,选择性粘贴“值”到另两行之后可以计算平均值,并降序排列。(注意粘贴完后需要将数值的 “文本”格式改成 “数字”格式)

按照以上步骤,分析好的数据如下


经典的Excel数据分析实战案例_字符串_14


4. 异常值处理

“职位名称”列 中有非常多的职位名称,但我们需要分析的是数据分析类岗位,所以需要选择出与数据分析类岗位匹配的 “职位名称”。此时需要用到数据透视表功能。

插入数据透视表后,如下图所示处理,


经典的Excel数据分析实战案例_经典的Excel数据分析实战案例_15


接着将 “职位名称” 按计数项降序排列,如下图


经典的Excel数据分析实战案例_经典的Excel数据分析实战案例_16


挑选计数最多的职位名称里面的关键词,可看出为“数据分析”,“分析师”,“数据运营”为三个关键词,于是回到原表,在 “职位名称” 后插入新列,选择出 ”职位名称” 里包含这些关键词的职位,此时需要用到 Find 和 Count 和 If 函数。

Count 函数,用于返回某一区域中数值的个数,公式为:

Count(区域)

If 函数,用于验证一个条件是真是假,公式为:

If(条件判断,结果为真显示值,结果为假显示值)

if与count经常嵌套,表示查找某单元格是否包含某字符串,此案例的公式如下图:


经典的Excel数据分析实战案例_字符串_17


筛选 “是” 的所有数据,复制到新表中,作为已经清洗好的数据备用。

第三步,构建模型

数据清洗完成后,需要做的是构建模型。数据分析一定是有目的的,所以在最开始就提出的分析目标非常有助于建模。利用数透功能可得以下数据透视表:


经典的Excel数据分析实战案例_经典的Excel数据分析实战案例_18


经典的Excel数据分析实战案例_字符串_19


经典的Excel数据分析实战案例_数据分析_20


第四步,数据可视化

根据上一步操作得出的数据透视表,作出以下可视化图表:


经典的Excel数据分析实战案例_截取时间数据_21