一、数据分析步骤

  1. 明确问题:知道你要研究什么问题,从而有目地的查找数据
  2. 理解数据:寻找与问题相关的数据;从数据中你能得出的信息;理解字段信息
  3. 数据清洗(数据预处理):选择子集;列名重命名;删除重复值;缺失值处理;一致化处理;数据排序;异常值处理
  4. 数据分析或构建模型:数据透视表;在Excel安装数据分析功能(安装步骤:文件~选项~加载项~Excel加载项 转到~分析工具库,注意!这是Microsoft Excel,不是WPS)
  5. 数据可视化:图表

二、案例实操

本文是对上一篇文章《描述性统计(案例练习)》提出的问题进行分析,在上一篇文章已完成明确问题和理解数据两个步骤,本章将进行数据清洗、数据分析、数据可视化

(一)上一篇文章问题回顾

表1 购买商品

  • 哪种产品购买量最多(auction_id;buy_mount)
  • 在一级分类中哪一类购买量最多(cat1_id;buy_mount、)
  • 在二级分类中哪一类购买量最多(cat_id;buy_mount)
  • 哪一天产品购买量最多(day;buy_mount)
  • 运用标准差判断每天卖出商品量的稳定性(day;buy_mount)

表2 婴儿信息

  • 分析婴儿的平均年龄(birthday)
  • 男女婴儿的比例分布(gender)

(二)数据清洗

1.选择子集

对问题中不涉及的数据进行隐藏处理,注意不是删除,隐藏可以保证数据的完整性,在本次电商数据中,属性数据没有涉及,所以将其隐藏。

2.列名重命名

可将列名改为自己熟悉的形式,如user_id可以改为其中文形式“用户”。

3.删除重复值

虽然用户id和物品编号都是唯一的,但是存在同一用户购买不同物品,不同用户购买同一物品的现象,所以在删除重复值时,应将两个条件都选中,结果如下(仅截取部分数据)。




EXCEL插数据分析插件 excel如何加载数据分析模块_标准差


由上图知,并未发现重复值。

4.缺失值处理:

通过定位条件查找和筛选功能得出仅有“属性”存在数据缺失,但因所研究问题并不涉及“属性”,所以占不考虑。

5.一致化处理

因研究问题中有对婴儿年龄进行分析,需要将生日转换为年龄,所以需要对日期进行处理,方便之后的函数计算,同时需注意此处的年龄是用户购买商品时婴儿的年龄,而非你此刻分析数据时婴儿的年龄,所以需用vlookup函数导入表1的日期,而非用today函数,处理结果如下(仅截取了部分数据)。

原数据中的日期


EXCEL插数据分析插件 excel如何加载数据分析模块_标准差_02


处理后的日期


EXCEL插数据分析插件 excel如何加载数据分析模块_wps2019数据分析加载项_03


vlookup函数


EXCEL插数据分析插件 excel如何加载数据分析模块_数据_04


6.数据排序

可以根据需求对数据进行升序或降序处理,方便问题研究。

7.异常值处理

通过对婴儿出生日期进行筛选,可发现出生日期基本在2000以后,但有一婴儿的出生日期缺在1984年,可判断为异常值,见下图。


EXCEL插数据分析插件 excel如何加载数据分析模块_数据分析_05


EXCEL插数据分析插件 excel如何加载数据分析模块_wps2019数据分析加载项_06


为保证原始数据的完整性,需复制粘贴除异常值的数据到新表格,可取名为“数据清洗”。

(三)数据分析及数据可视化

1.数据透视表

哪种产品购买量最多、在一级分类中哪一类购买量最多、在二级分类中哪一类购买量最多、哪一天产品购买量最多,这4个问题处理方法基本一致,以“哪种产品购买量最多”这一问题为例。

因为不同的用户会购买相同产品,所以会出现这种现象,如下图(仅截取了部分数据)


EXCEL插数据分析插件 excel如何加载数据分析模块_数据_07


因为数据量较多,所以单纯的把相同物品编号加起来非常麻烦,但用数据透视表就方便很多,它会自动对相同物品编号求和,如下图(仅截取了部分数据)


EXCEL插数据分析插件 excel如何加载数据分析模块_数据分析_08


操作步骤:插入~数据透视表(最好新建一个表)~将“auction_id物品编号”放入行标签;“buy_mount购买数量”放入数值。

还可对购买数量进行排序。

操作步骤:行标签~其他排序选项~升序/降序,下拉选择“求和项:buy_mount购买数量”~确定

2.Excel里的数据分析

“运用标准差判断每天卖出商品量的稳定性”这一问题需用到Excel里的数据分析,本身Excel里是没有的,需要自己添加,具体步骤已写在文章开头,操作结果如下


EXCEL插数据分析插件 excel如何加载数据分析模块_数据分析_09


分析:由上图可知,每天卖出商品的数量波动挺大的。标准差360.533265(注意!标准差越小越好),而最大值10061,最小值仅为1。

3.函数

“分析婴儿的平均年龄”这一问题需要用到DATEDIF函数、AVERAGE函数,同时有些用户是在婴儿出生前购买的,所以计算结果会出现#NUM!,可将其改为0,具体如下(仅截取了部分数据)


EXCEL插数据分析插件 excel如何加载数据分析模块_数据分析_10


这里的年龄单位选择的是天


EXCEL插数据分析插件 excel如何加载数据分析模块_标准差_11


666.6785714取整为667,667天大约为1岁10个月

“男女婴儿的比例分布”这一问题需用到IF函数、COUNTIF函数(仅截取了部分数据)


EXCEL插数据分析插件 excel如何加载数据分析模块_数据分析_12


EXCEL插数据分析插件 excel如何加载数据分析模块_wps2019数据分析加载项_13


男女婴儿比例分布如下图所示


EXCEL插数据分析插件 excel如何加载数据分析模块_数据分析_14


四、总结

表1 购买商品

  • 哪种产品购买量最多(分析方法:数据透视表)
  • 在一级分类中哪一类购买量最多(分析方法:数据透视表)
  • 在二级分类中哪一类购买量最多(分析方法:数据透视表)
  • 哪一天产品购买量最多(分析方法:数据透视表)
  • 运用标准差判断每天卖出商品量的稳定性(分析方法:Excel里的数据分析)

表2 婴儿信息

  • 分析婴儿的平均年龄(分析方法:DATEDIF函数、VLOOKUP函数、AVERAGE函数)
  • 男女婴儿的比例分布(分析方法:IF函数、COUNTIF函数;数据可视化)