一、Numy和Pandas包

numpy和pandas是数据分析绝对绕不过的工具包。numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效。pandas是基于numpy的数据分析工具,能更方便的操作大型数据集。

以下是对numpy和pandas的基础知识的总结:

利用python进行数据分析 第二版 pdf 《利用python进行数据分析》_数据分析

二、数据分析过程

数据分析过程如下:

利用python进行数据分析 第二版 pdf 《利用python进行数据分析》_python_02

三、实际数据分析

本文以朝阳医院2018年药品销售数据为例,利用上述分析工具,按照完整的分析流程进行数据分析。

1、提出问题

数据分析的首要任务就是明确分析的目标,即需要分析什么,分析的目的是什么。实际工作中需要和业务部门进行沟通确定分析的任务。本次练习中需要分析的指标有月消费次数、月均消费金额、客单价以及消费趋势。

2、理解数据

利用pandas包对数据进行查看,了解数据的基本情况。

3、数据清洗

(1)选择子集

本次案例对全部数据进行分析,因此不需要选择子集。

(2)列名重命名

将‘购药时间’改为‘销售时间’

 

4、数据分析

通过上述的数据处理工作,得到了分析中想要的数据。接下来利用这些数据计算分析问题中的指标。