一、Numy和Pandas包
numpy和pandas是数据分析绝对绕不过的工具包。numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效。pandas是基于numpy的数据分析工具,能更方便的操作大型数据集。
以下是对numpy和pandas的基础知识的总结:

二、数据分析过程
数据分析过程如下:

三、实际数据分析
本文以朝阳医院2018年药品销售数据为例,利用上述分析工具,按照完整的分析流程进行数据分析。
1、提出问题
数据分析的首要任务就是明确分析的目标,即需要分析什么,分析的目的是什么。实际工作中需要和业务部门进行沟通确定分析的任务。本次练习中需要分析的指标有月消费次数、月均消费金额、客单价以及消费趋势。
2、理解数据
利用pandas包对数据进行查看,了解数据的基本情况。
3、数据清洗
(1)选择子集
本次案例对全部数据进行分析,因此不需要选择子集。
(2)列名重命名
将‘购药时间’改为‘销售时间’
4、数据分析
通过上述的数据处理工作,得到了分析中想要的数据。接下来利用这些数据计算分析问题中的指标。
















