大家好
基础知识在数据分析中就像是九阳神功,熟练的掌握,加以运用,就可以练就深厚的内力,成为绝顶高手自然不在话下!
为了更好地学习数据分析,我对于数据分析中pandas这一模块里面常用的函数进行了总结。整篇总结,在详尽且通俗易懂的基础上,我力求使其有很强的条理性和逻辑性,所以制作了思维导图,对于每一个值得深究的函数用法,我也会附上官方链接,方便大家继续深入学习。
文章中的所有代码都会有讲解和注释,绝大部分也都会配有运行结果,这样的话,整篇总结篇幅量自然不小,所以我分成了上下两篇,这里是上篇,下篇在次条。
1. 导入模块
2. 创建数据集并读取
2.1 创建数据集
我构造了一个超市购物的数据集,该数据集属性包括:订单ID号(id)、订单日期(date)、消费金额(money)、订单商品(product)、商品类别(department)、商品产地(origin)。
输出结果:
2.2 数据写入和读取
3. 数据查看
3.1 数据集基础信息查询
3.2 数据集整体情况查询
4. 数据清洗
4.1 查看异常值
当然,现在这个数据集很小,可以直观地发现异常值,但是在数据集很大的时候,我用下面这种方式查看数据集中是否存在异常值,如果有其他更好的方法,欢迎传授给我。
输出结果:我们发现,该数据集中money存在一个负值,department存在一个空值以及origin存在大小写问题。
4.2 空值处理
4.2.1 空值检测
data.isnull()# 查看整个数据集的空值data['department'].isnull()# 查看某一列的空值
输出结果:
将空值判断进行汇总,更加直观,ascending默认为True,升序。
输出结果:
更多关于pandas.DataFrame.sort_values的用法,戳下面官方链接:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html
4.2.2 空值处理
- value:用于填充的值,可以是具体值、字典和数组,不能是列表;
- method:填充方法,有 ffill 和 bfill 等;
- inplace默认无False,如果为True,则将修改此对象上的所有其他视图。
更多关于pandas.DataFrame.fillna的用法,戳下面官方链接:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html
输出结果:
输出结果:
4.3 空格处理
只针对object类型数据
输出结果:array([‘China’, ‘America’, ‘Thailand’, ‘america’, ‘Japan’], dtype=object)
4.4 大小写转换
4.5 数据替换
输出结果:
输出结果:
4.6 数据删除
方法一
方法二
输出结果:
输出结果:
更多关于pandas.DataFrame.drop_duplicates的用法,戳下面官方链接:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html#pandas.DataFrame.drop_duplicates
4.7 数据格式转换
常见的数据类型对照
4.8 更改列名称
输出结果:
思维导图
参考资料:
- pandas官网
- pandas用法总结
- Pandas 文本数据方法