python+数据处理+书籍推荐数据处理 python

转载

mob64ca13fa2f9e 2023-08-13 13:24:07

文章标签 python+数据处理+书籍推荐 python数据处理应做什么数据缺失值字段 文章分类 Python 后端开发

在使用Python前，首先要了解数据分析是用来做什么的，数据分析顾名思义就是利用数据解释现象，并分析现象的原因，那用来分析的数据必须是可靠的，才能准确的支持分析结果，但往往在数据收集阶段有许多原因导致数据集较为混乱，所以在拿到数据后首先要进行的就是数据的清洗：数据集多少数据？包含了什么字段？字段格式是什么？字段分别代表什么意义？字段之间的关系是什么？可以用做什么分析？或者说能否满足了对分析的要求？有没有缺失值；如果有的话，缺失值多不多？现有数据里面有没有脏数据？尤其需要注意人工输入的数据，经常会出现名称写错，多输入空格等等的情况，这些工作一般占据了数据分析60%的时间，磨刀不误砍柴工，只有处理好了数据才能，继续向下进行分析。

以药店分析数据为例：

首先安装需要的工具包pandas，定义一个字典安装工具包定义字典

查看数据的基本信息：有多少行，多少例查看每一列的数据类型

了解了一些基本的信息后，就可以对需要的数据来做手脚了：

1、选择子集

有时候原始数据过于庞大，有很对是不需要的信息，我们就通过子集的方式来减少数据的范围本次案例不需要选择子集，这是一个例子

2、列重命名

将列名称更改

3、缺失数据处理

数据源因为会有记录错误等情况，会导致存在缺失数据，需要删除缺失数据

python缺失值有3种：

1）Python内置的None值

2）在pandas中，将缺失值表示为NA，表示不可用not available。

3）对于数值数据，pandas使用浮点值NaN（Not a Number）表示缺失数据。删除缺失值，会使索引序号不连续，这里用reset_index重置索引

4、数据类型转换

通过自定义函数，将数据分割并转为一维数据Serise类型

再对销售日期这一列进行赋值修改，得到我们想要的销售日期

再将数据类型调整成我们需要的，便于后续计算

5、数据排序

按照需求对数据进行排序

‘by’：按哪几列排序

‘ascending=True’：升序排列

重新排序后会使索引序号不连续，记得用reset_index重置索引

6、异常值处理

最后使用使用筛选数据的语法来选择我们想要的数据销售数量大于0

以上就是数据清洗的6个步骤

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mysql语句运行 mysql运行机制

下一篇：java程序员专业网站推荐 java程序员论坛

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python+数据处理+书籍推荐 数据处理 python

python+数据处理+书籍推荐 数据处理 python

51CTO博客

python+数据处理+书籍推荐数据处理 python

python+数据处理+书籍推荐数据处理 python