EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程。东哥这次分享3个EDA神器,其实之前每一个都分享过,这次把这三个工具包汇总到一起来介绍。1. Pandas_P...
转载
2022-06-04 00:03:42
217阅读
关于pandas的GUI工具,我之前介绍过pandasgui。可以说,有了GUI可视化界面,操作就和Excel一样简单,本次再介绍一款功能更加强大的GUI神器:D-Tale。这个库的名字为啥要D-Tale呢?东哥好信还去查了下,它是detail的谐音,初衷是要提供数据的所有详细信息。下面介绍下如何使用它。启动、数据加载D-Tal
转载
2021-12-30 11:27:25
123阅读
大家好,EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程。这次我分享3个EDA神器,其实之前每一个都分享过,这次把这三个工具包汇总到一起来介绍。 喜欢本文点赞、收藏、关注。⚠️注:文末提供技术交流群推荐文章有人把吴恩达老师的机器学习和深度学习做成了中文版上
原创
2022-03-04 13:59:54
165阅读
我们做数据分析,在第一次拿到数据集的时候,一般会用统计学或可视化方法来了解原始数据。了解列数、行数、取值分布、缺失值、列之间的相关关系等等,这个过程叫做 EDA(Exploratory Data Analysis,探索性数据分析)。如果你现在做EDA还在用pandas一行行写代码,那么福音来了!目前已经有很多EDA工具可以自动产出基础的统计数据和图表,能为我们节省
转载
2021-12-28 15:57:16
65阅读
1 简介随着其功能的不断优化与扩充,pandas已然成为数据分析领域最受欢迎的工具之一,但其仍然有着一个不容忽视的短板——难以快速处理大型数据集,这是由于pandas中的工作流往往是建立在单进程的基础上,使得其只能利用单个处理器核心来实现各种计算操作,这就使得pandas在处理百万级、千万级甚至更大数据量时,出现了明显的性能瓶颈。本文要介绍的工具modin就是一个致力于在改变代码量最少的前提下,调
原创
2021-01-20 10:34:32
320阅读
关于pandas的GUI工具,我之前介绍过pandasgui。可以说,有了G
转载
2022-11-29 19:35:34
118阅读
前言很多时候,我们使用pandas进行数据处理的时,并不是将数据写在脚本里,而是使用pandas读取数据文件,pandas可以很便捷地处理CSV格式的文件,本篇文章我们就来介绍一下pandas处理CSV文件的方法。关于CSV文件CSV(Comma-Separated Values,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。CSV
原创
2023-04-10 11:22:54
155阅读
前言“去重”通过字面意思不难理解,就是删除重复的数据。在一个数据集中,找出重复的数据删并将其删除,最终只保存一个唯一存在的数据项,这就是数据去重的整个过程。删除重复数据是数据分析中经常会遇到的一个问题。通过数据去重,不仅可以节省内存空间,提高写入性能,还可以提升数据集的精确度,使得数据集不受重复数据的影响。Panda DataFrame 对象提供了一个数据去重的函数 drop_duplicates
原创
2023-04-10 11:45:26
145阅读
Pandas reindex方法进行索引重置在数据分析和处理过程中,经常需要对数据进行索引的重置或重新排序。Pandas是一种功能强大的数据处理工具,其中的reindex方法可以帮助我们实现索引的重置操作。本文将介绍Pandas的reindex方法以及其在数据处理中的应用。引言在数据分析和处理中,索引的重置是一项常见任务。索引的重置可以按照特定的顺序重新排序数据,也可以生成新的索引标签以适应数据的
原创
2023-07-25 18:35:52
73阅读
前言 上一篇文章我们介绍了pandas的安装,并且写了一个简单的示例,本篇文章我们就开始学习pandas的数据结构。 数据结构-Series Pandas Series 类似表格中的一个列(colum
原创
2023-04-02 10:22:41
124阅读
前言 Python是非常适合用于数据分析的,除了Python代码简单以外,Python还有非常多的第三方库,对于数据分析有很大帮助,今天我们就介绍一下Python进行数据分析的神器——pandas。
原创
2023-04-02 10:23:24
62阅读
前言 很多时候,我们使用pandas进行数据处理的时,并不是将数据写在脚本里,而是使用pandas读取数据文件,pandas可以很便捷地处理CSV格式的文件,本篇文章我们就来介绍一下pandas处理C
原创
2023-04-21 06:28:22
77阅读
前言 前面我们介绍了pandas Series数据结构,本篇文章我们来介绍另外一种pandas数据结构——DataFrame。 DataFrame DataFrame 是一个表格型的数据结构,它含有一
原创
2023-04-21 06:28:29
63阅读
前言之前我们介绍了pandas处理时间以及pandas时间序列的内容,本文我们来介绍pandas处理时间差的有关操作。Timedelta 表示时间差(或者时间增量),我们可以使用不同的时间单位来表示它,比如,天、小时、分、秒。时间差的最终的结果可以是正时间差,也可以是负时间差。本文主要介绍创建 Timedelta (时间差)的方法以及与时间差相关的运算法则。创建时间差对象通过传递字符串可以创建 T
原创
2023-04-21 06:30:51
64阅读
前言当进行数据分析时,我们会遇到很多带有日期、时间格式的数据集,在处理这些数据集时,可能会遇到日期格式不统一的问题,此时就需要对日期时间做统一的格式化处理。比如“Friday, March 24, 2023”可以写成“24/3/23”,或者写成“03-24-2023”。日期格式化符号在对时间进行格式化处理时,它们都有固定的表示格式,比如小时的格式化符号为%H ,分钟简写为%M ,秒简写为%S。下表
原创
2023-04-21 06:31:15
113阅读
前言前面的文章中,我们讲解了pandas处理时间的功能,本篇文章我们来介绍pandas时间序列的处理。时间序列顾名思义,时间序列(time series),就是由时间构成的序列,它指的是在一定时间内按照时间顺序测量的某个变量的取值序列,比如一天内的温度会随时间而发生变化,或者股票的价格会随着时间不断的波动,这里用到的一系列时间,就可以看做时间序列。时间序列包含三种应用场景,分别是:特定的时刻(ti
原创
2023-04-21 06:31:23
37阅读
相信对于不少的数据分析从业者来说呢,用的比较多的是Pandas以及SQL这两种工具,Pandas不但能够对数据集进行清理与分析,并且还能够绘制各种各样的炫酷的图表,但是遇到数据集很大的时候要是还使用Pandas来处理显然有点力不从心。今天我就来介绍另外一个数据处理与分析工具,叫做Polars,它在数据处理的速度上更快,当然里面还包括两种API,一种是
原创
2022-04-20 18:23:55
637阅读
前言Python是非常适合用于数据分析的,除了Python代码简单以外,Python还有非常多的第三方库,对于数据分析有很大帮助,今天我们就介绍一下Python进行数据分析的神器——pandas。安装从2019年1月1号开始,新发布的pandas将只支持Python3版本,所以我们的教程也以python3.7为例进行演示。安装pandas和安装其他第三方库类似,只需要一条简单的命令即可,命令如下:
原创
2023-03-31 17:54:08
236阅读
前言之前我们介绍了pandas读写csv文件,json文件,本篇文章我们来介绍一下pandas读写Excel文件。关于ExcelExcel 是由微软公司开发的办公软件之一,它在日常工作中得到了广泛的应用。在数据量较少的情况下,Excel 对于数据的处理、分析、可视化有其独特的优势,因此可以显著提升您的工作效率。但是,当数据量非常大时,Excel 的劣势就暴露出来了,比如,操作重复、数据分析难等问题
原创
精选
2023-04-10 11:32:33
443阅读
前言之前我们介绍了pandas处理时间以及pandas时间序列的内容,本文我们来介绍pandas处理时间差的有关操作。Timedelta 表示时间差(或者时间增量),我们可以使用不同的时间单位来表示它,比如,天、小时、分、秒。时间差的最终的结果可以是正时间差,也可以是负时间差。本文主要介绍创建 Timedelta (时间差)的方法以及与时间差相关的运算法则。创建时间差对象通过传递字符串可以创建 T
原创
2023-04-10 11:42:51
109阅读