Pandas介绍、安装及使用

原创

wx64784b1bc4bd1 2023-06-01 16:37:58 ©著作权

文章标签 数据结构数据类型数据 文章分类 JavaScript 前端开发

©著作权归作者所有：来自51CTO博客作者wx64784b1bc4bd1的原创作品，请联系作者获取转载授权，否则将追究法律责任

Pandas介绍、安装及使用_数据类型

1、Pandas介绍。

Pandas库基于Numpy库，提供了很多用于数据操作与分析的功能。
Numpy的特长并不是在于数据处理，而是在它能非常方便地实现科学计算
科学计算方面Numpy是优势，但在数据处理方面DataFrame就更胜一筹

Pandas是基于Numpy构建的库，在数据处理方面可以把它理解为Numpy加强版，同时Pandas也是一项开源项目。

官网：https://pandas.pydata.org/

2、Pandas数据类型（结构）。

Pandas 的数据结构：Pandas 主要有 Series（一维数组），DataFrame（二维数组），Panel（三维数组），Panel4D（四维数组），PanelnD（n维数组）等数据结构。其中 Series 和 DataFrame 应用的最为广泛。

pandas提供两个常用的数据类型：
（1） Series：Series是一维带标签的数组，它可以包含任何数据类型。包括整数，字符串，浮点数，Python 对象等。Series 可以通过标签来定位。

Series是一种类似一维数组的数据结构，由一组数据和与之相关的index组成。我们知道字典是一种无序的数据结构，而pandas中的Series的数据结构不一样，它相当于定长有序的字典，并且它的index和value之间是独立的，两者的索引还是有区别的，Series的index是可变的，而dict字典的key值是不可变的

（2） DataFrame：DataFrame是二维的带标签的数据结构。我们可以通过标签来定位数据。这是 NumPy 所没有的。

DataFrame的横行称为columns，竖列和Series一样称为index，DataFrame每一列可以是不同类型的值集合，所以DataFrame你也可以把它视为不同数据类型同一index的Series集合。

Pandas介绍、安装及使用_数据结构_02

3、Pandas做数据分析的优点。

读取：Pandas提供强大的IO读取工具，csv格式、Excel文件、数据库等都可以非常简便地读取，pandas也支持（大数据）大文件的分块读取；

清洗：数据清洗，面对数据集，我们遇到最多的情况就是存在缺失值，Pandas把各种类型数据类型的缺失值统一称为NaN（注意，None==None这个结果是true，但np.nan==np.nan这个结果是false，NaN在官方文档中定义的是float类型，Pandas提供许多方便快捷的方法来处理这些缺失值NaN。

分析建模：Pandas自动且明确的数据对齐特性，非常方便地使新的对象可以正确地与一组标签对齐，有了这个特性，Pandas就可以非常方便地将数据集进行拆分-重组操作。

结果展现：Pandas与Matplotlib搭配，不用复杂的代码，就可以生成多种多样的数据视图。

4、Pandas的安装及引用。

#python安装：
pip install pandas
anaconda安装：
conda install pandas
#引入pandas：
import pandas as pd#忽略警告信息：
import warnings
warnings.filterwarnings("ignore")#pandas、numpy导入：
import pandas as pd
import numpy as np
#输出版本：
print(np.__version__)
print(pd.__version__)

#建议学习时使用的代码编写及运行工具

Jupyter：学习时最方便做笔记使用的工具，Anaconda自带，Anaconda-->Anaconda Prompt-->输入: jupyter notebook filepath<需要打开的代码文档指定路径>即可打开指定路径（结合文本编辑及代码块直接运行，最方便初学者做笔记：说明+代码块+结果）。

ipython：比默认的python shell 好用得多，pip install ipython 安装，安装完直接在cmd中输入ipython启动（强大的shell,代码和结果一体，方便复制，利于复制：代码+结果）。

PyCharm：实际开发环境中最常使用的工具，第三方自行安装工具（生产环境中编写复杂代码）。

#测试案例（Jupyter）：
a = np.array([1,2,3,4])
display(a)
s = pd.Series([1, 2, 3, 4])
display(s)

扫码关注公众号，下一文我们一起学习Pandas的Series基础知识

Pandas介绍、安装及使用_数据_03

上一篇：pandas数据清洗

下一篇：数据分析必备——Excel基础知识

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯