Pandas介绍、安装及使用_数据类型

1、Pandas介绍。

Pandas库基于Numpy库,提供了很多用于数据操作与分析的功能。   
Numpy的特长并不是在于数据处理,而是在它能非常方便地实现科学计算    
科学计算方面Numpy是优势,但在数据处理方面DataFrame就更胜一筹

Pandas是基于Numpy构建的库,在数据处理方面可以把它理解为Numpy加强版,同时Pandas也是一项开源项目。 

官网:https://pandas.pydata.org/

2、Pandas数据类型(结构)。

Pandas 的数据结构:Pandas 主要有 Series(一维数组),DataFrame(二维数组),Panel(三维数组),Panel4D(四维数组),PanelnD(n维数组)等数据结构。其中 Series 和 DataFrame 应用的最为广泛。

pandas提供两个常用的数据类型:
(1) Series:Series是一维带标签的数组,它可以包含任何数据类型。包括整数,字符串,浮点数,Python 对象等。Series 可以通过标签来定位。

Series是一种类似一维数组的数据结构,由一组数据和与之相关的index组成。我们知道字典是一种无序的数据结构,而pandas中的Series的数据结构不一样,它相当于定长有序的字典,并且它的index和value之间是独立的,两者的索引还是有区别的,Series的index是可变的,而dict字典的key值是不可变的

(2) DataFrame:DataFrame是二维的带标签的数据结构。我们可以通过标签来定位数据。这是 NumPy 所没有的。

DataFrame的横行称为columns,竖列和Series一样称为index,DataFrame每一列可以是不同类型的值集合,所以DataFrame你也可以把它视为不同数据类型同一index的Series集合。

Pandas介绍、安装及使用_数据结构_02

3、Pandas做数据分析的优点。

读取:Pandas提供强大的IO读取工具,csv格式、Excel文件、数据库等都可以非常简便地读取,pandas也支持(大数据)大文件的分块读取;

清洗:数据清洗,面对数据集,我们遇到最多的情况就是存在缺失值,Pandas把各种类型数据类型的缺失值统一称为NaN(注意,None==None这个结果是true,但np.nan==np.nan这个结果是false,NaN在官方文档中定义的是float类型,Pandas提供许多方便快捷的方法来处理这些缺失值NaN。

分析建模:Pandas自动且明确的数据对齐特性,非常方便地使新的对象可以正确地与一组标签对齐,有了这个特性,Pandas就可以非常方便地将数据集进行拆分-重组操作。

结果展现:Pandas与Matplotlib搭配,不用复杂的代码,就可以生成多种多样的数据视图。

4、Pandas的安装及引用。

#python安装:
pip install pandas
anaconda安装:
conda install pandas
#引入pandas:
import pandas as pd#忽略警告信息:
import warnings
warnings.filterwarnings("ignore")#pandas、numpy导入:
import pandas as pd
import numpy as np
#输出版本:
print(np.__version__)
print(pd.__version__)

#建议学习时使用的代码编写及运行工具

Jupyter:学习时最方便做笔记使用的工具,Anaconda自带,Anaconda-->Anaconda Prompt-->输入: jupyter notebook filepath<需要打开的代码文档指定路径>即可打开指定路径(结合文本编辑及代码块直接运行,最方便初学者做笔记:说明+代码块+结果)。

ipython:比默认的python shell 好用得多,pip install ipython 安装,安装完直接在cmd中输入ipython启动(强大的shell,代码和结果一体,方便复制,利于复制:代码+结果)。

PyCharm:实际开发环境中最常使用的工具,第三方自行安装工具(生产环境中编写复杂代码)。

#测试案例(Jupyter):
a = np.array([1,2,3,4])
display(a)
s = pd.Series([1, 2, 3, 4])
display(s)

扫码关注公众号,下一文我们一起学习Pandas的Series基础知识

Pandas介绍、安装及使用_数据_03