pandas功能函数总结

关注 mob604756f4ef89

pandas功能函数总结

原创

mob604756f4ef89 2021-03-26 08:08:56 ©著作权

文章标签 Java 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mob604756f4ef89的原创作品，请联系作者获取转载授权，否则将追究法律责任

介绍

Pandas正确来说应该是(panel data & Data Analysis)使目前基于Numpy，专用于数据预处理和数据分析的Python第三方库，最适合处理大型结构化表格数据。
其中:
    Series 一维，带标签数组
    DataFrame 二维，Series容器，最常用
    Panel 三维，DataFrame容器
       类似之前numpy函数中的例子，对于Python自带数据类型，其特点大多为：功能简单，操作复杂，效率低，且不利于处理数据结构和扩展数据类型。在实用性和功能上来说可操作性比较上来说较弱，大体可以理解为list < ndarray < Series/DataFrame 所以在日常使用中 pandas包作为必要的数组补充，大部分数据都建议尽量使用pandas的数据类型。

pandas功能函数总结_Java

Pandas是python的一个数据分析包，最初由AQRCapital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来，因此，pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据（panel data）和python数据分析（data analysis）。panel data是经济学中关于多维数据集的一个术语，在Pandas中也提供了panel的数据类型。

开发pandas时提出的需求：

具备按轴自动或显式数据对齐功能的数据结构

集成时间序列功能

既能处理时间序列数据也能处理非时间序列数据的数据结构

数学运算和约简（比如对某个轴求和）可以根据不同的元数据（轴编号）执行

灵活处理缺失数据

合并及其他出现在常见数据库（例如基于SQL的）中的关系型运算

数据结构 Series以及DataFrame：

Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。

series 的例子：

ser1 = Series([1,2,3,4])

In : ser1

Out:

0 1

1 2

2 3

3 4

dtype: int64

也可以通过字典来创建Series对象

In : sdata = {'Ohio': 35000, 'Texas':71000, 'Oregon': 16000, 'Utah': 5000}

In : ser3 = Series(sdata)

In : ser3

Out:

Ohio 35000

Oregon 16000

Texas 71000

Utah 5000

dtype: int64

数据结构 DataFrame总结：

可以输入给DataFrame构造器的数据：

二维ndarray 数据矩阵，还可以传入行标和列标。

由数组、列表或元组组成的字典每个序列会变成DataFrame的一列，所有序列的长度必须相同。

NumPy的结构化/记录数组类似于“由数组组成的字典”

由Series组成的字典每个Series会组成一列。如果没有显示指定索引，则各Series的索引会被合并成结果的行索引。

由字典组成的字典各内层字典会成为一列。键会被合并成结果的行索引，跟“由Series组成的字典”的情况一样。

字典或Series的列表各项将会成为DataFrame的一行。字典键或Series索引的并集将会成为DataFrame的列标。

由列表或元组组成的列表类似于“二维ndarray”

另一个DataFrame 该DataFrame的索引将会被沿用，除非显示指定了其他索引。

NumPy的MaskedArray 类似于“二维ndarray”的情况，只是掩码值在结果DataFrame会变成NA/缺失值

pandas中主要的index对象总结：

index 最泛化的Index对象，将轴标签为一个由Python对象组成的NumPy数组。

Int64Index 针对整数的特殊Index

MultiIndex “层次化”索引对象，表示单个轴上的多层索引。可以看做由园数组组成的数组。

DatetimeIndex 存储纳秒级时间戳

PeriodIndex 针对Period数据的特殊Index

总结：pandas是一个框架比较清晰，操作没那么复杂但是很实用的东西。在numpy的基础上专注于字典形式的数据创建和实用的index传参。使用起来也很方便，了解series和dataframe就会很容易理解总体数据的构成形式。是非常适用于常规使用的data包。

往期「精彩内容」，点击回顾

DNA测序历史 | CircRNA数据库 | Epigenie表观综合 | 癌症定位

BWA介绍 | 源码安装R包 | CancerLocator | lme4 | 450K分析

乳腺癌异质性 | BS-Seq | 隐马模型 | Circos安装 | Circos画图

KEGG标记基因 | GDSC | Meta分析 | R线性回归和相关矩阵

精彩会议及课程，点击回顾

计算表观遗传学大数据前沿学术论坛会议记实

哈尔滨医科大学2017年全国生物信息学暑期学校

2017龙星课程系列（一）

2017龙星课程系列（二）
2017龙星课程系列（三）

2017龙星课程系列（四）

2017龙星课程系列（五）

赞
收藏
评论
分享
举报

上一篇：差异基因表达-siggenes包

下一篇：perl之文本文件的嵌套循环

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册