数据分析之Pandas VS SQL！

关注 wx60dacb4325b51

数据分析之Pandas VS SQL！

转载

wx60dacb4325b51 2021-07-22 17:27:05

文章标签 经验分享 文章分类 数据分析人工智能

题外话之今日新闻联播感动时刻，念念不忘，必有回响！

Abstract

Pandas是一个开源的Python数据分析库，结合 NumPy 和 Matplotlib 类库，可以在内存中进行高性能的数据清洗、转换、分析及可视化工作。
对于数据开发工程师或分析师而言，SQL 语言是标准的数据查询工具。本文提供了一系列的示例，说明如何使用pandas执行各种SQL操作。

Pandas简介

Pandas把结构化数据分为了三类：

Series，可以理解为一个一维的数组，只是index可以自己改动。
DataFrame，一个类似于表格的数据类型的2维结构化数据。
Panel，3维的结构化数据。

Dataframe实例：

数据分析之Pandas VS SQL！_经验分享

对于DataFrame，有一些固有属性：

数据分析之Pandas VS SQL！_经验分享_02

SQL VS Pandas

SELECT（数据选择）

在SQL中，选择是使用逗号分隔的列列表(或*来选择所有列):

数据分析之Pandas VS SQL！_经验分享_03

在Pandas中，选择不但可根据列名称选取，还可以根据列所在的位置选取。相关语法如下：

loc，基于列label，可选取特定行（根据行index）
iloc，基于行/列的位置
ix，为loc与iloc的混合体，既支持label也支持position
at，根据指定行index及列label，快速定位DataFrame的元素；
iat，与at类似，不同的是根据position来定位的；

数据分析之Pandas VS SQL！_经验分享_04

数据分析之Pandas VS SQL！_经验分享_05

数据分析之Pandas VS SQL！_经验分享_06

WHERE（数据过滤）

在SQL中，过滤是通过WHERE子句完成的：

数据分析之Pandas VS SQL！_经验分享_07

在pandas中，Dataframe可以通过多种方式进行过滤，最直观的是使用布尔索引：

数据分析之Pandas VS SQL！_经验分享_08

在where子句中常常会搭配and, or, in, not关键词，Pandas中也有对应的实现：

SQL：

数据分析之Pandas VS SQL！_经验分享_09

Pandas：

数据分析之Pandas VS SQL！_经验分享_10

在where字句中搭配NOT NULL可以获得某个列不为空的项,Pandas中也有对应的实现：

SQL：

数据分析之Pandas VS SQL！_经验分享_11

Pandas：

数据分析之Pandas VS SQL！_经验分享_12

DISTINCT（数据去重）

SQL：

数据分析之Pandas VS SQL！_经验分享_13

Pandas：

数据分析之Pandas VS SQL！_经验分享_14

宝器带你画重点：

subset，为选定的列做数据去重，默认为所有列；
keep，可选择{'first', 'last', False}，保留重复元素中的第一个、最后一个，或全部删除；
inplace ，Pandas 中 inplace 参数在很多函数中都会有，它的作用是：是否在原对象基础上进行修改，默认为False，返回一个新的Dataframe；若为True,不创建新的对象，直接对原始对象进行修改。

GROUP BY（数据分组）

groupby()通常指的是这样一个过程:我们希望将数据集拆分为组，应用一些函数(通常是聚合)，然后将这些组组合在一起:

数据分析之Pandas VS SQL！_经验分享_15

常见的SQL操作是获取数据集中每个组中的记录数。

数据分析之Pandas VS SQL！_经验分享_16

Pandas中对应的实现：

数据分析之Pandas VS SQL！_经验分享_17

注意，在Pandas中，我们使用size()而不是count()。这是因为count()将函数应用于每个列，返回每个列中的非空记录的数量。具体如下：

数据分析之Pandas VS SQL！_经验分享_18

还可以同时应用多个函数。例如，假设我们想要查看每个星期中每天的小费金额有什么不同。

SQL：

数据分析之Pandas VS SQL！_经验分享_19

Pandas：

数据分析之Pandas VS SQL！_经验分享_20

更多关于Groupy和数据透视表内容请阅读：

JOIN（数据合并）

可以使用join()或merge()执行连接。
默认情况下，join()将联接其索引上的DataFrames。
每个方法都有参数，允许指定要执行的连接类型(LEFT, RIGHT, INNER, FULL)或要连接的列(列名或索引)

数据分析之Pandas VS SQL！_经验分享_21

现在看一下不同的连接类型的SQL和Pandas实现：

INNER JOIN

SQL：

数据分析之Pandas VS SQL！_经验分享_22

Pandas：

数据分析之Pandas VS SQL！_经验分享_23

LEFT OUTER JOIN

SQL：

数据分析之Pandas VS SQL！_经验分享_24

Pandas：

数据分析之Pandas VS SQL！_经验分享_25

RIGHT JOIN

SQL：

数据分析之Pandas VS SQL！_经验分享_26

Pandas:

数据分析之Pandas VS SQL！_经验分享_27

FULL JOIN

SQL：

数据分析之Pandas VS SQL！_经验分享_28

Pandas：

数据分析之Pandas VS SQL！_经验分享_29

ORDER（数据排序）

SQL：

数据分析之Pandas VS SQL！_经验分享_30

Pandas：

数据分析之Pandas VS SQL！_经验分享_31

UPDATE（数据更新）

SQL：

数据分析之Pandas VS SQL！_经验分享_32

Pandas：

数据分析之Pandas VS SQL！_经验分享_33

DELETE（数据删除）

SQL：

数据分析之Pandas VS SQL！_经验分享_34

Pandas：

数据分析之Pandas VS SQL！_经验分享_35

赞
收藏
评论
分享
举报

上一篇：你愿意花十分钟系统了解数据分析方法吗？

下一篇：基于30多万条招聘信息的热门城市、地域、薪资、人才要求的数据可视化分析...

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册