对两个表进行联合python python两个表关联

转载

mob64ca1404476b 2024-05-24 16:30:17

文章标签 对两个表进行联合python python数据分析十二集 f5 SQL 外连接 文章分类 Python 后端开发

人生苦短，我用 Python

前文传送门：

引言

说到数据表拼接，就不得不提一下 SQL ，对于熟悉 SQL 的同学来讲，这并不是一个难以理解的概念，数据表之间的关系可以分为以下这三种：

一对一

两个表之间的公共列是一对一的。

这里的示例我们就不用图片了，直接使用代码来做展示，原因嘛就是小编懒的画了：

import pandas as pd
df1 = pd.read_excel("table_join_exp.xlsx", sheet_name='Sheet1')
print(df1)
# 输出内容
编号 姓名 分数
0 100 小明 96
1 200 小红 48
2 300 小王 72
3 400 小刚 72
df2 = pd.read_excel("table_join_exp.xlsx", sheet_name='Sheet2')
print(df2)
# 输出内容
编号 班级
0 100 1
1 200 2
2 300 3
3 400 4

这里可以很直观的看到，这两个表的编号是公共列，并且唯一对应。

如果我们要讲这两个表进行连接操作，需要使用 merge() 方法：

print(pd.merge(df1, df2))
# 输出内容
编号 姓名 分数 班级
0 100 小明 96 1
1 200 小红 48 2
2 300 小王 72 3
3 400 小刚 72 4

在我们使用 merge() 方法的时候， merge() 方法会自动寻找两个表中的公共列，并且自动的进行对应操作。

一对多

两个表之间的公共列不是一对一的，而是其中一个表的公共列是唯一的，另一个表的公共列则会有重复的数据。

import pandas as pd
df1 = pd.read_excel("table_join_exp.xlsx", sheet_name='Sheet1')
print(df1)
# 输出内容
编号 姓名 分数
0 100 小明 96
1 200 小红 48
2 300 小王 72
3 400 小刚 72
df3 = pd.read_excel("table_join_exp.xlsx", sheet_name='Sheet3')
print(df3)
# 输出内容
编号 分数
0 100 101
1 100 102
2 100 103
3 100 104
4 200 201
5 200 202
6 300 301
7 400 401

从上面这两个 df 中可以看到， df1 中的编号在 df3 中会对应多条数据，我们在对这两个 df 进行连接操作的时候，需要使用属性 on 指明判断的条件：

print(pd.merge(df1, df3, on='编号'))
# 输出内容
编号 姓名 分数_x 分数_y
0 100 小明 96 101
1 100 小明 96 102
2 100 小明 96 103
3 100 小明 96 104
4 200 小红 48 201
5 200 小红 48 202
6 300 小王 72 301
7 400 小刚 72 401

多对多

两个表之间的公共列都是会有重复数据的，相当于是多个一对多。

注意理解多个一对多，这里的逻辑稍微有点绕，小编在第一次接触 SQL 的时候实际上是无法理解的。

我们这里新建一个 df4 ，新增一个编号为 100 的小黑，还是通过编号对 df4 和 df3 进行连接操作：

df4 = pd.read_excel("table_join_exp.xlsx", sheet_name='Sheet4')
print(df4)
# 输出结果
编号 姓名 分数
0 100 小明 96
1 100 小黑 100
2 200 小红 48
3 300 小王 72
4 400 小刚 72
print(pd.merge(df4, df3, on='编号'))

编号姓名分数_x 分数_y

0 100 小明 96 101
1 100 小明 96 102
2 100 小明 96 103
3 100 小明 96 104
4 100 小黑 100 101
5 100 小黑 100 102
6 100 小黑 100 103
7 100 小黑 100 104
8 200 小红 48 201
9 200 小红 48 202
10 300 小王 72 301
11 400 小刚 72 401

连接方式

学过 SQL 的同学都知道， SQL 中连接分为内连接、左连接、右连接和外连接，同样在 Pandas 也是一样的。

内连接

内连接就是取两个表中公共的部分，我们重新创建一个 df5 ，在 df5 中只有编号 100 和 200 能和前面的数据保持一致：

df5 = pd.read_excel("table_join_exp.xlsx", sheet_name='Sheet5')
print(df5)
# 输出结果
编号 姓名 分数
0 100 小明 96
1 100 小黑 100
2 200 小红 48
3 600 想不出来叫啥了1 600
4 700 想不出来叫啥了2 700
# 内连接
print(pd.merge(df5, df3, on='编号', how='inner'))
# 输出结果
编号 姓名 分数_x 分数_y
0 100 小明 96 101
1 100 小明 96 102
2 100 小明 96 103
3 100 小明 96 104
4 100 小黑 100 101
5 100 小黑 100 102
6 100 小黑 100 103
7 100 小黑 100 104
8 200 小红 48 201
9 200 小红 48 202

这里 how 属性是用来指定连接类型的。

左连接

左连接就是已左表为基础，右表像左表上拼数据：

# 左连接
print(pd.merge(df5, df3, on='编号', how='left'))
# 输出结果
编号 姓名 分数_x 分数_y
0 100 小明 96 101.0
1 100 小明 96 102.0
2 100 小明 96 103.0
3 100 小明 96 104.0
4 100 小黑 100 101.0
5 100 小黑 100 102.0
6 100 小黑 100 103.0
7 100 小黑 100 104.0
8 200 小红 48 201.0
9 200 小红 48 202.0
10 600 想不出来叫啥了1 600 NaN
11 700 想不出来叫啥了2 700 NaN

可以看到，在 df5 中，编号 600 和 700 的两条数据在 df3 中没有，所以分数_y 的值为 NaN 。

右连接

右连接正好和上面的左连接相反，已右表为基础，左表往右表上拼数据：

# 右连接
print(pd.merge(df5, df3, on='编号', how='right'))
# 输出结果
编号 姓名 分数_x 分数_y
0 100 小明 96.0 101
1 100 小黑 100.0 101
2 100 小明 96.0 102
3 100 小黑 100.0 102
4 100 小明 96.0 103
5 100 小黑 100.0 103
6 100 小明 96.0 104
7 100 小黑 100.0 104
8 200 小红 48.0 201
9 200 小红 48.0 202
10 300 NaN NaN 301
11 400 NaN NaN 401
外连接
外连接就是两个表的并集：
# 外连接
print(pd.merge(df5, df3, on='编号', how='outer'))
# 输出结果
编号 姓名 分数_x 分数_y
0 100 小明 96.0 101.0
1 100 小明 96.0 102.0
2 100 小明 96.0 103.0
3 100 小明 96.0 104.0
4 100 小黑 100.0 101.0
5 100 小黑 100.0 102.0
6 100 小黑 100.0 103.0
7 100 小黑 100.0 104.0
8 200 小红 48.0 201.0
9 200 小红 48.0 202.0
10 600 想不出来叫啥了1 600.0 NaN
11 700 想不出来叫啥了2 700.0 NaN
12 300 NaN NaN 301.0
13 400 NaN NaN 401.0
纵向拼接

顾名思义，纵向拼接就是在纵向上对两个表进行拼接，当然这需要两个表具有相同的结构，前面我们介绍的拼接方式都在横向上进行拼接。

这里我们再加入一个 df6 ，使用 df5 和 df6 演示纵向拼接，在 Pandas 中使用纵向拼接使用的方法是 concat() ：

df6 = pd.read_excel("table_join_exp.xlsx", sheet_name='Sheet6')
print(df6)
# 输出结果
编号 姓名 分数
0 800 起个名字好难啊 100
1 900 起个名字真的难 200
# 纵向拼接
print(pd.concat([df5, df6]))
# 输出结果
编号 姓名 分数
0 100 小明 96
1 100 小黑 100
2 200 小红 48
3 600 想不出来叫啥了1 600
4 700 想不出来叫啥了2 700
0 800 起个名字好难啊 100
1 900 起个名字真的难 200

当我们使用 concat() 以后，发现索引还是保留了原有的索引，看着很不舒服，这时我们可以设置参数 ignore_index ，让其不在保留原有索引，而是生成新的索引：

print(pd.concat([df5, df6], ignore_index=True))
# 输出结果
编号 姓名 分数
0 100 小明 96
1 100 小黑 100
2 200 小红 48
3 600 想不出来叫啥了1 600
4 700 想不出来叫啥了2 700
5 800 起个名字好难啊 100
6 900 起个名字真的难 200

本篇的分享到这里就算结束，如果有 SQL 基础的同学看起来应该毫无压力，没有基础的同学推荐自己动手试一下，很多看着不是很理解的东西一动手就立马打通任督二脉。

示例代码

老规矩，所有的示例代码都会上传至代码管理仓库 Github 和 Gitee 上，方便大家取用。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。