pyspark dataframe 合并字段 python多个dataframe合并

转载

mob64ca14106f2f 2024-08-09 23:11:58

文章标签 dataframe两个表合并 fastjson 添加key value SQL 数据 ci 文章分类 Spark 大数据

　　作者|刘早起

　　头图 |CSDN自东方IC SQL 和 Python 几乎是当前数据分析师必须要了解的两门语言，它们在处理数据时有什么区别？本文将分别用 MySQL 和 pandas 来展示七个在数据分析中常用的操作，希望可以帮助掌握其中一种语言的读者快速了解另一种方法！在阅读本文前，你可以访问下方网站本文使用的示例数据，并导入 MySQL 与 pandas 中，一边敲代码一边阅读！

　　选择

　　在 SQL 中，我们可以使用 SELECT 语句从表选择数据，结果被存储在一个结果表中，语法如下：

　　SELECT column_name,column_name FROM table_name;

　　如果不想显示全部的记录，可以使用 TOP 或 LIMIT 来限制行数。因此选择 tips 表中的部分列可以使用下面的语句

　　SELECT total_bill, tip, smoker, time FROM tips LIMIT 5;

　　而在 pandas 中，我们可以通过将列名列表传递给 DataFrame 来完成列选择

　　
在 SQL 中，进行选择的同时还可以进行计算，比如添加一列 SELECT *, tip/total_bill as tip_rate FROM tips LIMIT 5;

　　在 pandas 中使用 () 同样可以完成这个操作

　　
单条件查找在 SQL 中， WHERE 子句用于提取那些满足指定条件的记录，语法如下 SELECT column_name,column_name FROM table_name WHERE column_name operator value;

　　比如查找示例数据中 time = dinner 的记录

　　SELECT * FROM tips WHERE time = 'Dinner' LIMIT 5;
而在 pandas 中，按照条件进行查找则可以有多种形式，比如可以将含有 True/False 的 Series 对象传递给 DataFrame，并返回所有带有 True 的行多条件查找在SQL中，进行多条件查找可以使用AND/OR来完成 SELECT * FROM tips WHERE time = 'Dinner' AND tip5.00;

　　
在pandas中也有类似的操作

　　查找空值

　　在pandas检查空值是使用 notna() 和 isna() 方法完成的。

　　frame[frame['col1'].notna()]

　　在SQL中可以使用 IS NULL 和 IS NOT NULL 完成

　　SELECT * FROM frame WHERE col2 IS NULL; SELECT * FROM frame WHERE col1 IS NOT NULL;

　　更新

　　在 SQL 中使用 UPDATE

　　UPDATE tips SET tip = tip*2 WHERE tip2;

　　而在 pandas 中则有多种方法，比如使用 loc 函数

　　[tips['tip']2, 'tip'] *= 2

　　删除

　　在 SQL 中使用 DELETE

　　DELETE FROM tips WHERE tip9;

　　在pandas中，我们选择应保留的行，而不是删除它们

　　tips = [tips['tip']= 9]

　　分组

　　在 pandas 中，使用 groupby() 方法实现分组。 groupby() 通常是指一个过程，在该过程中，我们希望将数据集分为几组，应用某些功能(通常是聚合)，然后将各组组合在一起。

　　常见的SQL操作是获取整个数据集中每个组中的记录数。例如，通过对性别进行分组查询

　　SELECT sex, count(*) FROM tips GROUP BY sex;

　　
在pandas中的等价操作为注意，在上面代码中，我们使用 size() 而不是 count() 这是因为 count() 将函数应用于每一列，并返回每一列中非空记录的数量！

　　连接

　　在 pandas 可以使用 join() 或 merge() 进行连接，每种方法都有参数，可让指定要执行的联接类型(LEFT，RIGHT，INNER，FULL)或要联接的列。

　　现在让我们重新创建两组示例数据，分别用代码来演示不同的连接

　　df1 = ({'key': ['A', 'B', 'C', 'D'], ....: 'value': (4)}) ....: df2 = ({'key': ['B', 'D', 'D', 'E'], ....: 'value': (4)}) 内连接

　　内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行，在 SQL 中实现内连接使用 INNER JOIN

　　SELECT * FROM df1 INNER JOIN df2 ON df1.key = df2.key;

　　在 pandas 中可以使用 merge()
merge() 提供了一些参数，可以将一个 DataFrame 的列与另一个 DataFrame 的索引连接在一起

　　左/右外联接

　　在 SQL 中实现左/右外连接可以使用 LEFT OUTER JOIN 和 RIGHT OUTER JOIN

　　SELECT * FROM df1 LEFT OUTER JOIN df2 ON df1.key = df2.key; SELECT * FROM df1 RIGHT OUTER JOIN df2 ON df1.key = df2.key;

　　在 pandas 中实现同样可以使用 merge() 并指定 how 关键字为 left 或者 right 即可

　　全连接

　　全连接返回左表和右表中的所有行，无论是否匹配，但并不是所有的数据库都支持，比如 mysql 就不支持，在 SQL 中实现全连接可以使用 FULL OUTER JOIN

　　SELECT * FROM df1 FULL OUTER JOIN df2 ON df1.key = df2.key; 在 pandas 中实现同样可以使用 merge() 并指定 how 关键字为 outer

　　合并

　　SQL 中 UNION 操作用于合并两个或多个 SELECT 语句的结果集， UNION 与 UNION ALL 类似，但是 UNION 将删除重复的行。示例代码如下

　　SELECT city, rank FROM df1 UNION ALL SELECT city, rank FROM df2; /* city rank Chicago 1 San Francisco 2 New York City 3 Chicago 1 Boston 4 Los Angeles 5 */ 在 pandas 中可以使用 concat() 实现 UNION ALL

　　上面是 UNION ALL 保留重复值，如果希望删除可以使用 drop_duplicates()

　　以上就是本文的全部内容，可以看到在不同的场景下不同的语言有着不同的特性，如果你想深入学习了解可以进一步查阅官方文档并多加练习！

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。