【SparkSQL】扩展 ----连接操作

关注阿呆小记

文章目录

文章目录
一、什么是连接
1.介绍
2.简单连接案例
二、常见的连接操作（方式）
交叉连接 — cross join 笛卡尔积
内连接 — inner join
左外连接（left）、右外连接（right）
全外连接（outer、full、fullouter）
LeftAnti ---- 只显示左表未连接上的记录
LeftSemi ---- 只显示左表连接上的记录

【SparkSQL】扩展 ----连接操作

原创

阿呆小记 2022-08-12 10:27:29 ©著作权

文章标签 spark sql 返回顶部 文章分类 后端开发

©著作权归作者所有：来自51CTO博客作者阿呆小记的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

一、什么是连接

1.介绍
2.简单连接案例

二、常见的连接操作（方式）

交叉连接 --- cross join 笛卡尔积
内连接 --- inner join
左外连接（left）、右外连接（right）
全外连接（outer、full、fullouter）
LeftAnti ---- 只显示左表未连接上的记录
LeftSemi ---- 只显示左表连接上的记录

一、什么是连接

1.介绍

【SparkSQL】扩展 ----连接操作_返回顶部

返回顶部

2.简单连接案例

使用join算子进行连接

【SparkSQL】扩展 ----连接操作_sql_02

【SparkSQL】扩展 ----连接操作_sql_03

【SparkSQL】扩展 ----连接操作_返回顶部_04

// 配置环境
val spark = SparkSession.builder()
  .master("local[6]")
  .appName("groupBy")
  .getOrCreate()
  //导入隐式转换
import spark.implicits._
// 创建数据集
private val person = Seq((0,"lucy",0),(1,"lili",2),(2,"tim",2),(3,"jack",1),(4,"jacky",3)).toDF("id","name","cityid")
// 创建视图person
person.createOrReplaceTempView("person")
// 创建数据集
private val city = Seq((0,"beijing"),(1,"nanjing"),(2,"shanghai"),(4,"shandong")).toDF("id","city")
// 创建视图city
city.createOrReplaceTempView("city")

@Test
def join(): Unit ={

// 连接两张表
val persontb = person.join( city,person.col("cityid") === city.col("id") )
    .select(person.col("id"),person.col("name"),city.col("city"))
    //.show()

// 使用sql语句查询
persontb.createOrReplaceTempView("person_city")
spark.sql(" select id,name,city from person_city where city='beijing' ")
    .show()
}

【SparkSQL】扩展 ----连接操作_返回顶部_05

【SparkSQL】扩展 ----连接操作_spark_06

最后的SQL语句是作用于用户表和城市表两张表之上的。

【SparkSQL】扩展 ----连接操作_spark_07

返回顶部

二、常见的连接操作（方式）

交叉连接 — cross join 笛卡尔积

select * from a,b;
select * from a cross join;

【SparkSQL】扩展 ----连接操作_sql_08

person.crossJoin(city)
  .where(person.col("cityid")===city.col("id"))
  .show()

spark.sql("select p.id,p.name,c.city from person p cross join city c " +
  "where p.cityid = c.id")
  .show()

spark.sql("select p.id,p.name,c.city from person p,city c " +
  "where p.cityid = c.id")
  .show()

【SparkSQL】扩展 ----连接操作_返回顶部_09

【SparkSQL】扩展 ----连接操作_spark_10

【SparkSQL】扩展 ----连接操作_sql_11

返回顶部

内连接 — inner join

【SparkSQL】扩展 ----连接操作_spark_12

person.join(city,person.col("cityid")===city.col("id"),"inner")
  .show()

spark.sql("select p.id,p.name,c.city from person p inner join city c " +
  "on p.cityid = c.id")
   .show()

原表：

【SparkSQL】扩展 ----连接操作_sql_13

只显示id中有交集的记录

【SparkSQL】扩展 ----连接操作_返回顶部_14

【SparkSQL】扩展 ----连接操作_spark_15

返回顶部

左外连接（left）、右外连接（right）

【SparkSQL】扩展 ----连接操作_sql_16

/**
 * 左外连接
 */
@Test
def leftjoin(): Unit ={
  person.join(city,person.col("cityid")===city.col("id"),"left")
    .show()

  spark.sql("select p.id,p.name,c.city from person p left join city c " +
    "on p.cityid = c.id")
    .show()
}

原表：

【SparkSQL】扩展 ----连接操作_spark_17

保留左表person的全部记录

【SparkSQL】扩展 ----连接操作_sql_18

【SparkSQL】扩展 ----连接操作_spark_19

/**
 *右外连接
 */
@Test
def rightjoin(): Unit ={
  person.join(city,person.col("cityid")===city.col("id"),"right")
    .show()

  spark.sql("select p.id,p.name,c.city from person p right join city c " +
    "on p.cityid = c.id")
    .show()
}

原表：

【SparkSQL】扩展 ----连接操作_spark_17

保留右表所有的记录

【SparkSQL】扩展 ----连接操作_sql_21

返回顶部

全外连接（outer、full、fullouter）

【SparkSQL】扩展 ----连接操作_sql_22

@Test
def fulloutjoin(): Unit ={
 person.join(city,person.col("cityid")===city.col("id"),"full")
   .show()

 spark.sql("select p.id,p.name,c.city from person p full outer join city c " +
   "on p.cityid = c.id")
   .show()
}

原表：

【SparkSQL】扩展 ----连接操作_spark_17

保留两张表全部记录，不符合连接部分的对应记录部分为null

【SparkSQL】扩展 ----连接操作_sql_24

返回顶部

LeftAnti ---- 只显示左表未连接上的记录

【SparkSQL】扩展 ----连接操作_sql_25

person.join(city,person.col("cityid")===city.col("id"),"leftanti")
 .show()

spark.sql("select p.id,p.name from person p left anti join city c " +
 "on p.cityid = c.id")
 .show()

原表：

【SparkSQL】扩展 ----连接操作_spark_17

【SparkSQL】扩展 ----连接操作_spark_27

【SparkSQL】扩展 ----连接操作_返回顶部_28

返回顶部

LeftSemi ---- 只显示左表连接上的记录

【SparkSQL】扩展 ----连接操作_spark_29

person.join(city, person.col("cityid") === city.col("id"), "leftsemi")
  .show()

spark.sql("select p.id,p.name from person p left semi join city c " +
  "on p.cityid = c.id")
  .show()

原表：

【SparkSQL】扩展 ----连接操作_spark_17

【SparkSQL】扩展 ----连接操作_sql_31

【SparkSQL】扩展 ----连接操作_sql_32

返回顶部

赞
收藏
评论
分享
举报

上一篇：【Java】面向对象.static关键字

下一篇：【Linux】安装MySQL后初始化失败锦集

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

阿呆小记

关注

职场话题

2024软考

华为认证

K8s

数据库

近期文章

文章目录

文章目录
一、什么是连接
1.介绍
2.简单连接案例
二、常见的连接操作（方式）
交叉连接 — cross join 笛卡尔积
内连接 — inner join
左外连接（left）、右外连接（right）
全外连接（outer、full、fullouter）
LeftAnti ---- 只显示左表未连接上的记录
LeftSemi ---- 只显示左表连接上的记录

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册