hive如何开启笛卡尔积关联

转载

mob64ca13faa4e6 2024-09-05 14:06:25

文章标签 hive如何开启笛卡尔积关联 sql leftjoin 如果为空不关联数据 SQL 并集 文章分类 Hive 大数据

本文从笛卡尔积出发，

介绍SQL在 join 时数据是怎样组合和筛选来获得结果的，

帮助你理清join、left join、right join、full join等各类不同join的差异。

笛卡尔积

首先，让我们了解一下join中涉及到的重要概念，笛卡尔积。

两个集合X和Y的笛卡尔积(Cartesian product)，又称直积，表示为X × Y，是第一个对象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员。

现在，我们有两个集合A和B。

A = {0,1} ，B = {2,3,4}

集合 A×B 和 B×A的结果集就可以分别表示为以下这种形式：

A×B = {(0，2)，(1，2)，(0，3)，(1，3)，(0，4)，(1，4)}；

B×A = {(2，0)，(2，1)，(3，0)，(3，1)，(4，0)，(4，1)}；

以上A×B和B×A的结果就可以叫做两个集合相乘的‘笛卡尔积’。

从以上的数据分析我们可以得出以下两点结论：

1，两个集合相乘，不满足交换率，既 A×B ≠ B×A;

2，A集合和B集合相乘，包含了集合A中元素和集合B中元素相结合的所有的可能性。既两个集合相乘得到的新集合的元素个数是 A集合的元素个数 × B集合的元素个数。

hive如何开启笛卡尔积关联_并集

jon解析

假设，我们有table_a和table_b两个表，如图所示。

hive如何开启笛卡尔积关联_hive如何开启笛卡尔积关联_02

接下来，我们看一下不同类型的 join下，到底发生了什么。

1. Inner Join / Join

select * from table_a a join table_b b on a.id = b.id;

首先，我们分别为table_a与table_b添加一个空行，

hive如何开启笛卡尔积关联_并集_03

接下来，作出table_a’和table_b’的笛卡尔积，

hive如何开启笛卡尔积关联_sql leftjoin 如果为空不关联_04

最后一步就非常简单了，就是筛选出上表中满足on条件的部分，即id_a = id_b，

hive如何开启笛卡尔积关联_数据_05

可能有同学奇怪，为什么id_a 、 id_b均为NULL的数据为什么没有被选出呢？

这是因为在SQL中，null代表什么都不是，用“=、>、< ...” 所有的判断，结果都是false。

2. Left Join

select * from table_a a left join table_b b on a.id = b.id;

首先，仍然是为table_a与table_b添加一个空行，并做笛卡尔积，

但最后一步中，我们不仅筛选出符合id_a = id_b条件的数据，还会筛选出table_a’未关联到table_b’的数据。

hive如何开启笛卡尔积关联_sql leftjoin 如果为空不关联_06

2. Right Join

select * from table_a a right join table_b b on a.id = b.id;

与left join类似，做出笛卡尔积后，筛选出符合id_a = id_b条件的数据，和table_b’未关联到table_a’的数据。

hive如何开启笛卡尔积关联_数据_07

2. Full Join

select * from table_a a full join table_b b on a.id = b.id;

full join的结果为left join、right join的并集，

做出笛卡尔积后，筛选出符合id_a = id_b条件的数据、table_a’未关联到table_b’的数据和table_b’未关联到table_a’的数据。

hive如何开启笛卡尔积关联_hive如何开启笛卡尔积关联_08

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：哪些图是java面向对象的

下一篇：更改centos 性能模式

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯