java 项目分表的好处分表 join

转载

mob64ca1418736f 2024-06-12 21:43:35

文章标签 java 项目分表的好处数据 SQL 人工智能 文章分类 Java 后端开发

Join 绝对是关系型数据库中最常用一个特性，然而在分布式环境中,跨分片的 join 确是最复杂的，最难解决一
个问题。

尽量避免使用 Left join 或 Right join,而用 Inner join
在使用 Left join 或 Right join 时，ON 会优先执行，where 条件在最后执行，所以在使用过程中，条件尽
可能的在 ON 语句中判断，减少 where 的执行
少用子查询，而用 join。
Mycat 目前版本支持跨分片的 join,主要实现的方式有四种。
全局表，ER 分片，catletT(人工智能)和 ShareJoin，ShareJoin 在开发版中支持，前面三种方式支持。

1.全局表

一个真实的业务系统中，往往存在大量的类似字典表的表格，它们与业务表之间可能有关系，这种关系，可
以理解为“标签”，而不应理解为通常的“主从关系”，这些表基本上很少变动，可以根据主键 ID 进行缓存。

在分片的情况下，当业务表因为规模而进行分片以后，业务表与这些附属的字典表之间的关联，就成了比较
棘手的问题，考虑到字典表具有以下几个特性：
•变动不频繁
•数据量总体变化不大
•数据规模不大，很少有超过数十万条记录。

鉴于此，MyCAT 定义了一种特殊的表，称之为“全局表”，全局表具有以下特性：
•全局表的插入、更新操作会实时在所有节点上执行，保持各个分片的数据一致性
•全局表的查询操作，只从一个节点获取
•全局表可以跟任何一个表进行 JOIN 操作
将字典表或者符合字典表特性的一些表定义为全局表，则从另外一个方面，很好的解决了数据 JOIN 的难题。
通过全局表+基于 E-R 关系的分片策略，MyCAT 可以满足 80%以上的企业应用开发。

配置
全局表配置比较简单，不用写 Rule 规则，如下配置即可：

<table name="company" primaryKey="ID" type="global" dataNode="dn1,dn2,dn3" />
需要注意的是，全局表每个分片节点上都要有运行创建表的 DDL 语句。

2.ER Join

MyCAT 借鉴了 NewSQL 领域的新秀 Foundation DB 的设计思路，Foundation DB 创新性的提出了 Table
Group 的概念，其将子表的存储位置依赖于主表，并且物理上紧邻存放，因此彻底解决了 JION 的效率和性能问
题，根据这一思路，提出了基于 E-R 关系的数据分片策略，子表的记录与所关联的父表记录存放在同一个数据分
片上。
customer 采用 sharding-by-intfile 这个分片策略，分片在 dn1,dn2 上，orders 依赖父表进行分片，两个
表的关联关系为 orders.customer_id=customer.id。于是数据分片和存储的示意图如下：

java 项目分表的好处分表 join_java 项目分表的好处

这样一来，分片 Dn1 上的的 customer 与 Dn1 上的 orders 就可以进行局部的 JOIN 联合，Dn2 上也如此，再合
并两个节点的数据即可完成整体的 JOIN，试想一下，每个分片上 orders 表有 100 万条，则 10 个分片就有 1 个亿，基
于 E-R 映射的数据分片模式，基本上解决了 80%以上的企业应用所面临的问题。

配置
以上述例子为例，schema.xml 中定义如下的分片配置：

<table name="customer" dataNode="dn1,dn2" rule="sharding-by-intfile">
 <childTable name="orders" joinKey="customer_id" parentKey="id"/>
 </table>

3.Share join

ShareJoin 是一个简单的跨分片 Join,基于 HBT 的方式实现。
目前支持 2 个表的 join,原理就是解析 SQL 语句，拆分成单表的 SQL 语句执行，然后把各个节点的数据汇集。
配置
支持任意配置的 A,B 表如：

A,B 的 dataNode 相同

<table name="A" dataNode="dn1,dn2,dn3" rule="auto-sharding-long" />
 <table name="B" dataNode="dn1,dn2,dn3" rule="auto-sharding-long" />A,B 的 dataNode 不同
<table name="A" dataNode="dn1,dn2 " rule="auto-sharding-long" />
 <table name="B" dataNode="dn1,dn2,dn3" rule="auto-sharding-long" />或者
<table name="A" dataNode="dn1 " rule="auto-sharding-long" />
 <table name="B" dataNode=" dn2,dn3" rule="auto-sharding-long" />/*!mycat:catlet=demo.catlets.ShareJoin */ select a.*,b.id, b.name as tit from customer a,company b on a.company_id=b.id;
(0.05 sec)
/*!mycat:catlet=demo.catlets.ShareJoin */ select a.*,b.id, b.name as tit from customer a join company b on
 a.company_id=b.id;(0.01 sec)
/*!mycat:catlet=demo.catlets.ShareJoin */ select a.*,b.id, b.name as tit from customer a join company b where a.company_id=b.id;
(0.01 sec)
对*的支持，还可以这样写 SQL
/*!mycat:catlet=demo.catlets.ShareJoin */ select a.*,b.* from customer a join company b on
 a.company_id=b.id;(0.02 sec)
/*!mycat:catlet=demo.catlets.ShareJoin */ select * from customer a join company b on a.company_id=b.id;
(0.02 sec)
/*!mycat:catlet=demo.catlets.ShareJoin */ select a.id,a.user_id,a.traveldate,a.fee,a.days,b.id as nnid, b.title as tit from travelrecord a join hotnews b on b.id=a.days order by a.id ;
4.catlet（人工智能）
实现编程接口
5.Spark/Storm 对 join 扩展

待实现

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。