hash取模均衡 Java hash取模分表

转载

boyboy 2023-11-25 12:51:29

文章标签 hash取模均衡 Java mysql 数据数据库表名 文章分类 Java 后端开发

单表行数超过 500万行或者单表容量超过 2GB，才推荐进行分库分表

1. 水平分表之用 hash（uuid）%32 = sn （hash去模可以写一个工具类来获取sn号）分为32张表， insert into t_record_detail_${sn} 就知道该数据是插入到那张表了。

注意从0开始到31)依次为，如 t_record_detail_00 t_record_detail_00 t_record_detail_31，表结构和原表的表结构一样。

2.水平分表之按时间分表分库。如名为kl的数据库下有 t_data表存放了每一年的客流数据，那么，可以写一个存储过程，将数据迁移到同一个mysql实例下的不同库（如kl_2020, kl_2021, 每个库下都有t_data表）

3.使用mycat中间件（支持跨库查询和数据均分）实现数据库分片

1，水平分割：

例：QQ的登录表。假设QQ的用户有100亿，如果只有一张表，每个用户登录的时候数据库都要从这100亿中查找，会很慢很慢。如果将这一张表分成100份，每张表有1亿条，就小了很多，比如qq0,qq1,qq1...qq99表。

用户登录的时候，可以将用户的id%100，那么会得到0-99的数，查询表的时候，将表名qq跟取模的数连接起来，就构建了表名。比如123456789用户，取模的89，那么就到qq89表查询，查询的时间将会大大缩短。

这就是水平分割。

2，垂直分割：

垂直分割指的是：表的记录并不多，但是字段却很长，表占用空间很大，检索表的时候需要执行大量的IO，严重降低了性能。这时需要把大的字段拆分到另一个表，并且该表与原表是一对一的关系。

例如学生答题表tt：有如下字段：

Id name 分数 题目 回答

其中题目和回答是比较大的字段，id name 分数比较小。

如果我们只想查询id为8的学生的分数：select 分数 from tt where id = 8;虽然知识查询分数，但是题目和回答这两个大字段也是要被扫描的，很消耗性能。但是我们只关心分数，并不想查询题目和回答。这就可以使用垂直分割。我们可以把题目单独放到一张表中，通过id与tt表建立一对一的关系，同样将回答单独放到一张表中。这样我们插叙tt中的分数的时候就不会扫描题目和回答了。

数据库分片简单来说，就是指通过某种特定的条件，将我们存放在同一个数据库中的数据分散存放到多
个数据库（主机）上面，以达到分散单台设备负载的效果。

192.168.52.155的3306实例下的 pm1 pm2 pm3   

3个库和

  192.168.52.155 3307  pm1
  192.168.52.155 3308  pm2   
  192.168.52.155 3309  pm3 

3个实例下的的3库是互相独立的,

 我们平时开发(由于在项目连接的是mycat jdbc:mysql://192.168.52.155:8066/TESTDB,
 在mycat配置文件schema.xml,配置了<dataHost>标签内配置了3个端口,即分别属于3个实例下的3个库) 
 就不需要连接3306的 pm1 pm2 pm3, 
 如果需要查询分片表对应的总表的数据, 你直接navicat连接mycat的连接地址,
 select逻辑表名就可以了

hash取模均衡 Java hash取模分表_表名

192.168.52.155的mycat 分片管理了 pm1 pm2 pm3库下的

pm1库 (非分片表使用mycat) 的表是在mycat中配置为非分片的逻辑表

pm2库 pm3库 (分片表使用mycat) 都有pm_enb_开头的表, 在mycat中配置为分片的逻辑表, 且为了分片是提前创建好的, 为了实现数据均分

pm_enb_r001

pm_enb_r001d

pm_enb_r001h

1、逻辑库(schema)
前面一节讲了数据库中间件，通常对实际应用来说，并不需要知道中间件的存在，业务开发
人员只需要知道数据库的概念，所以数据库中间件可以被看做是一个或多个数据库集群构成
的逻辑库。
2、逻辑表（table）
既然有逻辑库，那么就会有逻辑表，分布式数据库中，对应用来说，读写数据的表就是逻辑
表。逻辑表，可以是数据切分后，分布在一个或多个分片库中，也可以不做数据切分，不分
片，只有一个表构成。
分片表：是指那些原有的很大数据的表，需要切分到多个数据库的表，这样，每个分片都有
一部分数据，所有分片构成了完整的数据。总而言之就是需要进行分片的表。
非分片表：一个数据库中并不是所有的表都很大，某些表是可以不用进行切分的，非分片是
相对分片表来说的，就是那些不需要进行数据切分的表。
3、分片节点(dataNode)
数据切分后，一个大表被分到不同的分片数据库上面，每个表分片所在的数据库就是分片节
点（dataNode）。
4、节点主机(dataHost)
数据切分后，每个分片节点（dataNode）不一定都会独占一台机器，同一机器上面可以有
多个分片数据库，这样一个或多个分片节点（dataNode）所在的机器就是节点主机
（dataHost）,为了规避单节点主机并发数限制，尽量将读写压力高的分片节点
（dataNode）均衡的放在不同的节点主机（dataHost）。
5、分片规则(rule)
前面讲了数据切分，一个大表被分成若干个分片表，就需要一定的规则，这样按照某种业务
规则把数据分到某个分片的规则就是分片规则，数据切分选择合适的分片规则非常重要，将
极大的避免后续数据处理的难度。

Mycat配置:

schema.xml文件位于conf目录下，Schema.xml作为MyCat中重要的配置文件之一，管理着MyCat的逻辑库、表、分片规则、DataNode以及DataSource。

hash取模均衡 Java hash取模分表_hash取模均衡 Java_02

数据库中间件 mycat, 对多个表分片(按一定的rule规则进行),供高可用性数据分片集群;

支持数据自动分片到多个节点，用于高效表关联查询,垮库join

在github下载Mycat-Server这个项目

设置user name，password及schemas， name和password要在Mycat连接MySQL数据库时使用，
schemas是逻辑库，要和schema.xml里的schema name对应

server.xml 里有 password (123456)和schemas (TESTDB 即在mycat当中显示的模拟库的名称) 等下使用 navicat连接

schema.xml 也要配置 TESTDB(即在mycat当中显示的模拟库的名称)

schema.xml配置详解释:
Schema

name:逻辑库名称，sqlMaxLimit:默认显示条数
Table
name:逻辑表名称，rule:分片规则

D:\mycat\bin修改rule.xml
此次选用默认的取模模式mod-long规则(即分片为10张表)，只需修改count数，对应上subTables数

Mycat 实现MySQL单库分表及实现数据均分

在mysql库上创建10张表 user1-user10

在我们的项目中,对如下开头的表使用mycat分片管理了pm2 pm3库(即mycat的多库分片)

pm_enb_r001 pm2 和 pm3库都有pm_enb_开头的表(这些都是分片表),且表的个数和结构一样,如pm_enb_r001表(nei=101的在pm3库有,在pm2库就没有,正好验证了数据均分的)

计数器组表 pm_counter_groups

网元计数器表表名拼写规则 pm_网元类型_计数器组id(即pm_counter_groups表group_id字段)

pm1库和pm2库都有如下的表 pm_enb_r001 pm_enb_r001d pm_enb_r001h pm_enb_r001m

pm_enb_r001表是每隔15分钟网元上报解析入库的表,

pm_enb_r001m m结尾表示分钟粒度的网元计数器表(这个是网元每隔1分钟上报的二进制文件, 解析入库; 而15分钟的是网元每隔15分钟,解析入库

d, h结尾的表是mysql定时事件调用存储过程计算出的天粒度小时粒度的数据

pm_gnb_r1024hy
pm_epc_c014d
pm_north_1000000
pm_dn_temp_10019
pm_data_r600_tmp

使用分片后,如何查询分片表对应的总表?

查询逻辑表名就可以了, 即 select * from pm_enb_r001 (你配置了好多个逻辑表(分片的逻辑表和非分片的逻辑表))

-- 需要分片的表  dataNode值是多个  rule是分片规则
<table name="pm_enb_r001" primaryKey="neid" dataNode="dn2,dn3", rule="mod-long" />

-- 不需要分片的表 (只有name 和 dataNode的值只有一个)
<table name="pm_dictionary" dataNode="dn1" />

使用mycat以后, 执行shell脚本(在多个库下执行sql文件)
(install_pc.sh parameter.ini文件定义了database=pm3 修改parameter.ini参数 database=pm2,pm3 )执行创建库的存储过程,
即执行shell文件即可在 pm2 pm3库下执行创建库的sql文件(生成的表结构完全一致,且都是1247个)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。