关于作者
钟 悦 - 资深DBLE用户
某宇宙行资深架构师,在大型重点项目中使用 DBLE。
常年与 MySQL 纠缠不清,经常运用技术处理大企业病的技术or非技术问题的一个挨踢从业者。
与 hash 算法的最终效果一样,这个算法也是先求模得到逻辑分片号,再根据逻辑分片号直接映射到物理分片的一种散列算法。
- 用户需要在 rule.xml 中给出 patternValue 来定义逻辑分片数量
- 在 DBLE 的启动阶段,读取用户在 rule.xml 中给出的 mapFile,得到逻辑分片到物理分片的映射表
- 在 DBLE 的运行过程中,用户访问使用这个算法的表时,WHERE 子句中的分片索引值会被提取出来进行求模,得到逻辑分片号
- 再根据逻辑分片号,查映射表,直接得到物理分片号
与MyCat的类似分片算法对比
中间件 | DBLE | MyCat |
分片算法种类 | patternrange 分区算法 | 取模范围约束 |
- 两种中间件的取模范围分片算法使用上无差别
开发注意点
- 【分片索引】1. 必须是整型数字或整型数字的字符串(可以为负数)
- 【分片索引】2. 最大物理分片配置方法是,在 mapFile 文件中,为每一个逻辑分片指定单独的物理分片
例如
- 【分片索引】3. 最小物理分片配置方法是,在 mapFile 文件中,为所有逻辑分片指定同一个物理分片
例如
- 【数据分布】1. 与分片索引值相关而与 INSERT 先后无相关性,所以在直接使用时无法保证数据分布均匀,但如果分片索引本身连续递增(交易流水号等),则可以期待数据分布较为平均,但副作用会导致范围语句
例如
变成跨分片查询
运维注意点
- 【扩容】1. 预先过量分片,并且不改变 patternValue,可以避免数据再平衡,只需进行涉及数据的迁移
- 【扩容】2. 若需要改变 patternValue,需要数据再平衡
- 【缩容】1. 预先过量分片,并且不改变 patternValue,可以避免数据再平衡,只需进行涉及数据的迁移
- 【缩容】2. 若需要改变 patternValue,需要数据再平衡
配置注意点
- 【配置项】1,在 rule.xml 中,可配置项为
<property name="patternValue">
和 <property name="mapFile">
和 <property name="defaultNode">
- 【配置项】2,在 rule.xml 中配置
<property name="defaultNode">
标签,非必须配置项,不配置该项的话,用户的分片索引值没落在 mapFile 定义的范围时,DBLE 会报错;若需要配置,必须为非负整数,用户的分片索引值没落在 mapFile定义 的范围时,DBLE 会路由至这个值的 MySQL 分片 - 【配置项】3,在 rule.xml 中配置
<property name="mapFile">
标签,范围映射文件的路径:若在映射文件在 DBLE_HOME/conf 或其中,则可以使用相对路径的形式配置,例如,映射文件是 DBLE_HOME/conf/map/table_map.txt 时,配置值就可以简写为 map/table_map.txt;映射文件在 DBLE_HOME/conf 目录以外时,需要使用绝对路径,但这种做法需要考虑用户权限等问题,因此不建议把映射文件放在 DBLE_HOME/conf 外。 - 【配置项】4,编辑 mapFile 所配置的文件
记录格式为:<逻辑分片范围的最小值>-<逻辑分片范围的最大值>=<物理分片编号>
逻辑分片范围的最小值和逻辑分片范围的最大值必须是整型数字,取值范围为 Java 的长整型范围内,物理分片编号必须是非负整型数字,记录之间以换行分隔,一行仅能有一条记录,允许以 “//” 和 “#” 在行首来注释该行 - 【配置项】5,读取 mapFile 时,DBLE 不会对其中的范围记录查重,也不会检查范围最小值和范围最大值相互之间谁更大
- 【配置项】6,mapFile 中逻辑分片范围的最小值非常重要,DBLE 读取 mapFile 时会对范围进行基于逻辑分片范围的最小值的插入排序,目前的最佳实践是人手确保范围与范围之间没有重叠