1.1 MyCat分片-海量数据存储解决方案 1.1.1 什么是分片 简单来说,就是指通过某种特定的条件,将我们存放在同一个数据库中的数据分散存放到多个数据库(主机)上面,以达到分散单台设备负载的效果。 数据的切分(Sharding)根据其切分规则的类型,可以分为两种切分模式。 (1)一种是按照不同的表(或者 Schema)来切分到不同的数据库(主机)之上,这种切分可以称之为数据的垂直(纵向)切分 (2)另外一种则是根据表中的数据的逻辑关系,将同一个表中的数据按照某种条件拆分到多台数据库(主机)上面,这种切分称之为数据的水平(横向)切分。

MyCat 分片策略: 1.1.2 分片相关的概念 逻辑库(schema) : 前面一节讲了数据库中间件,通常对实际应用来说,并不需要知道中间件的存在,业务开发人员只需要知道数据库的概念,所以数据库中间件可以被看做是一个或多个数据库集群构成的逻辑库。 逻辑表(table): 既然有逻辑库,那么就会有逻辑表,分布式数据库中,对应用来说,读写数据的表就是逻辑表。逻辑表,可以是数据切分后,分布在一个或多个分片库中,也可以不做数据切分,不分片,只有一个表构成。 分片表:是指那些原有的很大数据的表,需要切分到多个数据库的表,这样,每个分片都有一部分数据,所有分片构成了完整的数据。 总而言之就是需要进行分片的表。 非分片表:一个数据库中并不是所有的表都很大,某些表是可以不用进行切分的,非分片是相对分片表来说的,就是那些不需要进行数据切分的表。 分片节点(dataNode) 数据切分后,一个大表被分到不同的分片数据库上面,每个表分片所在的数据库就是分片节点(dataNode)。 节点主机(dataHost) 数据切分后,每个分片节点(dataNode)不一定都会独占一台机器,同一机器上面可以有多 个分片数据库,这样一个或多个分片节点(dataNode)所在的机器就是节点主机(dataHost), 为了规避单节点主机并发数限制,尽量将读写压力高的分片节点(dataNode)均衡的放在不 同的节点主机(dataHost)。 分片规则(rule) 前面讲了数据切分,一个大表被分成若干个分片表,就需要一定的规则,这样按照某种业务规则把数据分到某个分片的规则就是分片规则,数据切分选择合适的分片规则非常重要,将极大的避免后续数据处理的难度。 1.1.3 MyCat分片配置 (1)配置 schema.xml schema.xml 作为 MyCat 中重要的配置文件之一,管理着 MyCat 的逻辑库、逻辑表以及对应的分片规则、DataNode 以及 DataSource。弄懂这些配置,是正确使用 MyCat 的前提。这里就一层层对该文件进行解析。 schema 标签用于定义 MyCat 实例中的逻辑库 Table 标签定义了 MyCat 中的逻辑表 rule 用于指定分片规则,auto-sharding-long 的分片规则是按 ID 值的范围进行分片 1-5000000 为第 1 片 5000001-10000000 为第 2 片.... 具体 设置我们会在第 5 小节中讲解。 dataNode 标签定义了 MyCat 中的数据节点,也就是我们通常说所的数据分片。 dataHost 标签在mycat 逻辑库中也是作为最底层的标签存在,直接定义了具体的数据库实例、读写分离配置和心跳语句。 在服务器上创建 3 个数据库,分别是 db1 db2 db3 修改 schema.xml 如下: <?xml version="1.0"?> <!DOCTYPE mycat:schema SYSTEM "schema.dtd"> <mycat:schema xmlns:mycat="http://org.opencloudb/"> <schema name="PINYOUGOUDB" checkSQLschema="false" sqlMaxLimit="100"> <table name="tb_test" dataNode="dn1,dn2,dn3" rule="auto-sharding-long" /> </schema> <dataNode name="dn1" dataHost="localhost1" database="db1" /> <dataNode name="dn2" dataHost="localhost1" database="db2" /> <dataNode name="dn3" dataHost="localhost1" database="db3" /> <dataHost name="localhost1" maxCon="1000" minCon="10" balance="0" writeType="0" slaveThreshold="100"> dbType="mysql dbDriver="native switchType="1" <heartbeat>select user()</heartbeat> <writeHost host="hostM1" url="192.168.25.142:3306" user="root" password="123456"> </writeHost> </dataHost> </mycat:schema> (2)配置 server.xml server.xml 几乎保存了所有 mycat 需要的系统配置信息。最常用的是在此配置用户名、密码及权限。在 system 中添加 UTF-8 字符集设置,否则存储中文会出现问号 <property name="charset">utf8</property> 修改 user 的设置 , 我们这里为 PINYOUGOUDB 设置了两个用户 <user name="test"> <property name="password">test</property> <property name="schemas">PINYOUGOUDB</property> </user> <user name="root">

<property name="password">123456</property> <property name="schemas">PINYOUGOUDB</property> </user>

1.1.4 MyCat分片测试 进入 mycat ,执行下列语句创建一个表: CREATE TABLE tb_test ( id BIGINT(20) NOT NULL, title VARCHAR(100) NOT NULL , PRIMARY KEY (id) ) ENGINE=INNODB DEFAULT CHARSET=utf8

创建后你会发现,MyCat 会自动将你的表转换为大写,这一点与 Oracle 有些类似。

我们再查看 MySQL 的 3 个库,发现表都自动创建好啦。好神奇。 接下来是插入表数据,注意,在写 INSERT 语句时一定要写把字段列表写出来,否则会出现下列错误提示: 错误代码: 1064 partition table, insert must provide ColumnList 我们试着插入一些数据: INSERT INTO TB_TEST(ID,TITLE) VALUES(1,'goods1'); INSERT INTO TB_TEST(ID,TITLE) VALUES(2,'goods2'); INSERT INTO TB_TEST(ID,TITLE) VALUES(3,'goods3'); 我们会发现这些数据被写入到第一个节点中了,那什么时候数据会写到第二个节点中呢? 我们插入下面的数据就可以插入第二个节点了 INSERT INTO TB_TEST(ID,TITLE) VALUES(5000001,'goods5000001'); 因为我们采用的分片规则是每节点存储 500 万条数据,所以当 ID 大于 5000000 则会存储到第二个节点上。 目前只设置了两个节点,如果数据大于 1000 万条,会怎么样呢?执行下列语句测试一下 INSERT INTO TB_TEST(ID,TITLE) VALUES(10000001,'goods10000001'); 1.1.5 MyCat分片规则 rule.xml 用于定义分片规则 ,我们这里讲解两种最常见的分片规则 (1)按主键范围分片 rang-long 在配置文件中我们找到

<tableRule name="auto-sharding-long"> <rule> <columns>id</columns> <algorithm>rang-long</algorithm> </rule> </tableRule>

tableRule 是定义具体某个表或某一类表的分片规则名称 columns 用于定义分片的列 algorithm 代表算法名称 我们接着找 rang-long 的定义

<function name="rang-long" class="org.opencloudb.route.function.AutoPartitionByLong"> <property name="mapFile">autopartition-long.txt</property> </function>

Function 用于定义算法 mapFile 用于定义算法需要的数据,我们打开 autopartition-long.txt

range start-end ,data node index # K=1000,M=10000.

0-500M=0 500M-1000M=1 1000M-1500M=2 (2)一致性哈希 murmur 当我们需要将数据平均分在几个分区中,需要使用一致性 hash 规则 我们找到 function 的 name 为 murmur 的定义,将 count 属性改为 3,因为我要将数据分成 3 片 <function name="murmur" class="org.opencloudb.route.function.PartitionByMurmurHash"> <property name="seed">0</property><!-- 默认是 0 --> <property name="count">3</property><!-- 要分片的数据库节点数量,必须指定,否则没法分片 --> <property name="virtualBucketTimes">160</property><!-- 一个实际的数据库节点被映射为这么多虚拟节点,默认是 160 倍,也就是虚拟节点数是物理节点数的 160 倍 --> <!-- <property name="weightMapFile">weightMapFile</property> 节点的权重,没有指定权重的节点默认是 1。以 properties 文件的格式填写,以从 0 开始到 count-1 的整数值也就是节点索引为 key,以节点权重值为值。所有权重值必须是正整数,否则以 1 代替 --> <!-- <property name="bucketMapPath">/etc/mycat/bucketMapPath</property> 用于测试时观察各物理节点与虚拟节点的分布情况,如果指定了这个属性,会把虚拟节点的 murmur hash 值与物理节点的映射按行输出到这个文件,没有默认值,如果不指定,就不会输出任何东西 --> </function> 我们再配置文件中可以找到表规则定义 <tableRule name="sharding-by-murmur"> <rule> <columns>id</columns> <algorithm>murmur</algorithm> </rule> </tableRule>

但是这个规则指定的列是 id ,如果我们的表主键不是 id ,而是 order_id ,那么我们应该重新定义一个 tableRule:

<tableRule name="sharding-by-murmur-order"> <rule> <columns>order_id</columns> <algorithm>murmur</algorithm> </rule> </tableRule> 在 schema.xml 中配置逻辑表时,指定规则为 sharding-by-murmur-order <table name="tb_order" dataNode="dn1,dn2,dn3" rule="sharding-by-murmur-order" /> 我们测试一下,创建品优购的订单表 ,并插入数据,测试分片效果。 1.4 了解数据库读写分离 数据库读写分离对于大型系统或者访问量很高的互联网应用来说,是必不可少的一个重要功能。对于 MySQL 来说,标准的读写分离是主从模式,一个写节点 Master 后面跟着多个读节点,读节点的数量取决于系统的压力,通常是 1-3 个读节点的配置 1.4 了解数据库读写分离 Mycat 读写分离和自动切换机制,需要 mysql 的主从复制机制配合。具体配置步骤参见配套的扩展文档。