分片的目的
高数据量和吞吐量的数据库应用会对单机的性能造成较大压力,大的查询量会将单机的CPU耗尽,大的数据量对单机的存储压力较大,最终会耗尽系统的内存而将压力转移到磁盘IO上.
为了解决这些问题,有两个基本的方法:纵向扩展和分片.
分片为应对高吞吐量与大数据量提供了方法.
使用分片减少了每个分片需要处理的请求数,因此,通过水平扩展,集群可以提高自己的存储容量和吞吐量.
举例来说,当插入一条数据时,应用只需要访问存储这条数据的分片.
使用分片减少了每个分片存储的数据.
举例来说,如果一个数据库有1TB数据,并有4个分片,则每个分片只需要存储256GB数据,如果数据库有40个分片,则每个分片只需要存储25GB数据
数据分区
MongoDB中数据的分片是以集合为基本单位的,集合中的数据通过片键被分成多部分.
片键
对集合进行分片时,你需要选择一个片键,shard key是每条记录都必须包含的,且建立了索引的单个字段或复合字段,MongoDB按照片键将数据划分到不同的数据块中,并将数据块均衡地分布到所有分片中.为了按照片键划分数据块,MongoDB使用基于范围的分片方式或者基于哈希的分片方式,参见片键获得更多信息.
以范围为基础的分片
对于基于范围的分片,MongoDB按照片键的范围把数据分成不同部分.假设有一个数字的片键:想象一个从负无穷到正无穷的直线,每一个片键的值都在直线上画了一个点.MongoDB把这条直线划分为更短的不重叠的片段,并称之为数据块,每个数据块包含了片键在一定范围内的数据.
在使用片键做范围划分的系统中,拥有”相近”片键的文档很可能存储在同一个数据块中,因此也会存储在同一个分片中.
基于哈希的分片
对于基于哈希的分片,MongoDB计算一个字段的哈希值,并用这个哈希值来创建数据块.
在使用基于哈希分片的系统中,拥有”相近”片键的文档很可能不会存储在同一个数据块中,因此数据的分离性更好一些.
部署一个集群
分片和”localhost”地址
如果你使用”localhost”或者127.0.0.1在任意一处地方作为主机标识,比如使用addShard命令时的host参数或者--configdb `作为启动参数,你必须保证在所有地方使用其中一个,如果混用了"localhost"和 ``127.0.0.1`,MongoDB会报错.
启动配置服务器
配置服务器是存储集群元信息的mongod实例.使用--configsvr指定一个mongod为配置服务器,每个配置服务器都存储了集群的一份完整的元信息.
在生产环境下,你必须部署三个配置服务器,每个配置服务器都运行在不同的服务器上以保证良好的正常运行时间和数据安全.在测试环境下,你可以将三台配置服务器运行在一台服务器上.
为三个配置服务器创建数据目录,默认情况下,配置服务器将数据文件存储在/data/configdb目录下.你也可以自己指定不同的位置用来存储数据文件.通过简单的命令创建数据目录:
mkdir /data/configdb
启动三台配置服务器,每台都通过一下命令启动:
mongod --configsvr --dbpath --port
配置服务器的默认端口是27019.你也可以自己指定.以下示例使用默认的端口和默认的数据目录启动一个配置服务器.
mongod --configsvr --dbpath /data/configdb --port 27019
注解
初始化sharded cluster时所有配置服务器必须正常运行并且可以访问.
启动mongos实例
mongos实例是轻量服务,并且不需要数据目录,你可以将mongos运行在已经部署了其他服务的系统中,比如应用服务器或者 运行了mongod的机器上.:program:mongos默认运行在27017端口上.
在启动mongos时,需要指定三台配置服务器的域名,可以在配置文件或者启动命令参数中指定.
TIP
To avoid downtime, give each config server a logical DNS name (unrelated to the server’s physical or virtual hostname). Without logical DNS names, moving or renaming a config server requires shutting down everymongodandmongosinstance in the sharded cluster.
使用以下语法启动mongos实例:
mongos --configdb
示例:使用以下配置服务器,在默认端口上启动mongos:
cfg0.example.net
cfg1.example.net
cfg2.example.net
你需要使用以下命令:
mongos --configdb cfg0.example.net:27019,cfg1.example.net:27019,cfg2.example.net:27019
每个mongos必须使用configDB按照相同的顺序指定配置服务器列表.
如果你启动一个mongos时,指定的配置服务器列表与其他mongos中指定的不同,mongos会返回配置服务器字符串错误错误并退出启动.
向集群中添加分片
一个shard可以是一个单独的:program:mongod或者一个replica set.在生产环境中,每个分片都应该是一个复制集.参见部署复制集将每个分片部署为复制集.
使用以下命令,从mongo终端连接到mongos.
mongo --host --port
示例:如果mongos部署在mongos0.example.net``的``27017端口上,使用以下命令进行连接:
mongo --host mongos0.example.net --port 27017
正如下面的示例,使用sh.addShard()在集群中添加分片.每次使用sh.addShard()添加一个分片.如果分片是复制集,需要指定复制集的名字与一个成员名字.在生产环境中,所有分片都应该是复制集.
可选配置
You can instead use theaddSharddatabase command, which lets you specify a name and maximum size for the shard. If you do not specify these, MongoDB automatically assigns a name and maximum size. To use the database command, seeaddShard.
以下是使用sh.addShard()添加分片的例子:
假设一个分片使用了复制集,复制集名字为rs1,有一个运行在mongodb0.example.net且端口为27017的成员,使用以下命令添加这个分片:
sh.addShard( "rs1/mongodb0.example.net:27017" )
在 2.0.3 版更改.
在2.0.3之前的版本,你必须指定复制集中所有的成员,示例:
sh.addShard( "rs1/mongodb0.example.net:27017,mongodb1.example.net:27017,mongodb2.example.net:27017" )
添加运行在mongodb0.example.net端口为27017的单机mongod分片,需要执行以下命令:
sh.addShard( "mongodb0.example.net:27017" )
注解
将数据块迁移到新的分片需要花费一些时间.
为集群开启分片
在对集合进行分片之前,必须开启数据库的分片.对数据库开启分片不会导致数据的重新分配,但这是对这个数据库中集合进行分片的前提.
一旦为数据库开启了分片,MongoDB就会为这个数据库指定一个primary shard,所有未分片的数据都会存储在这个分片上.
使用以下命令,从mongo终端连接到mongos.
mongo --host --port
使用sh.enableSharding()需要指定要开启分片的数据库的名字,语法如下:
sh.enableSharding("")
你也可以使用enableSharding命令对数据库开启分片,语法如下:
db.runCommand( { enableSharding: } )
对集合开启分片
分片以集合为基本单位.
首先选择一个shard key,所选择的片键会影响集群的效率.参见选择片键的注意事项.获得注意事项.
如果集合中已经包含有数据,需要使用ensureIndex()在片键上创建索引.如果集合是空的,MongoDB会在sh.shardCollection()过程中自动创建索引.
sh.shardCollection(".", shard-key-pattern)
将.字符串换成你数据库的ns,由数据库的全名,一个点(即.),和集合的全名组成,shard-key-pattern换成你的片键,名字为创建索引时指定的名字.
示例
The following sequence of commands shards four collections:
sh.shardCollection("records.people", { "zipcode": 1, "name": 1 } )
sh.shardCollection("people.addresses", { "state": 1, "_id": 1 } )
sh.shardCollection("assets.chairs", { "type": 1, "_id": 1 } )
sh.shardCollection("events.alerts", { "_id": "hashed" } )
按照顺序操作分片:
records数据库中的people集合使用{"zipcode":1,"name":1}片键开启分片.
这个集合使用zipcode字段重新分配数据.如果很多文档都有相同的zipcode值,chunk会按照name的值进行分裂.
people数据库中的addresses集合使用片键{"state":1,"_id":1}.
这个片键使用state字段重新分配数据.如果很多文档都有相同的state值,chunk会按照_id的值进行分裂.
assets数据库中的chairs集合使用{"type":1,"_id":1}做片键.
这个片键使用type字段重新分配数据.如果很多文档都有相同的type值,chunk会按照_id的值进行分裂.
events数据库中的alerts集合使用{"_id":"hashed"}做片键.
2.4 新版功能.
这个片键使用_id的散列值重新分配数据.MongoDB为散列索引计算_id的值,可以保证集群中数据的均衡.