MongoDB分片(Sharding)技术
分片(sharding)是MongoDB用来将大型集合分割到不同服务器(或者说一个集群)上所采用的方法。尽管分片起源于关系型数据库分区,但MongoDB分片完全又是另一回事。
和MySQL分区方案相比,MongoDB的最大区别在于它几乎能自动完成所有事情,只要告诉MongoDB要分配数据,它就能自动维护数据在不同服务器之间的均衡。
1 分片的目的 高数据量和吞吐量的数据库应用会对单机的性能造成较大压力,大的查询量会将单机的CPU耗尽,大的数据量对单机的存储压力较大,最终会耗尽系统的内存而将压力转移到磁盘IO上。
为了解决这些问题,有两个基本的方法: 垂直扩展和水平扩展。
垂直扩展:增加更多的CPU和存储资源来扩展容量。
水平扩展:将数据集分布在多个服务器上。水平扩展即分片。
2 分片设计思想 分片为应对高吞吐量与大数据量提供了方法。使用分片减少了每个分片需要处理的请求数,因此,通过水平扩展,集群可以提高自己的存储容量和吞吐量。举例来说,当插入一条数据时,应用只需要访问存储这条数据的分片.
使用分片减少了每个分片存储的数据。
例如,如果数据库1tb的数据集,并有4个分片,然后每个分片可能仅持有256 GB的数据。如果有40个分片,那么每个切分可能只有25GB的数据。
Docker部署 架构设计:
三台主机启动相同的进程,mongos 、config server、shard server
Rancher 部署 每个主机按照计划添加标签:
mongos=true
shard2=true
shard3=true
shard1=true
config=true
host网络模式,端口务必不能被占用
新建服务:
粘贴以下内容:
compose
version: '2'
services:
shard2:
image: mongo:4.0.1-xenial
stdin_open: true
network_mode: host
volumes:
- /data/shard2:/data/db
tty: true
command:
- /usr/bin/mongod
- --shardsvr
- --replSet
- shard2
- --port
- '27002'
- --bind_ip_all
- --dbpath
- /data/db
- --logpath
- /data/db/shard2.log
- --oplogSize
- '10'
labels:
io.rancher.scheduler.affinity:host_label: shard2=true
io.rancher.container.pull_image: always
io.rancher.scheduler.global: 'true'
mongos:
image: mongo:4.0.1-xenial
stdin_open: true
network_mode: host
volumes:
- /data/mongos:/data/db
tty: true
command:
- mongos
- --configdb
- myset/172.20.101.132:27000,172.20.101.133:27000,172.20.101.134:27000
- --port
- '27017'
- --bind_ip_all
labels:
io.rancher.scheduler.affinity:host_label: mongos=true
io.rancher.container.pull_image: always
io.rancher.scheduler.global: 'true'
shard3:
image: mongo:4.0.1-xenial
stdin_open: true
network_mode: host
volumes:
- /data/shard3:/data/db
tty: true
command:
- /usr/bin/mongod
- --shardsvr
- --replSet
- shard3
- --port
- '27003'
- --bind_ip_all
- --dbpath
- /data/db
- --logpath
- /data/db/shard3.log
- --oplogSize
- '10'
labels:
io.rancher.scheduler.affinity:host_label: shard3=true
io.rancher.container.pull_image: always
io.rancher.scheduler.global: 'true'
shard1:
image: mongo:4.0.1-xenial
stdin_open: true
network_mode: host
volumes:
- /data/shard1:/data/db
tty: true
command:
- /usr/bin/mongod
- --shardsvr
- --replSet
- shard1
- --port
- '27001'
- --bind_ip_all
- --dbpath
- /data/db
- --logpath
- /data/db/shard1.log
- --oplogSize
- '10'
labels:
io.rancher.scheduler.affinity:host_label: shard1=true
io.rancher.container.pull_image: always
io.rancher.scheduler.global: 'true'
config:
image: mongo:4.0.1-xenial
stdin_open: true
network_mode: host
volumes:
- /data/config:/data/db
tty: true
command:
- /usr/bin/mongod
- --configsvr
- --replSet
- myset
- --bind_ip_all
- --dbpath
- /data/db
- --port
- '27000'
- --logpath
- /data/db/config.log
labels:
io.rancher.scheduler.affinity:host_label: config=true
io.rancher.container.pull_image: always
io.rancher.scheduler.global: 'true'
rancher-compose:
rancher-compose
version: '2'
services:
mongos:
start_on_create: true
shard2:
start_on_create: true
shard3:
start_on_create: true
shard1:
start_on_create: true
config:
start_on_create: true
1、登录某一个宿主机链接shard1:
127.0.0.1:27001/admin
config = { _id:"shard1", members:[
{_id:0,host:"172.20.101.132:27001"},
{_id:1,host:"172.20.101.133:27001"},
{_id:2,host:"172.20.101.134:27001"}
]
}
rs.initiate(config)
2、链接shard2
127.0.0.1:27002/admin
config = { _id:"shard2", members:[
{_id:0,host:"172.20.101.132:27002"},
{_id:1,host:"172.20.101.133:27002"},
{_id:2,host:"172.20.101.134:27002"}
]
}
rs.initiate(config)
3、链接shard3
127.0.0.1:27003/admin
config = { _id:"shard3", members:[
{_id:0,host:"172.20.101.132:27003"},
{_id:1,host:"172.20.101.133:27003"},
{_id:2,host:"172.20.101.134:27003"}
]
}
rs.initiate(config) 4、链接config服务:
config = {_id: 'myset', members: [
{_id: 0, host: '172.20.101.132:27000'},
{_id: 1, host: '172.20.101.133:27000'},
{_id: 2, host: '172.20.101.134:27000'}]
}
rs.initiate(config) 5、登录mongos:
mongo 127.0.0.1:27017/admin #登录mongos,增加节点
db.runCommand( { addshard : "shard1/172.20.101.132:27001,172.20.101.133:27001,172.20.101.134:27001",name:"shard1"});
db.runCommand( { addshard : "shard2/172.20.101.132:27002,172.20.101.133:27002,172.20.101.134:27002",name:"shard2"});
db.runCommand( { addshard : "shard3/172.20.101.132:27003,172.20.101.133:27003,172.20.101.134:27003",name:"shard3"});
6、查看集群状态 sh.status() 主机安装 一、安装
1、
cat >/etc/yum.repos.d/mongodb-org-4.0.repo<<EOF [mongodb-org-4.0] name=MongoDB Repository baseurl=https://repo.mongodb.org/yum/redhat/$releasever/mongodb-org/4.0/x86_64/ gpgcheck=1 enabled=1 gpgkey=https://www.mongodb.org/static/pgp/server-4.0.asc EOF
yum install -y mongodb-org-4.0.1 mongodb-org-server-4.0.1 mongodb-org-shell-4.0.1 mongodb-org-mongos-4.0.1 mongodb-org-tools-4.0.1
2、
建立目录 mongos目录、config server目录、share目录
mkdir -p /data/mongodb/{shard1,shard2,shard3,mongos,config,shard1/data,shard1/log,shard2/data,shard2/log,shard3/data,shard3/log,mongos/log,config/log,config/data}
chown mongod.mongod /data/mongodb/ -R
3、
需要启动5个进程所以要规划5个组件对应的端口号,由于一个机器需要同时部署 mongos、config server 、shard1、shard2、shard3
mongos:27017
config server:27000
shard1、shard2、shard3 : 27001 27002 27003
4、启动各进程
#mongos mongos --configdb myset/172.20.101.132:27000,172.20.101.133:27000,172.20.101.134:27000 --port 27017 --logpath /data/mongodb/mongos/mongos.log --fork
#config mongod --configsvr --replSet myset --bind_ip_all --dbpath /data/mongodb/config/data --port 27000 --logpath /data/mongodb/config/log/config.log --fork
#shard1 #shard2 #shard3
mongod --shardsvr --replSet shard1 --bind_ip_all --port 27001 --dbpath /data/mongodb/shard1/data --logpath /data/mongodb/shard1/log/shard1.log --fork --oplogSize 10 mongod --shardsvr --replSet shard2 --bind_ip_all --port 27002 --dbpath /data/mongodb/shard2/data --logpath /data/mongodb/shard2/log/shard2.log --fork --oplogSize 10 mongod --shardsvr --replSet shard3 --bind_ip_all --port 27003 --dbpath /data/mongodb/shard3/data --logpath /data/mongodb/shard3/log/shard3.log --fork --oplogSize 10
5、设置副本集
连接 shard1:mongo 127.0.0.1:27001/admin/
config = { _id:"shard1", members:[ {_id:0,host:"172.20.101.132:27001"}, {_id:1,host:"172.20.101.133:27001"}, {_id:2,host:"172.20.101.134:27001",arbiterOnly:true} ] } rs.initiate(config)
连接 shard2:mongo 127.0.0.1:27001/admin
config = { _id:"shard2", members:[ {_id:0,host:"172.20.101.132:27002"}, {_id:1,host:"172.20.101.133:27002"}, {_id:2,host:"172.20.101.134:27002",arbiterOnly:true} ] } rs.initiate(config)
连接 shard3:mongo 127.0.0.1:27001/admin
config = { _id:"shard3", members:[ {_id:0,host:"172.20.101.132:27003"}, {_id:1,host:"172.20.101.133:27003"}, {_id:2,host:"172.20.101.134:27003",arbiterOnly:true} ] }
config server 副本
config = {_id: 'myset', members: [ {_id: 0, host: '172.20.101.132:27000'}, {_id: 1, host: '172.20.101.133:27000'}, {_id: 2, host: '172.20.101.134:27000'}] } rs.initiate(config)
6、mongo 127.0.0.1:27017/admin #登录mongos,增加节点
db.runCommand( { addshard : "shard1/172.20.101.132:27001,172.20.101.133:27001,172.20.101.134:27001",name:"shard1"}); db.runCommand( { addshard : "shard2/172.20.101.132:27002,172.20.101.133:27002,172.20.101.134:27002",name:"shard2"}); db.runCommand( { addshard : "shard3/172.20.101.132:27003,172.20.101.133:27003,172.20.101.134:27003",name:"shard3"});
致辞,部署完成。
测试: 1、杀掉第二个节点所有进程 可读写,没有任何影响 2、继续杀掉第一个主节点 只剩第三个节点,第三个节点依然是SECONDARY,节点不可写。重启节点2后,节点3变为主节点,功能恢复,继续启动第一个节点,第几节点变为SECONDARY
3、如果节点太长时间没有建立连接,启动后会变成recovery状态,操作:关掉进程,删除数据文件,重启即可。
4、添加删除shard 节点:
rs.remove("172.20.101.134:27002"); rs.add("172.20.101.134:27002");
5、添加删除shard分片,需要在主节点操作,查找主节点,链接mongos:mongo ip:27017/admin,sh.status()即可找到主节点
db.runCommand( { addshard : "shard4/172.20.101.125:27004,172.20.101.133:27004",name:"shard4"}); db.runCommand( { removeshard : "shard4/172.20.101.125:27004,172.20.101.133:27004",name:"shard4"});
常用操作: 1、用户相关
db.auth('admin','ptmind') #登录认证
创建用户附权限 db.createUser({user:'datadeck', pwd:'ptmind', roles:['userAdminAnyDatabase']}); db.createUser({user:'datadeck', pwd:'ptmind', roles:['root']});
2、增删改查:
新建并选择数据库 use nettest
新增并写入数据
db.testtable.insert({'k':'3','c':'4'}) 查看表 show collections 查看表内数据 db.testtable.find().pretty()
添加删除shard 节点:
rs.remove("172.20.101.134:27002"); rs.add("172.20.101.134:27002");
添加删除shard分片,需要在主节点操作,查找主节点,链接mongos:mongo ip:27017/admin,sh.status()即可找到主节点
db.runCommand( { addshard : "shard4/172.20.101.125:27004,172.20.101.133:27004",name:"shard4"}); db.runCommand( { removeshard : "shard4/172.20.101.125:27004,172.20.101.133:27004",name:"shard4"});
3、集群状态
查看副本集命令:
db.runCommand( { listshards : 1 } )
查看状态:
sh.status();
激活数据库分片功能
语法:( { enablesharding : "数据库名称" } )
mongos> db.runCommand( { enablesharding : "test" } ) 指定分片建对集合分片,范围片键–创建索引
查看shard状态,登录某个shard节点
rs.status()
4、备份恢复
a、mongodump 导出为二进制bson文件
mongodump -h dbhost -d dbname -o dbdirectory(目录)
备份单个collection
mongodump --db test --collection collection
备份单个库
mongodump -h 127.0.0.1:27017/admin -d db_distribution_test_YYJOTVSUQI -o /var/tmp/db_distribution_test_YYJOTVSUQI.mongodb
备份整个库去掉表明即可
mongorestore恢复数据默认是追加,如打算先删除后导入,可以加上--drop参数,不过添加--drop参数后,会将数据库数据清空后再导入,如果数据库备份后又新加入了数据,也会将新加的数据删除,它不像mysql有一个存在的判断。 mongorestore -h <hostname><:port> -d dbname <path>
b、mongoexport
-h,--host :代表远程连接的数据库地址,默认连接本地Mongo数据库; --port:代表远程连接的数据库的端口,默认连接的远程端口27017; -u,--username:代表连接远程数据库的账号,如果设置数据库的认证,需要指定用户账号; -p,--password:代表连接数据库的账号对应的密码; -d,--db:代表连接的数据库; -c,--collection:代表连接数据库中的集合; -f, --fields:代表集合中的字段,可以根据设置选择导出的字段; --type:代表导出输出的文件类型,包括csv和json文件; -o, --out:代表导出的文件名; -q, --query:代表查询条件; --skip:跳过指定数量的数据; --limit:读取指定数量的数据记录; --sort:对数据进行排序,可以通过参数指定排序的字段,并使用 1 和 -1 来指定排序的方式,其中 1 为升序排列,而-1是用于降序排列,如sort({KEY:1})。 mongoimport 简介,通过帮助先了解下mongoimport的功能参数
关键参数说明:
h,--host :代表远程连接的数据库地址,默认连接本地Mongo数据库; --port:代表远程连接的数据库的端口,默认连接的远程端口27017; -u,--username:代表连接远程数据库的账号,如果设置数据库的认证,需要指定用户账号; -p,--password:代表连接数据库的账号对应的密码; -d,--db:代表连接的数据库; -c,--collection:代表连接数据库中的集合; -f, --fields:代表导入集合中的字段; --type:代表导入的文件类型,包括csv和json,tsv文件,默认json格式; --file:导入的文件名称 --headerline:导入csv文件时,指明第一行是列名,不需要导入; 实例演示:
#首先查看集合中的数据 > db.bike_bak.find() { "_id" : ObjectId("59e8c27804390e04a063159d"), "lat" : 39.9571954199, "bikeId" : "pgdAVg", "current_time" : "2017-10-19 23:19:19", "source" : "ofo", "lng" : 116.3926501736 } #删除集合中的数据 > db.bike_bak.remove({"bikeId" : "pgdAVg"}) WriteResult({ "nRemoved" : 1 }) #查看集合是否包含数据 > db.bike_bak.find() > #导入数据 [root@iZ2ze4b308vd83fulq9n7iZ ~]# mongoimport --port 27030 -u sa -p Expressin@0618 -d mapdb -c bike_bak --type=json --file bike.csv 2017-10-25T11:59:51.020+0800 connected to: localhost:27030 2017-10-25T11:59:51.030+0800 imported 1 document #检查数据是否导入成功 > db.bike_bak.find() { "_id" : ObjectId("59e8c27804390e04a063159d"), "bikeId" : "pgdAVg", "current_time" : "2017-10-19 23:19:19", "lat" : 39.9571954199, "lng" : 116.3926501736, "source" : "ofo" } [root@iZ2ze4b308vd83fulq9n7iZ ~]# mongoimport --help Usage: mongoimport <options> <file>
注意:
当查询时同时使用sort,skip,limit,无论位置先后,最先执行顺序 sort再skip再limit。
实例:
首先查看下数据库中的数据一共多少条,通过的命令的方式查看下我们要导出的数据信息
db.bike.find().count() 16878865 db.bike.find({"source":"ofo"}).limit(1) { "_id" : ObjectId("59e8c27804390e04a063159d"), "lat" : 39.9571954199, "bikeId" : "pgdAVg", "current_time" : "2017-10-19 23:19:19", "source" : "ofo", "lng" : 116.3926501736 } > 如何通过mongoexport导出"bikeId" : "pgdAVg"的数据,我导出了json和csv两种类型的数据;
#导出类型为json,数据库:mapdb,集合:bike 字段:bikeId,lat,lng,current_time,source ,条件为source字段为ofo第一条数据 mongoexport --port 27030 -u sa -p Expressin@0618 -d mapdb -c bike -f bikeId,lat,lng,current_time,source --type=json -o bike.csv --query='{"source":"ofo"}' --limit=1 #导出类型为csv,数据库:mapdb,集合:bike 字段:bikeId,lat,lng,current_time,source ,条件为source字段为ofo第一条数据 mongoexport --port 27030 -u sa -p Expressin@0618 -d mapdb -c bike -f bikeId,lat,lng,current_time,source --type=csv -o bike.csv --query='{"source":"ofo"}' --limit=1