由于历史原因,生产环境的几台mongodb都是单机在运行,考虑到宕机等不确定的风险,需要给他们做一下高可用。mongodb原生的复制集方案非常简单好用。
下面,就是相关的测试环境实验笔记。。。。
单机mongodb转为复制集的操作步骤:
MongoDB版本: 3.2.16
实验环境中,3个mongodb实例运行在同一个虚拟机上。另外,从节约资源考虑,我们最终搭建完的结构是: 1主、1备、1仲裁节点
当前正在运行的单机节点: 192.168.10.10:27117
配置如下:
systemLog: destination: file quiet: true path: mongodb_27117.log logAppend: true logRotate: reopen processManagement: fork: true pidFilePath: mongod_27117.pid net: bindIp: 0.0.0.0 port: 27117 setParameter: cursorTimeoutMillis: 60000 operationProfiling: slowOpThresholdMs: 500 storage: dbPath: /opt/mongodb/27117/ directoryPerDB: true engine: wiredTiger journal: enabled: true
打算新增的2个节点:
192.168.10.10:27118 standby节点
192.168.10.10:27119 仲裁节点
下面开始操作:
1、业务低峰期,申请操作窗口时间。然后关闭当前的 27117 节点 ,并去修改配置如下:
> use admin > db.shutdownServer()
修改 27117 的配置文件,在最后加上3行内容,设置10G的oplog大小,基本上够用了:
replication:
oplogSizeMB: 10240
replSetName: test01
2、再次启动 27117 进程
./mongod -f 27117.conf
3、初始化集群配置
./mongo --port 27117
> config = { _id:"test01", members:[ {_id:0,host:"192.168.10.10:27117"} ] } > rs.initiate(config) test01:PRIMARY> rs.status() { "set" : "test01", "date" : ISODate("2019-06-20T14:07:03.057Z"), "myState" : 1, "term" : NumberLong(1), "heartbeatIntervalMillis" : NumberLong(2000), "members" : [ { "_id" : 0, "name" : "192.168.10.10:27117", "health" : 1, "state" : 1, "stateStr" : "PRIMARY", "uptime" : 58, "optime" : { "ts" : Timestamp(1561039618, 1), "t" : NumberLong(1) }, "optimeDate" : ISODate("2019-06-20T14:06:58Z"), "infoMessage" : "could not find member to sync from", "electionTime" : Timestamp(1561039617, 2), "electionDate" : ISODate("2019-06-20T14:06:57Z"), "configVersion" : 1, "self" : true } ], "ok" : 1 }
4、 启动 27118 27119 实例
编辑 27118 和 27119 的配置文件,大致如下:
systemLog: destination: file quiet: true path: mongodb_27119.log logAppend: true logRotate: reopen processManagement: fork: true pidFilePath: mongod_27119.pid net: bindIp: 0.0.0.0 port: 27119 setParameter: cursorTimeoutMillis: 60000 storage: dbPath: /opt/mongodb/27119/ directoryPerDB: true engine: wiredTiger journal: enabled: true operationProfiling: slowOpThresholdMs: 500 replication: oplogSizeMB: 10240 replSetName: test01
启动进程:
./mongod -f 27118.conf ./mongod -f 27119.conf
5、登录到 27117 实例里,将 27118 和 27119 加到集群中去
./mongo --port 27117 > rs.add("192.168.10.10:27118") > rs.addArb("192.168.10.10:27119")
6、查看集群状态
> rs.status()
由于有数据正在同步过程中,这里可能看到新加的节点是startup或者其它的状态,稍等即可。
【注意:新加的节点在做全量同步的时候,大概率会造成主库内存占用过大,因此不要把主库的内存设得过大,防止同步数据的时候把主库拖垮了】
> rs.conf()
7、测试故障切换【可选】
> use admin > rs.stepDown()
观察需要多久自动选出新的主节点,没问题后,再将主库切回到原先的状态
8、添加相关的监控
可以采用zabbix 或者 mongodb_exporter 来采集数据
9、联系业务方修改业务上mongodb的连接方式,从原先的单机方式改为复制集方式 【非常重要】