一、集群基础
1、系统的扩展方式
- scale up向上扩展:提高单台服务器的性能
- scale out向外扩展:多台服务器联合起来满足同一个需要
2、集群类型
- LB :load balancing,负载均衡集群,通过横向扩展提高系统性能
- 前端 : 负载均衡器,调度器
- 后端 : 上游服务器(upstream server),后端服务器,“真”服务器(real server)
- 传输层 : ipvs(lvs)
- 应用层 : nginx(upstream,proxy)
- 实现方式
- 架构的基本表现方式 SPOF : Single point of failure(单点故障)
- HA : High Avalilability,高可用集群,提供冗余主机提升系统可用性
- 前端:Active,活动服务器
- 后端:passive,备用服务器
- 架构的基本表现方式 avalilability = 平均无故障时间/(平均无故障时间+平均修复时间) 值的取值范围:0-1之间,99%,99.9%, 99.99%,99.999% 5个9表示: 一年有5分钟不在线的时间
- HP : High Performance,高可用集群
组合多台主机解决一个问题, 每个主机只负责其中一部分运算 - DS : Distributed System,分布式系统
- Hadoop的YARN框架
- batch : MapReduce(批处理计算)
- in-memory : spark
- stream : storm
- HDFS(hadoop)
- mogileFS
- ClusterFS
- Ceph(已经收录到linux内核)
- 分布式存储
- 分布式计算
二、集群实现方式
1、集群的实现
- 基于实现方式划分:
- Lvs(Linux virtual Server)
- HAproxy
- Nginx
- ats (apache traffic server)
- perlbal
- F5(BIG-IP)
- Citrix Netscaler
- A10(A10)
- Arry
- redware
- 硬件实现:
- 软件实现
- 基于工作的协议层次划分
- HAproxy(mode http)
- Nginx
- ats
- perlbal
- lvs
- HAproxy(mode tcp)
- 传输层
- 应用层
2、HA集群的实现
- Keepalived
- 通过模拟Vrrp协议来实现地址漂移
- AIS系统
- heartbeat(Centos 6之前系统可能使用)
- Cman+rgmanager(RHCS : Redhat Cluster Suite)
- Corosync+pacemaker+crmsh
三、HA Cluster
HA Nginx Porxy Service需要的关键资源
- 公网IP
- Nginx Service(两台server的时间要严格同步)
- 相同的配置文件
AIS可用性委员组,规定高可用集群栈
- 1、Messaging Layer(Infrastructure Layer),消息层(心跳层)
- 互相传递心跳信息(集群事务信息的传递,由监听的套接字服务来实现),向上提供一堆的API接口,在这周提供高可用的能力
- 2、CRM(Cluster Resource manager)集群资源管理层
- 专门负责高可用集群的资源管理,如:选取主节点
- 其中CRM包含了LRM(Local Resource Manager),执行资源配置
- 3、RA(Resource Agent),资源代理层
- 管理机制的实现(如:start,stop,restart,status,monitor)
四、高可用集群面临的问题
1、集群的分裂(partion)
被称之为集群的分区(partion)也被称之为脑裂(brain-split))为了避免出现分裂,事先做好决策,在每个主机上都有一票,票数多的将获取主节点。如果一个服务器性能好,可以有2票。
2、多节点使用同一个共享存储
在集群发生分裂的情况下, 可能会引发多节点同时对一个块级别的共享存储写一个文件,这样会导致文件系统损坏
- 解决方法
- 干掉对方服务器的电源(如通过电源交换机将主机的电源断掉)
五、VRRP概述
VRRP协议
虚拟路由冗余协议(virtual router redundancy protocol,简称VRRP),是由IETF提出的解决局域网中配置静态网关出现单点失效现象的路由协议,1998年已推出正式的RFC2338协议标准,VRRP广泛应用在边缘网络中,它的设计目标是支持特定情况下IP数据流量失败转移不会引起混乱,允许主机使用单路由器,以及及时在实际第一跳路由器使用失败的情形下仍能够维护路由器间的连通性。
VRRP术语
虚拟路由器
- 由一个Master路由器和多个Backup路由器组成,主机将虚拟路由器当作默认网关
VRID
- 虚拟路由器的标识,有相同VRID的一组路由器构成一个虚拟路由器
Master路由器
- 虚拟路由器中承担报文转发任务的路由器,即主节点(仅能有一个)
Backup路由器
- Master路由器出现故障时,能够代替Master路由器工作的路由器,即备用节点(可以有多个)
虚拟IP地址(VIP)
- 虚拟路由器的IP地址,已改为虚拟路由器可以拥有一个或多个IP地址
IP地址拥有者
- 接口IP地址与虚拟IP地址相同的路由器被称之为IP地址拥有者
虚拟MAC地址(VMAC)
- 一个虚拟路由器拥有一个虚拟MAC地址,虚拟路由器回应ARP请求使用的是虚拟MAC地址
优先级
- VRRP根据优先级来确定虚拟路由器中每台路由器的地位
非抢占方式
- 若Backup路由器工作在非抢占模式下,则只要Master路由器没有故障,Backup路由器即使随后被配置了更高的优先级也不会成为Master路由器
抢占方式
- 如果backup路由器工作在抢占方式下, 当它收到VRRP报文后,会将自己的优先级与通告报文中的优先级进行比较,如果自己的优先级比当前的Master优先级高,就会主动抢占成为Master路由器,否则,将保持Backup状态
VRRP工作过程
- 1、虚拟路由器中的路由器根据优先级选举出Master,Master通过发送ARP报文,将自己的虚拟MAC地址发送给其它设备和主机
- 2、Master路由器周期性发送VRRP报文,以公布其配置信息(优先级等)和工作状态
- 3、如果Master路由器出现故障, 虚拟路由器的backup路由器根据优先级重新选举新的Master
- 4、虚拟路由器状态切换时,新的Master路由器只是简单地发送一个携带虚拟路由器的MAC地址和IP地下信息的ARP报文,这样就可以更新与它连接的主机或设备中的ARP相关信息,网络中的主机感知不到Master的切换
- 5、backup路由器优先级高于master路由器时,由backup路由的工作方式(抢占或非抢占方式)决定是否重新选举Master
- VRRP优先级的取值范围为0-255(数值越大优先级越高),可配置的范围为1到254,优先级0为系统保留给路由器放弃master位置时使用,255则是系统保留给IP地址拥有者使用,当路由器为IP地址拥有者时,其优先级始终为255,当虚拟路由器拥有虚拟IP地址时,只要其工作正常,则为Master路由器
路由通告的工作原理
- Master路由器周期发送VRRP报文,在虚拟路由器中公布其配置信息(优先级)和工作状态,backup路由器通过接收vrrp报文情况来判断master是否工作正常
- master路由器主动放弃master地位时,发送优先级为0的VRRP报文,致使backup路由器切换为master路由器,这个切换时间为skew time, 计算方式为:(256-backup路由器的优先级/256,单位为秒)
- 当master路由器发送网络故障不能发送VRRP报文的时,backup路由器不能立即知道其工作状态,backup路由器等待一段时间后,如果还没有收到VRRP报文, 会认为master工作不正常, 而把自己升级为master路由器,周期发送VRRP报文,如果此时多个backup路由器竞争master路由的位置,将通过优先级选举master路由器,backup路由器默认等待的时间为master_down_interval,取值为:(3*VRRP报文的发送时间间隔+skew time,单位为秒)
- 在性能不稳定的网络中, backup路由器可能因为网络堵塞而在master_down_interval期间没有收到master路由的报文,而主动抢占master位置, 如果此时master报文又到达了, 就会出现虚拟路由器的成员频繁的进行master抢占现象,为了缓解这种情况发生,特制定了延迟等待定时器,它可以使得backup路由器在等待了master_down_interval后,再等待延迟等待时间,如果在此期间仍然没有收到VRRP报文,则此backup路由器才会切换为master路由器,对外发送VRRP报文
VRRP实现的工作
- 路由选举
- 路由状态通知
- 为了提高安全性,VRRP还软件娃娃了认证功能
VRRP认证方式
- 无认证
- 简单字符认证,通常用于局域网
- MD5认证,跨越互联网
VRRP高可用工作模型
主备备份
- 主备备份方式表示业务仅由Master路由器承担,当Master路由器出现故障时,才会由选举出来的Backup路由器接替它的工作,如下图:
主主备份
- 在路由器的一个接口上可以创建多个虚拟路由器,使得该路由器可以在一个虚拟路由器中作为Master路由器,同时在其它的虚拟路由器中作为Bacup路由器,主主备份模式可以实现负载分担方式,是指多台路由器同时承担业务,因此负载分担方式需要两个或两个以上的虚拟路由器,每个虚拟路由器都包括一个Master路由器和若干个Backup路由器。各虚拟路由器的Master路由器可以不相同,如下图:
Keepalived
一、keepalived功能
keepalived程序是vrrp协议在linux主机上以守护进程方式的实现,能够根据配置文件生成IPVS规则 ,并对各real server的健康做检测,以及Loadbalance主机和backup主机之间failover的实现,keepalived在Centos6.4+收录到了发行版光盘中。
二、keepalived核心组件
- 核心组件
- TCP
- HTTP
- SSL
- MISC
- Watchdog : 高可用监视器(监控服务本身,可实现重启的)
- Checkers : 健康状态检测器,可实现如下协议
- SMTP : 支持发送邮件通知机制
- System Call : 通过系统调用做出管理操作
- VRRP stack : VRRP栈的实现,实现VRRP协议调用
- NetLink Reflectior : VRRP借助于netlink监控网络,实现网络功能配置
- Ipvs wrapper : ipvs控制
- IO复用器
- 内存管理
- 控制面板(配件文件分析器,以实现应用配置文件)
三、Keepalive的工作原理:
- 1、主节点主动向备用节点发送存活通知消息(只是3层判断)
- 2、发送存活通知消息机制:
- 广播(broadcast)
- 组播(multicast)
- 单播(unicast)
- 3、设定各服务器的优先级,优先级判断方法
- 手动设定
- 根据IP地址数值大小,大的优先级高
- 随机的挑选
- 4、需要监控服务器的存活状态,如果服务故障需要重启服务,如重启服务无效,就需要降低主节点的优先级
- 5、各节点需要安装keepalive服务,并且都加入到同一个集群中,并且每个节点都监听在某个套接字止,不断向外传递心跳信息
- 6、多个节点配置域共享密钥,防止有人恶意加入集群
- 7、集群自行决定来启动服务,不能够也不应该手动启动(建立策略来决定哪个节点启动服务)
- 8、将多个资源绑定在一起,一同调用或配置
- 9、模拟VRRP协议,实现地址飘移,keepalived仅能飘移IP地址
- 10、不能转移服务,内置了一个模块,能直接向内核的ipvs添加规则,创建一人LVS(keepalved天生高可用lvs)
- 11、内置的提供了一个接口,可以通过编写脚本,来检测服务的状态,根据返回的状态,如果发生了故障,就主动降低服务器的优先级(vrrp_script,track_script)
Keepalived高可用集群配置前提
- 各节点时间要同步,一般使用网络时间服务器
- 确保iptables及selinux服务关闭
- 各节点之间可通过主机名互相通信,节点的名称设定与hosts文件中解析的主机名都要保持一致(AIS架构必须项)
- uname -n 获得主机名,与解析的主机名要相同
- 各节点基于密钥认证的方式通过ssh互信通信
keepalived的程序环境
- 主配置文件
• /etc/keepalived/keepalived.service
- 生成hash指纹的工具
• /etc/bin/genhash [root@Centos7 ~]# genhash -s 172.16.36.70 -p 80 -u index.html
MD5SUM = 7833123aaf6b782a8997b80affda274f
四、keepalived配置详解
/etc/keepalived/keepalived.conf
• Global configuration : 全局配置 global_defs {
...
}
• VRRP Configuration : 配置VRRP实例 vrrp_instance NAME {
...
}
• LVS Configuration : IPVS的相关配置 virtual_server IP PORT {
...
real_server IP PORT {
...
}
}
Global指令
notification_email {}
notification_email_from
smtp_server
smtp_connect_timeout
router-id HOSTNAME
vrrp_mcast_grou4 224.0.0.18
vrrp_mcast_group6 ff02::12
vrrp_script NAME { }
- script COMMAND : script是固定字段,后面为脚本的内容,有空格需要使用引号包括起来
- interval # : 间隔多长时间进行状态查看,以秒为单位
- weight [+|-] # : 如果脚本的返回状态是失败的,将优先级减去相应的数值
nopreempt
preempt_delay TIME
VRRP_instance指令
state MASTER | BACKUP
Interface IFACE_NAME
virtual_route_id #
priority #
advert_in #
authentication { }
- auth type PASS : 指定集群密钥方式
- auth_pass 1234 : 字符密钥吸有前8个有效
virtual_ipaddress { }
- \
notify_master <string> | <quoted-string>
notify_backup <string> | <quoted-string>
notify_fault <string> | <quoted-string>
notify <string> | <quoted-string>
track_script { VRRP_SCRIPT_NAME }
track_script { IFACE_NAME }
virtual_server指令
delay_loop <INT>
lb_algo rr|wrr|lc|wlc|lblc|sh|dh
lb_kind NAT|DR|TUN
persistence_timeout <INT>
nat_mask 255.255.255.0
protocol TCP
virtual_host <string>
quorum <INT>
quorum_up
quorum_down
sorry_server <IPADDR><PORT>
real_server IP PORT { }
connect_timeout <INT>
connect_ip
connect_port
bindto <IP ADDR>
bind_port <port>
url { }
nb_get_retry <INT>
delay_befor_retry <INT>
connect_ip <IPADDR>
connect_port <PORT>
bindto <IPADDR>
connect_timeout <INT>
warmup <INT>
path <string>
status_code <INT>
digest <string>
weight <INT>
inhibit_no_failure
notify_up <string> | <quoted-string>
notify_down <string> | <quoted-string>
HTTP_GET|SSL_GET|TCP_CHECK|SMTP_CHECK|MISC_CHECK
TCP_CHECK { }
五、主备模式的可高可用nginx的配置实例
fault
notify fault systemctl stop nginx.service exit 0 ;; *) echo "Usage: $(basename $0) {master|backup|fault}" exit ;;
esac
本文转自027ryan 51CTO博客,原文链接:http://blog.51cto.com/ucode/1842570,如需转载请自行联系原作者