集群定义:
-----------------------------------------------------------------------#
   集群(cluster)就是一组计算机,它们作为一个整体向用户提供一组网络资源。这些单个的计算机系统 就是集群的节点(node)。
-----------------------------------------------------------------------#
最常用的三种集群:
-----------------------------------------------------------------------#
1.  LB,Load Balancing,负载均衡集群
    定义:即把负载压力根据某种算法合理分配到集群中的每一台计算机上,以减轻主服务器的压力,降低对主服务器的硬件和软件要求。
2.  HA,High Availability,高可用集群,每年在线时间为99.9%
    优点:高可用集群的出现是为了使集群的整体服务尽可能可用,从而减少由计算机硬件和软件易错性所带来的损 失。如果某个节点失效,它的备援节点将在几 秒钟的时间内接管它的职责,可有效防止单点故障。因此,对于用户而言,集群永远不会停机。高可用集群软件的主要作用就是实现故障检查和业务切换的自动化。
这类集群致力于提供高度可靠的服务。
3.  HP,High Performance,高性能集群,科学计算集群(人口统计,人口分析,模拟核武器爆炸实验)
    优点:这类集群致力于提供单个计算机所不能提供的强大的计算能力。
------------------------------------------------------------------------#
常用集群的解决方案:
------------------------------------------------------------------------#
1.负载均衡集群
  两种常见的解决方案:
    1)LVS(linux virtual server)
    2)haproxy
2.高可用集群
  四种常见的解决方案:
    1)heartbeat
    2)corosync openais:RHCS
    3)ultramonkey
    4)keepalive
3.高性能集群
  常见的解决方案:
    bowerful
------------------------------------------------------------------------#
LVS的介绍:
------------------------------------------------------------------------#
LVS是Linux Virtual Server的缩写
1.  定义
  LVS是一个开源的软件,由毕业于国防科技大学的章文嵩博士于1998年5月创立,可以实现LINUX平台下的简单负载均衡。LVS是Linux Virtual Server的缩写,意思是Linux虚拟服务器
2.  LVS的调度方法
  1)四种静态调度方法(不检查realserver的连接状态)
      1》Round-robin(RR)轮调
          ---调度器通过"轮叫"调度算法将外部请求按顺序轮流分配到集群中的真实服务器上,它均等地对待每一台服务器,而不管服务器上实际的连接数和系统负载。
       2》Weighted round-robin(WRR)加权轮调
           ---根据处理能力的大小来分配权重,从而分配调度次数。
      3》Destination hashing目标地址哈希(散列)
           ---实现针对同一目标地址的请求做固定定向转发
      4》Source hashing 源地址哈希(散列)
           ---实现针对同一源地址的请求做固定定向转发
 2)六种动态调度方法 (检查realserver的连接数和连接状态)
      两种状态 active inactive
      1》LC(Least-connection)同时检查active连接和inactive连接,谁的连接数目少就把请求转发给谁(退出了不一定断开连接了)。
        公式:最大连接数=活动连接数*256 非活动连接
      2》WLC(weighted least-connection)加权最少连接数
         在集群系统中的服务器性能差异较大的情况下,调度器采用"加权最少链接"调度算法优化负载均衡性能,具有较高权值的服务器将承受较大比例的活动连接负载。调度器可以自动问询真实服务器的负载情况,并动态地调整其权值。
        公式:最大连接数=活动连接数*256 非活动连接
              最大连接数/权重
      3》SED(Shortest Expected Delay) 最短期望延迟
        公式:最大连接数=(活动连接数 1) *256
              最大连接数/权重
      4》NQ (Never Queue)永不排队算法
      5》LBLC
         SED的改进
         Locality-Based Least-Connection (LBLC) 基于本地状态的最少连接
      6》LBLCR
         Locality-Based Least-Connection with  Replication scheduling带复制的基于本地状态的最少连接数
3.  LVS的三种工作模式
  1)network address translation---LVS-NET
   2)netdirect routing ---LVS-DR路由
   3)ip tunneling 隧道
三种模式具体解析:
1)Virtual server via NAT(VS-NAT)
 
   基本特点:
         1)DIP RIP 必须在同一子网
         2)RIP通常是私有地址
         3)Director处理请求的数据包和请求的数据包,directory需要两张网卡
         4)所有的RIP必须以DIP为默认网关
         5)net机制可以实现端口映射。
         6)任何操作系统都可以做Realserver
         7)Director压力很大,可能会成为瓶颈
 
   优点: 
      集群中的物理服务器可以使用任何支持TCP/IP操作系统,物理服务器可以分配Internet的保留私有地址,只有负载均衡器需要一个合法的IP地址。
   缺点: 
      扩展性有限。当服务器节点(普通PC服务器)数据增长到20个或更多时,负载均衡器将成为整个系统的瓶颈,因为所有的请求包和应答包都需要经过负载均衡器再生。假使TCP包的平均长度是536字节的话,平均包再生延迟时间大约为60us(在Pentium处理器上计算的,采用更快的处理器将使得这个延迟时间变短),负载均衡器的最大容许能力为8.93M/s,假定每台物理服务器的平台容许能力为400K/s来计算,负责均衡器能为22台物理服务器计算。
   解决办法: 
      即使是是负载均衡器成为整个系统的瓶颈,如果是这样也有两种方法来解决它。一种是混合处理,另一种是采用Virtual Server via IP tunneling或Virtual Server via direct routing。如果采用混合处理的方法,将需要许多同属单一的RR DNS域。你采用Virtual Server via IP tunneling或Virtual Server via direct routing以获得更好的可扩展性。也可以嵌套使用负载均衡器,在最前端的是VS-Tunneling或VS-Drouting的负载均衡器,然后后面采用VS-NAT的负载均衡器。
 
2)net direct routing---LVS-DR路由
   基本特点;
       1)Director和Cluster要在同一网络中
       2)RIP的地址可以为公有地址
       3)Director只处理请求的数据包,而不处理响应
       4)Cluster的网关不可为DIP,应是路由ip
       5)不能重新映射端口,端口必须保持一致
       6)大多数操作系统可实现realserver
       7)这种模型可以带动更多的realserver
       7)这种模型可以带动更多的realserver
   模型剖析:
       1) 数据包在节点间传输靠的是MAC,通过ARP的广播解析IP到MAC;此种模型中Director仍有VIP、DIP;Real server有VIP、RIP;
       2)Director及real server 都连接到一个Switch上;
       3) Director及real server 都配置的有VIP;
       4) 相同的IP,为防止冲突,在 real server 上采取手段隐藏起VIP地址,使其对请求VIP地址解析的ARP请求不作响应,这样解析到的VIP地址即为Director,数据包线传输到Director;
       5) Director 接收到数据包后,根据算法找到某个real server ,并且修改数据包中的目的MAC地址为该real server的Mac,然后通过       Switch转发该数据包;此时,该数据包的源ip仍未CIP,目标ip为VIP;
       6)real server接收到数据包后(包中的VIP、目的MAC均匹配自己),处理该包,返回的数据直接通过Switch出去并过Router传回Client。
 
   优点: 
       负载均衡器只是分发请求,应答包通过单独的路由方法返回给客户端。与VS-TUN相比,VS-DR这种实现方式不需要隧道结构,因此可以使用大多数操作系统做为物理服务器,其中包括:Linux、Solaris 、FreeBSD 、windows、IRIX 6.5;HPUX11等。
   不足: 
       要求负载均衡器的网卡必须与物理网卡在一个物理段上。
3)ip tunneling隧道
   基本特点:
        Director和Cluster不在同一网络中
        RIP必须是公网地址,不能是私有地址
        Director只处理请求的数据包,不处理响应数据包
        不能重新映射端口,端口必须保持一致
        只有支持隧道协议的服务器才能作为RealServer
   优点:
       负载均衡器只负责将请求包分发给物理服务器,而物理服务器将应答包直接发给用户。所以,负载均衡器能处理很巨大的请求量,这种方式,一台负载均衡能为超过100台的物理服务器服务,负载均衡器不再是系统的瓶颈。使用VS-TUN方式,如果你的负载均衡器拥有100M的全双工网卡的话,就能使得整个 Virtual Server能达到1G的吞吐量。
   缺点:
       但是,这种方式需要所有的服务器支持”IP Tunneling”(IP Encapsulation)协议
 
三种IP负载均衡技术的优缺点比较:
   | VS/NAT     VS/TUN      VS/DR
---------------------|--------------------------------------------------
服务器操作系统    |任意      支持隧道       多数          
服务器网络      | 私有网络    局域网/广域网  局域网
服务器数目(100M网络) |10-20      100       多(100)
服务器网关      |负载均衡器   自己的路由    自己的路由
效率         |一般      高        最高
------------------------------------------------------------------------#
LVS的调度算法:
------------------------------------------------------------------------#
1.静态调度方法(不检查realserver的连接状态)
      1)Round-robin(RR)轮调
      2)Weighted round-robin(WRR)加权轮调
           ---根据处理能力的大小来分配权重,从而分配调度次数。
      3)Destination hashing目标地址哈希(散列)
           ---实现针对同一目标地址的请求做固定定向转发
      4)Source hashing 源地址哈希(散列)
           ---实现针对同一源地址的请求做固定定向转发
2.动态调度方法 (检查realserver的连接数和连接状态)
      两种状态 active inactive
      1)LC(Least-connection)最少连接数
           同时检查active连接和inactive连接,谁的连接数目少就把请求转发给谁(退出了不一定断开连接了)。
        公式:最大连接数=活动连接数*256+非 活动连接
      2)WLC(weighted least-connection)加权最少连接数
           lvs需要装在调度节点上,接受用户发来的请求并将其转发到后台真正提供服务的服务器(real server)
        公式:最大连接数=活动连接数*256+非活动连接
              最大连接数/权重
      3)SED(Shortest Expected Delay) 最短期望延迟
        公式:最大连接数=(活动连接数+1) *256
              最大连接数/权重
      4)NQ (Never Queue)永不排队算法
            无需队列。如果有台 realserver的连接数=0就直接分配过去,不需要在进行sed运算
      5)LBLC  基于局部性的最少链接
         SED的改进
         Locality-Based Least-Connection (LBLC)“基于局部性的最少链接”
         调度算法是针对目标IP地址的负载均衡,目前主要用于Cache集群系统。该算法根据请求的目标IP地址找出该目标IP地址最近使用的服务器,若该服务器是可用的且没有超载,将请求发送到该服务器;若服务器不存在,或者该服务器超载且有服务器处于一半的工作负载,则用“最少链接” 的原则选出一个可用的服务器,将请求发送到该服务器。 基于本地状态的最少连接
        
      6)LBLCR  带复制的基于局部性最少链接
         Locality-Based Least-Connection with Replication scheduling
        调度算法也是针对目标IP地址的负载均衡,目前主要用于Cache集群系统。它与LBLC算法的不同之处是它要维护从一个目标 IP地址到一组服务器的映射,而LBLC算法维护从一个目标IP地址到一台服务器的映射。该算法根据请求的目标IP地址找出该目标IP地址对应的服务器组,按“最小连接”原则从服务器组中选出一台服务器,若服务器没有超载,将请求发送到该服务器;若服务器超载,则按“最小连接”原则从这个集群中选出一台服务器,将该服务器加入到服务器组中,将请求发送到该服务器。同时,当该服务器组有一段时间没有被修改,将最忙的服务器从服务器组中删除,以降低复制的程度。
------------------------------------------------------------------------#
 转自:http://blog.chinaunix.net/uid-25749499-id-2759787.html