1 起因

    最近对新开发的web系统进行了压力测试,发现tomcat默认配置下压到600人的并发登录首页响应速度就有比较严重的影响,一轮出现2000多个的500和502错误。我把登录的时间统计做了一下,把服务器处理总时间打印出来,看了一下发现有个别响应确实在20秒,但平均时间和lr测试出来的还是相差很远。所以可以断定不是程序处理处理花费了这么多时间,由于在局域网测试,所以也可以排除网络问题。这就把问题圈定在tomcat的请求响应能力上了。先把tomcat线程数提升到1000,发现500和502的报错降到几十个,但是响应时间上还没什么提高。后来启动了2个tomcat,用nginx做负载均衡,响应时间下降了40%,两个tomcat的处理时长都保持在1秒左右。

    看来tomcat性能确实是系统的一个瓶颈,很有必要假设多个服务器来加强响应能力。之前由于只是测试登录,多个tomcat还不用共享session,但真正使用时是必须要能一起工作的。现记录一下负载均衡的安装配置过程。

 

2 解决方案的选择

    多个tomcat要一起协同工作有几种办法,可以考虑的方案有以下几个:

  1. 使用tomcat自带的cluster方式,多个tomcat见自动实时复制session信息,配置起来很简单。但这个方案的效率比较低,在大并发下表现并不好。

  2. 利用nginx的基于访问ip的hash路由策略,保证访问的ip始终被路由到同一个tomcat上,这个配置更简单。但是我们的应用很可能是某一个局域网大量用户同时登录,这样负载均衡就没什么作用了。

  3. 利用memcached把多个tomcat的session集中管理,这是最直接的解决方案,但是操作起来也最为复杂。

    我们的系统既要求性能,又要比较好的利用上负载均衡,所以第3个方案是首选。接下来就是安装搭建之路了。

 

3 安装配置

3.1 memcached的安装

  1)先下载libevent-1.4.14b-stable.tar.gz和memcached-1.4.7.tar.gz的源码包,前者是后者的依赖包,就是一个事件驱动的包。

  2)安装非常顺利,还是经典的那几个编译安装命令:

  1. tar zxvf libevent-1.4.14b-stable.tar.gz 
  2. cd libevent-1.4.14b-stable 
  3. ./configure --prefix=/usr/local/libevent-1.4.14b 
  4. make 
  5. make install 
  6.  
  7. tar zxvf memcached-1.4.7.tar.gz 
  8. cd memcached-1.4.7 
  9. ./configure --prefix=/usr/local/memcached-1.4.7 --with-libevent=/usr/local/libevent-1.4.14b/ 
  10. make 
  11. make install 

  3)启动memcached:

  ./bin/memcached -d -m 256 -u root -p 11211 -c 1024 -P /tmp/memcached.pid

 

3.2 memcached-session-manager配置

    让tomcat调用memcached来存储session早就是一个很成熟的解决方案了,开源的msm就可以解决这个问题。比较折腾的就是要用到的jar包,官方文档说的也比较含糊,我这里用的是kryo的序列化方案,所以用到的包多一些,分别是:

kryo-1.03.jar

kryo-serializers-0.8.jar 

memcached-2.5.jar(我在官方看最新已经到2.7了,但是msm官方说用2.5,可能新包没测试过,特别是2.6版本changelog里面提到api有调整,还是不要乱升的好)

memcached-session-manager-1.5.1.jar

memcached-session-manager-tc7-1.5.1.jar

minlog-1.2.jar

msm-kryo-serializer-1.5.1.jar

reflectasm-0.9.jar

    以上这些包都放在$CATALINA_HOME/lib目录下。

    另外提一下,官方给出的4种序列化方案,其中kryo是效率最高的,具体比较看http://code.google.com/p/memcached-session-manager/wiki/SerializationStrategies。

 

    接下来是修改tomcat的配置文件$CATALINA_HOME/conf/context.xml,调整成新的session存储方式。配置文件中加入以下内容:

  1.     <Manager className="de.javakaffee.web.msm.MemcachedBackupSessionManager" 
  2.       memcachedNodes="n1:127.0.0.1:11211" 
  3.       sticky="false" 
  4.       lockingMode="auto" 
  5.       sessionBackupAsync="false"   
  6.       sessionBackupTimeout="1000"  
  7. transcoderFactoryClass="de.javakaffee.web.msm.serializer.kryo.KryoTranscoderFactory" 
  8.       /> 

 

    在$CATALINA_HOME/conf/logging.properties文件中添加de.javakaffee.web.msm.level=FINE,就可以在catalina.out的日志中看到详细的session存取情况。

 

    另外在Manager配置中加上requestUriIgnorePattern=".*\.(png|gif|jpg|css|js)$",用chrome浏览器测试发现居然sessionID会突然变掉,然后就被拦截器给跳回首页了。去掉就一切正常,但拦截器只会去检测action的,按理说应该完全没关系,望高人指点!

 

3.3 nginx配置

    nginx非常简单,只要在upstream里面多配置几个server就可以了,这里把我的配置贴出来:

  1. #user  nobody; 
  2. worker_processes  16; 
  3.  
  4.  
  5. events { 
  6.     use epoll; 
  7.     worker_connections  65535; 
  8.  
  9.  
  10. http { 
  11.     include       mime.types; 
  12.     default_type  application/octet-stream; 
  13.  
  14.     #log_format  main  '$remote_addr - $remote_user [$time_local] "$request" ' 
  15.     #                  '$status $body_bytes_sent "$http_referer" ' 
  16.     #                  '"$http_user_agent" "$http_x_forwarded_for"'
  17.  
  18.     #access_log  logs/access.log  main; 
  19.  
  20.     client_header_buffer_size 32k; 
  21.     large_client_header_buffers 4 32k; 
  22.     client_max_body_size 8m; 
  23.     client_body_buffer_size 128k; 
  24.  
  25.     sendfile        on
  26.     tcp_nopush     on
  27.  
  28.     #keepalive_timeout  0; 
  29.     keepalive_timeout  65; 
  30.  
  31.     gzip  on
  32.     gzip_types       text/plain application/xml application/x-javascript; 
  33.     gzip_disable     "MSIE [1-6]\.(?!.*SV1)"
  34.  
  35.     proxy_connect_timeout 300; 
  36.     proxy_send_timeout 300; 
  37.     proxy_read_timeout 300; 
  38.     proxy_buffer_size 16k; 
  39.     proxy_buffers 4 32k; 
  40.  
  41.     proxy_set_header X-Forwarded-For $remote_addr; 
  42.     proxy_set_header Connection Close
  43.     server_names_hash_max_size 1024; 
  44.     server_names_hash_bucket_size 1024; 
  45.  
  46.     # Default cache parameters for use by virtual hosts 
  47.     # Set the cache path to tmpfs mounted disk, and the zone name 
  48.     # Set the maximum size of the on disk cache to less than the tmpfs file system size 
  49.     proxy_cache_path  ./cache  levels=1:2  keys_zone=pscms:100m max_size=800m; 
  50.     proxy_temp_path   ./proxy; 
  51.  
  52.     #配置后端服务器信息 
  53.     upstream web_server { 
  54.         #ip_hash; 
  55.         server localhost:8080 max_fails=3  fail_timeout=30s; 
  56.         server localhost:8180 max_fails=3  fail_timeout=30s; 
  57.     } 
  58.  
  59.     server { 
  60.         listen   8888; ## listen for ipv4 
  61.         #listen   [::]:80 default ipv6only=on; ## listen for ipv6 
  62.         server_name  localhost; 
  63.  
  64.         charset utf-8; 
  65.         log_format  main  '$remote_addr - $remote_user [$time_local] "$request" ' 
  66.                           '$status $body_bytes_sent "$http_referer" ' 
  67.                           '"$http_user_agent" "$http_x_forwarded_for"'
  68.         access_log  logs/host.access.log  main; 
  69.         #access_log off
  70.  
  71.         location ~ .*\.(jsp|action)?$ { 
  72.             proxy_set_header Host $http_host; 
  73.             proxy_redirect     off
  74.             proxy_pass         http://web_server; 
  75.             proxy_set_header   Host             $host; 
  76.             proxy_set_header   X-Real-IP        $remote_addr; 
  77.             proxy_set_header   X-Forwarded-For $proxy_add_x_forwarded_for; 
  78.         } 
  79.  
  80.         location ~ .*\.(gif|jpg|jpeg|png|bmp|swf|js|css)$ { 
  81.             #如果后端的服务器返回502、504、执行超时等错误,自动将请求转发到upstream负载均衡池中的另一台服务器,实现故障转移。 
  82.             proxy_next_upstream http_502 http_504 error timeout invalid_header; 
  83.  
  84.             proxy_cache pscms;                   #进行缓存,使用Web缓存区cache_one 
  85.             proxy_cache_valid 200 304 1h;           #对不同的HTTP状态码设置不同的缓存时间 
  86.             proxy_cache_valid 301 302 5m; 
  87.             proxy_cache_valid any 1m; 
  88.             proxy_set_header  Host $host; 
  89.             proxy_set_header  X-Real-IP  $remote_addr; 
  90.             proxy_set_header X-Forwarded-For $remote_addr; 
  91.             proxy_set_header Accept-Encoding "";  #(或是后台服务器关闭gzip),这样这台机器才不会缓存被压缩的文件,造成乱码 
  92.             proxy_ignore_headers "Cache-Control" "Expires"; #这段配置加上后,proxy_cache就能支持后台设定的expires。 
  93.             proxy_pass http://web_server; 
  94.             expires  15m; 
  95.         } 
  96.  
  97.         location / { 
  98.             proxy_set_header Host $http_host; 
  99.             proxy_redirect     off
  100.             proxy_pass         http://web_server; 
  101.             proxy_set_header   Host             $host; 
  102.             proxy_set_header   X-Real-IP        $remote_addr; 
  103.             proxy_set_header   X-Forwarded-For $proxy_add_x_forwarded_for; 
  104.         } 
  105.  
  106.     } 
  107.