最近几天公司官网和业务系统的注册页面频繁遭遇DDOS***,导致IIS应用程序池CPU占用率100%,访问网站出现503错误。下面总结一下应对措施。

    一、启用IIS的CPU监视功能

    对于低频率的DDOS可以采取这种方法。w3wp.exe是应用程序池的关联进程,当WEB访问量大时,w3wp.exe会占用大量的系统资源。在DDOS***下,很明显的现象就是w3wp.exe占用CPU达到100%,网站拒绝访问,这个时候远程登录服务器都很困难。针对这种情况,做如下优化:

    1、为IIS中的每个网站设置单独的应用程序池。

    2、为每个应用程序池设置CPU监视功能:当w3wp.exe的CPU超过50%或更高时,自动杀死w3wp.exe进程,监视频率为1分钟。只要有访问请求进来,w3wp.exe便会重新启动,不影响用户访问。

    wKiom1W7fHChy4F0AAEABkiOB5U152.jpg

二、流量清洗

    当***发现低层次的DDOS已经不起作用时,便会加大***力度。一开始我们官网的平均并发数只有几千,后来加大到了平均1万6千个并发,最高7万个并发,这样上面的CPU监视功能就没有效果了,因为w3wp.exe重启后,会在极短时间内CPU重新达到100%。

    当时监控到的并发连接数:

wKioL1W7hfrgZNSwAABAcrtJhKA428.jpg

    CPU使用率和流量(带宽上限10M):

wKiom1W7lmmw_BfQAAE48-oKKhU940.jpg

    幸运的是官网域名刚好在阿里云上做好了备案,我们迁移到阿里云上后,利用云盾的DDOS防护功能便会清洗掉大部分异常流量,CPU立马正常,官网满血复活了。

    注:阿里云免费的DDoS基础防护阈值是5Gbps,如果***流量高于这个值,则会被黑洞,业务就不能访问了。

wKiom1W7gxHTfRXDAAIOAxyzP9A303.jpg

    这里贴一下云服务器的参数:

    配置: CPU2核、内存4GB
    镜像: Windows Server 2008 R2 标准版 SP1 64位中文版
    存储: 1块普通云盘(100GB)
    网络: 带宽10Mbps(经典网络)

    参数配置不高,但是能抵御高强度的DDOS***,这得益于阿里强大的技术实力,偷偷做个广告,嘿嘿。

    三、Nginx反向代理

    但是***还经常***我们业务系统的注册页面,这次就没有这么幸运了,因为业务系统是在我们实体机房,这就要靠我们自己了。

    所以我们采取了前端Nginx反向代理、后端双IIS做负载均衡,利用Nginx强大的性能和HttpLimitReqModul模块限制某时间段内同一ip访问次数。Nginx的优化这里不提,下面只贴出相关配置:

    首先在nginx.conf的http配置段里增加如下内容:

    map $http_x_forwarded_for  $clientRealIp {
    "" $remote_addr;
    ~^(?P<firstAddr>[0-9\.]+),?.*$  $firstAddr;
    }
    # 访问受限制后返回599
    limit_req_status 599;
    # 定义一个名为allips的limit_req_zone用来存储session,大小是100M内存,
    # 以$clientRealIp 为key,限制平均每秒的请求为100个,
    limit_req_zone $clientRealIp zone=allips:100m rate=100r/s;

    这里限制了同一IP每秒的请求数不超过100个,否则多余的请求会直接返回599错误。限制频率要根据实际情况进行配置,配置过低会影响正常的访问,出现页面显示不全等问题。

    然后编辑/etc/nginx/conf.d/upstream.conf:

server {
  listen       1334;
  server_name  _;

  # 添加如下一行
  limit_req zone=allips burst=5 nodelay;

  location / {
    # 反向代理
    proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
    proxy_pass http://wskh_IIS;
  }
  
  # 开启stub_status模块监控
  location /nginx_status{
    stub_status on;
    access_log off;
    allow 127.0.0.1;
    # 允许内网某IP查看nginx status
    allow 192.168.1.100;
    deny all;
  }
}

# 后端web服务器
upstream wskh_IIS {
  server 192.168.1.39:1334;
  server 192.168.1.40:1334;
  ip_hash;
}

    好了,简单配置完成。

    下面贴一个统计Nginx访问日志access.log里IP请求频率的小脚本:

#!/bin/bash
#
# Filename:    count_req.sh
# Revision:    1.0
# Author:      Qicheng
# Website:     http://qicheng0211.blog.51cto.com
# Description: 统计Nginx日志里IP访问频率

NGINXLOG="./access.log"
start_time=$(head -n1 "$NGINXLOG" | grep -o " \[.*\] ")
stop_time=$(tail -n1 "$NGINXLOG" | grep -o " \[.*\] ")
echo -e "start:\t\e[92m$start_time\033[0m"
echo -e "stop:\t\e[92m$stop_time\033[0m"
echo '所有的请求TOP50-->>'
# 所有的请求
cat "$NGINXLOG" | awk '{++S[$1]} END {for(a in S) print S[a],"\t", a}' | sort -rn -k1 | head -n 50
echo '--------------------------------------------------'
echo '成功的请求TOP50-->>'
# 成功的请求
grep ' 200 ' "$NGINXLOG" | awk '{++S[$1]} END {for(a in S) print S[a],"\t", a}' | sort -rn -k1 | head -n 50

    把脚本放到和access.log同一目录下执行即可。部分输出如下:

    wKioL1W-4HfBKXxLAALlg5so0eo148.jpg

    过滤出这些***源IP后,加到iptables里:

iptables -I INPUT -s {ip} -j DROP;