最近发现有人采集我们的网站就在服务器新部署了日志分析系统awstats。根据awstats分析结果快速定位了疑似采集器的IP xxx.xxx.xxx.200,在服务器上部署了iptables防火墙,对这个IP的80端口访问予以限制。
下面分享一下分析思路:
1. 如下图所示,xxx.xxx.xxx.200此IP每日访问量高达400MB以上,并且访问时间都是凌晨。
2. 如下图所示,在服务器上人工处理了apache的访问日志,发现xxx.xxx.xxx.200此IP访问的都是文章页面,次数高达每天600多篇文章。
3. 如下图所示,xxx.xxx.xxx.200此IP为安装了IIS服务的xp或windows server 2003。
因此判断xxx.xxx.xxx.200此IP为采集器进行了拦截。
除了基本的IP拦截法之外,还可以通过其他方法来进行网站采集的防范,例如:多做几个列表和内容模板随机使用,替换关键词,图片防盗链,图片加水印,在文章里随机加一些与背景色相同的文字,
限制IP地址单位时间的访问次数,利用js加密网页内容,网页里隐藏网站版权或者一些随机垃圾文字 这些文字风格写在css文件中,利用脚本语言做分页(隐藏分页),采用动态不规则的html标签,在文章的头尾加上随机广告,在文章正文页面插入重复特征头尾代码的注释,加在文章列表的随便链接样式等方法。
分享几个链接:
http://www.nowamagic.net/seo/seo_PreventSiteToBeCollecting.php
http://bbs.chinahtml.com/t1358-print/