有时候去分析访问日志的时候 ,会发现很多的一些非法的访问,或者你不想让它访问的请求,比如说一些比较垃圾的蜘蛛,搜索引擎,360spidert等等,其实,我们可以把这些搜索引擎禁掉的,当你的访问量很大的时候 ,至少有一半都是这些搜索引擎的爬虫造成的,会造成服务器的负担,所以对于一些没必要的搜索引擎,我们就可以禁掉。
## 没对curl做限制之前
[root@wy ~]# curl -xlocalhost:80 www.test.com/forum.php -I
HTTP/1.1 200 OK
## 编辑配置文件,进行限制
[root@wy ~]# vim /usr/local/apache2/conf/extra/httpd-vhosts.conf
RewriteCond %{HTTP_USER_AGENT} ^.*curl.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Firefox/4.0.* [NC]
RewriteRule .* - [F]
解释说明:
NC表示不区分大小写
注:要想限制一些搜索引擎的标识,平时多积累。
## 检查并重新加载
[root@wy ~]# /usr/local/apache2/bin/apachectl -t
Syntax OK
[root@wy ~]# /usr/local/apache2/bin/apachectl graceful
## 测试
[root@wy ~]# curl -xlocalhost:80 www.test.com/forum.php -I
HTTP/1.1 403 Forbidden
Date: Sat, 05 Nov 2016 19:03:11 GMT
Server: Apache/2.2.16 (Unix) DAV/2 PHP/5.3.28
Content-Type: text/html; charset=iso-8859-1
## 现在我们不对curl做限制了
[root@wy ~]# vim /usr/local/apache2/conf/extra/httpd-vhosts.conf
#RewriteCond %{HTTP_USER_AGENT} ^.*curl.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Firefox/4.0.* [NC]
RewriteRule .* - [F]
## 检查并重新加载
[root@wy ~]# /usr/local/apache2/bin/apachectl -t
Syntax OK
[root@wy ~]# /usr/local/apache2/bin/apachectl graceful
##测试
[root@wy ~]# curl -xlocalhost:80 www.test.com/forum.php -I
HTTP/1.1 200 OK
## 用curl -A 来模拟user_agent进行测试
[root@wy ~]# curl -A "Firefox/4.0" -x192.168.219.128:80 www.test.com -I
HTTP/1.1 403 Forbidden
[root@wy ~]# curl -A "afslfsjf" -x192.168.219.128:80 www.test.com -I
HTTP/1.1 301 Moved Permanently
[root@wy ~]# curl -A "Firefox/4.0alfsjf" -x192.168.219.128:80 www.test.com -I
HTTP/1.1 403 Forbidden