woreshark用URL过滤 url过滤是什么意思

转载

huatechinfo 2024-08-21 09:01:25

文章标签 woreshark用URL过滤 UrlRewriteFilter tomcat ajax jsp静态化 文章分类 架构后端开发

UrlRewriteFilter是一个用于改写URL的Web过滤器，类似于Apache的mod_rewrite。适用于任何Web应用服务器（如Resin，Orion，Tomcat等）。其典型应用就把动态URL静态化，便于搜索引擎爬虫抓取你的动态网页。

这样做就避免了url中出现?&之类的符号，而且页面伪静态化之后也增加了被搜索引擎找到的概率。

开发步骤
 
 
1，添加urlrewrite-3.2.0.jar到工程中。
 
 
2，在web.xml中添加过滤器，如下所示：
 
 
<!-- urlRewriteFilter -->
 
 
    <filter>
 
 
        <filter-name>UrlRewriteFilter</filter-name>
 
 
        <filter-class>org.tuckey.web.filters.urlrewrite.UrlRewriteFilter</filter-class>
 
 
        <init-param>
 
 
            <param-name>logLevel</param-name>
 
 
            <param-value>WARN</param-value>
 
 
        </init-param>
 
 
    </filter>
 
 
    
 
 
    <filter-mapping>
 
 
        <filter-name>UrlRewriteFilter</filter-name>
 
 
        <url-pattern>/*</url-pattern>
 
 
    </filter-mapping>
 
 

 
 
在struts2的过滤器中添加<dispatcher>REQUEST</dispatcher>和<dispatcher>FORWARD</dispatcher>。
 
 

 
 
<filter>
 
 
        <filter-name>struts2</filter-name>
 
 
        <filter-class>
 
 
            org.apache.struts2.dispatcher.FilterDispatcher
 
 
        </filter-class>
 
 
    </filter>
 
 

 
 
<filter-mapping>
 
 
        <filter-name>struts2</filter-name>
 
 
        <url-pattern>*.action</url-pattern>
 
 
        <dispatcher>REQUEST</dispatcher>
 
 
        <dispatcher>FORWARD</dispatcher>
 
 
 </filter-mapping>
 
 

 
 
另外，urlrewriteFilter的过滤器最好在struts2之前。（网上有人这么说，不过我把它放后面，貌似也没有问题）
 
 

 
 

 
 
3，编写urlrewrite.xml文件。将文件放在WEB-INF文件夹下。（注意文件名一定要是urlrewrite.xml）文件内容如下：
 
 

 
 
<?xml version="1.0" encoding="utf-8"?>
 
 
<!DOCTYPE urlrewrite PUBLIC "-//tuckey.org//DTD UrlRewrite 3.2//EN"
 
 
        "http://tuckey.org/res/dtds/urlrewrite3.2.dtd">
 
 
<!--
 
 
    Configuration file for UrlRewriteFilter
 
 
    http://tuckey.org/urlrewrite/
 
 
-->
 
 

 
 
<urlrewrite>
 
 
   
 
 
    <rule>
 
 
        <from>/noParams.html</from>
 
 
        <to type="forward">noParams.action</to>
 
 
    </rule>
 
 
    
 
 
    <rule>
 
 
        <from>^/withParams/([a-zA-Z0-9]+).html$</from>
 
 
        <to type="forward">withParams.action?name=$1</to>
 
 
    </rule>
 
 
    
 
 
    <rule>
 
 
        <from>^/withParams2/([a-zA-Z0-9]+).html$</from>
 
 
        <to type="redirect">%{context-path}/withParams.action?name=$1</to>
 
 
    </rule>
 
 
    
 
 
</urlrewrite>

从上面的源码可以看出，<from>标签中的路径的格式就是我们要美化的样式。<to>标签中的实际是我们真实的请求。这里我们可以简单的认为，就是通过这个配置文件，将我们请求的美化后的伪静态html页面，映射成为真实的action请求。

从上面我们看到，<to>有两种type，分别为：forward和redirect。这和我们通常所说的forward和redirect跳转是一回事。

如果使用forward，则限定<to>中的请求必须和urlRewriteFilter在同一上下文环境中。而redirect则没有限制，可以跳转到任何其他的工程中。

另外，<from>标签中使用的是正则表达式，即^和$之间的内容。关于正则表达式，这里不再进行详细说明。

最后，from可以包含多个正则表达式，其对应的参数，在<to>中，可以用$1,$2等按照顺序进行接收。

三、常见问题：

1，使用URL美化器后，跳转页面报404错误。这里要注意的是，在struts2的过滤器中，如果没有配置<dispatcher>REQUEST</dispatcher>，redirect方式是不可用的。如果没有添加<dispatcher>FORWARD</dispatcher>，forward方式是不可用的。所以前面说明了，必须要在struts2中添加这两点。另外，网上也有人说要也添加<dispatcher>INCLUDE </dispatcher> 。但是目前还不知道这个是做什么用的。没有添加，也没有出现问题。

2，使用redirect方式，相比forward方式，性能较低。所以如果系统到处都要使用URL美化器，要慎重选择使用redirect。

3，如果使用forward方式，则要处理好路径方面的问题。因为如果经过美化，URL的路径中多了或者少了几个目录，其跳转后的页面中，使用相对路径的资源（例如图片），就会请求不到，原因就是路径是以当前的URL路径为基础进行计算位置的。

解决方法：1，在跳转的jsp页面中，资源的路径位置使用绝对路径。2，不要在不同目录之间使用forward做请求转发，保证当前路径不发生变化。3，改用redirect方式。

另：

示例

<rule>
       <note>无参数匹配</note>
       <from>^/([_a-zA-Z]+[_0-9a-zA-Z-/]*[_0-9a-zA-Z]+)$</from>
       <to type="forward">/$1.jsp</to>
    </rule>

    <rule>
       <note>将所有.jsp文件映射为.html</note>
       <from>^/([_a-zA-Z]+[_0-9a-zA-Z-/]*[_0-9a-zA-Z]+).html$</from>
       <to type="forward">/$1.jsp</to>
    </rule>

附：

比如我们实际的访问地址是：http://yousite.com/entity.htm ?category=user&page=2.而我们想把它重写为http://yousite.com/entity/uesr/page_2.html。这样看起来比我们实际的要好看的多。我们就应该这样的写：
<rule>
<from>^/(\w+)/(\w+)/page_(\d+)\.html$</from>
<to type="forward">/$1.htm?category=$2&page=$3</to>
</rule>
简单的介绍一下常用的正规表示式：
代码说明
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束

常用的&要用 &来表示。$1,$2代表与你配置正规表达式>/(\w+)/(\w+)/相对应的参数。

A-Z：匹配 A 到 Z 中的任意一个字符，说一句废话，同理可得，

a-z：匹配 a 到 z 中的任意一个字符

0-9：匹配 0 到 9 的任意一个字符

+：至少出现一次，即，一次或一次以上

合起来 [A-Za-z0-9]+ 的意思就是：匹配一个任意的英文字母和数字组合的字符串

附：

<rule>
         <from>/([0-9]+)/news/([0-9]+)$</from>
         <to>/NewsAction!findNewsById?id=$1&pageNum=$2</to>
  </rule>输入http://localhost:8080/mysite/127/news/1，可替代http://localhost:8080/mysite/NewsAction!findNewsById?id=127&pageNum=1
 <rule>
         <from>/([a-z]+)/news/([0-9]+)$</from>
         <to>/NewsAction!findNews?words=$1&pageNum=$2</to>
  </rule>输入http://localhost:8080/mysite/新闻/news/1，可替代http://localhost:8080/mysite/NewsAction!findNews?words=新闻&pageNum=1

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。