: 目的

本文旨在提供如何用 Apache 重写规则来解决一些常见的 URL 重写方法的问题,通过常见的实例给用户一些使用重写规则的基本方法和线索。

: 为什么需要用重写规则?
一个网站,如果是长期需要放在 internet 上提供服务,必定会有不断地更新和维护,如临时转移到其它服务器进行维护,重新组织目录结构,变换 URL 甚至改变到新的域名等等,而为了让客户不会因此受到任何影响,最好的方法就是使用 Apache Rewrite Rule( 重写规则 )

: 重写规则的作用范围
1)
可以使用在 Apache 主配置文件 httpd.conf
2)
可以使用在 httpd.conf 里定义的虚拟主机配置中
3)
可以使用在基本目录的跨越配置文件 .htaccess

: 重写规则的应用条件
只有当用户的 WEB 请求最终被导向到某台 WEB 服务器的 Apache 后台,则这台 WEB 服务器接受进来的请求,根据配置文件该请求是主配置还是虚拟主机,再根据用户在浏览器中请求的 URI 来配对重写规则并且根据实际的请求路径配对 .htaccess 中的重写规则。最后把请求的内容传回给用户,该响应可能有两种:

1)
对浏览器请求内容的外部重定向 (Redirect) 到另一个 URL 。让浏览器再次以新的 URI 发出请求 (R=301 或者 R=302 ,临时的或是永久的重定向 )
如:一个网站有正规的 URL 和别名 URL ,对别名 URL 进行重定向到正规 URL ,或者网站改换成了新的域名则把旧的域名重定向到新的域名 (Redirect)

2)
也可能是由 Apache 内部子请求代理产生新的内容送回给客户 [P,L] 这是 Apache 内部根据重写后的 URI 内部通过代理模块请求内容并送回内容给客户,而客户端浏览器并不知道,浏览器中的 URI 不会被重写。但实际内容被 Apache 根据重写规则后的 URI 得到。
如:在公司防火墙上运行的 Apache 启动这种代理重写规则,代理对内部网段上的 WEB 服务器的请求。

: 重写规则怎样工作?
我们假定在编译 Apache 时已经把 mod_rewrite 编译成模块,确信你的 httpd.conf 中有 LoadModule rewrite_module libexec/mod_rewrite.so
并且在 Addmodule 中有 Addmodule mod_rewrite.c 则可以使用重写规则。
当外部请求来到 Apache Apache 调用重写规则中的定义来重写由用户浏览器指定请求的 URI ,最后被重写的 URI 如果是重定向,则送由浏览器作再一次请求;如果是代理则把重写后的 URI 交给代理模块请求最终的内容 (Content), 最后把内容送回给浏览器。

: 何时使用 .htaccess 中的重写规则定义?
假如你对你的的网站内容所在的服务器没有管理员权限,或者你的网站放在 ISP 的服务器上托管等等条件下,你无法改写主配置文件,然而你可以对你的 WEB 站点内容所在的目录有写权限,则你可以设置自己的 .htaccess 文件达到同样的目的。但你需要确定主配置文件中对你的网站所在的目录定义了下面的内容 :

Options Indexes FollowSymLinks
AllowOverride all

否则你的 .htaccess 不会工作。

: 应用举例
假定 Apache 被编译安装在主机 192.168.1.56 /usr/local/apache/ 目录下面,我们编译进了重写和代理模块。

1)
隐藏 Apache 下的某个目录,使得对该目录的任何请求都重定向到另一个文件。

a> httpd.conf
的实现方法

我们放下面的部分到 /usr/local/apache/conf/httpd.conf


options Indexes followsymlinks
allowoverride all
rewriteengine on
rewritebase /
rewriterule ^(.*)$ index.html.en [R=301]


注: rewriteengine on 为重写引擎开关,如果设为 off, 则任何重写规则定义将不被应用,该开关的另一好处就是如果为了临时拿掉重写规则,则改为 off 再重启动 Apache 即可,不必将下面一条条的重写规则注释掉。 rewritebase / 的作用是如果在下面的 rewriterule 定义中被重写后的部分 ( 此处为文件名 index.html.en) 前面没有 / ,则是相对目录,相对于这个 rewritebase 后面的定义也就是 /usr/local/apache/htdocs/index.html.en, 否则,如果此处没有 rewritebase / 这一项,则被重写成 http: //192.168.1.56/usr/local/apache/htdocs/manual/index.html.en ,显然是不正确的。

不过这里我们也可以不用 rewritebase / , 而改为
rewriteengine on
rewriterule ^(.*)$ /index.html.en [R=301]
或者
rewriteengine on
rewriterule ^(.*)$ http://192.168.1.56/index.html.en [R=301]

b> .htaccess
的实现方法

我们先放下面的部分到 httpd.conf


options Indexes followsymlinks
allowoverride all


然后放下面的部分到 /usr/local/apache/htdocs/manual/.htaccess
rewriteengine on
rewritebase /
rewriterule ^(.*)$ index.html.en [R=301]

注:对文件 .htaccess 所作的任何改动不需要重启动 Apache.

问:要是把这个 manual 目录重定向到用户 jephe 的自己的主目录呢?
用下面的 .htaccess 方案。
rewriteengine on
rewritebase /~jephe/
rewriterule ^(.*)$ $1 [R=301]

则对 manual 目录下任何文件的请求被重定向到 ~jephe 目录下相同文件的请求。

2)
转换 www.username.domain.com 的对于 username 的主页请求为
www.domain.com/username

对于 HTTP/1.1 的请求包括一个 Host: HTTP 头,我们能用下面的规则集重写
http://www.username.domain.com/anypath
/home/username/anypath

Rewriteengine on
rewritecond %{HTTP_HOST} ^www\.[^.]+\.host\.com$
rewriterule ^(.+) %{HTTP_HOST}$1 [C]
rewriterule ^www\.([^.]+)\.host\.com(.*) /home/$1$2

注:
rewritecond
条件重写规则,当满足后面定义的条件后才会应用下面的重写规则, rewritecond 有各种变量,请查阅相关文档。

3)
防火墙上的重写规则代理内部网段上服务器的请求。

NameVirtualhost 1.2.3.4


servername www.domain.com
rewriteengine on
proxyrequest on
rewriterule ^/(.*)$ http://192.168.1.3/$1 [P,L]


注:当外部浏览器请求 www.domain.com 时被解析到 IP 地址 1.2.3.4 ,Apache 交出 mod_rewrite 处理转换成 http://192.168.1.3/$1 后再交由代理模块 mod_proxy 得到内容后传送回用户的浏览器。


4)
基本预先设定的转换 MAP 表进行重写 rewritemap

转换 www.domain.com/{countrycode}/anypath Map 表中规定的 URI, 上面是虚拟主机中的定义

rewritelog /usr/local/apache/logs/rewrite.log
rewriteloglevel 9

rewriteengine on
proxyrequest on
rewritemap sitemap txt:/usr/local/apache/conf/rewrite.map
rewriterule ^/([^/]+)+/(.*)$ http://%{REMOTE_HOST}::$1 [C]
rewriterule (.*)::([a-z]+)$ ${sitemap:$2|http://h.i.j.k/} [R=301,L]

文件 /usr/local/apache/conf/rewrite.map 的内容如下 :

sg http://a.b.c.d/
sh http://e.f.g.h/

注:当用户请求 http://www.domain.com/sg/anypath 时被重写为 http://a.b.c.d/anypath .
当需要调试时请用 rewritelog and rewriteloglevel 9 联合 ,9 为最大即得到最多的调试信息最小为 1 ,最小的调试信息,默认为 0 ,没有调试信息。 sitemap 的语法是 ${sitemap: LookupKey | Defaultvalue} , 有些书上把 $ 写成了 % 是错误的。
Apache 模块 mod_rewrite
提供了一个基于规则的实时转向URL请求的引擎
Extension
rewrite_module
mod_rewrite.c
包含在Apache 1.3及其更新版本中
RewriteBase 指令
设置目录级重写的基准URL
RewriteBase URL-path
参见使用方法.
目录, .htaccess
FileInfo
Extension
mod_rewrite
For Apache Hackers
以下列出了内部处理的详细步骤:
Request:
 /xyz/oldstuff.html
 
Internal Processing:
 /xyz/oldstuff.html     -> /abc/def/oldstuff.html (per-server Alias)
 /abc/def/oldstuff.html -> /abc/def/newstuff.html (per-dir    RewriteRule)
 /abc/def/newstuff.html -> /xyz/newstuff.html      (per-dir    RewriteBase)
 /xyz/newstuff.html     -> /abc/def/newstuff.html (per-server Alias)
 
Result:
 /abc/def/newstuff.html
虽然这个过程看来很繁复,但是由于目录级重写的到来时机已经太晚了, 它不得不把这个(重写)请求重新注入到Apache核心中,所以Apache内部确实是这样处理的。但是:它的开销并不象看起来的那样大,因为重新注入完全在Apache服务器内部进行, 而且这样的过程在Apache内部也为其他许多操作所使用。 所以,你可以充分信任其设计和实现是正确的。
定义重写发生的条件
RewriteCond TestString CondPattern
服务器配置, 虚拟主机, 目录, .htaccess
FileInfo
Extension
mod_rewrite
RewriteCond 指令定义了一个规则的条件,即,在一个RewriteRule指令之前有一个或多个RewriteCond指令。 条件之后的重写规则仅在当前URI与pattern匹配并且符合这些条件的时候才会起作用
正则表达式只是用于字符串匹配的特征串 , 我们从如何表示一个字符开始 .
[ ] : 表示选择一个字符 .
(.) :
表示任何了个除换行符 (\n) 之外的字符 .
\r  :
表示回车
\n  :
表示换行
\t  :
表示 TAB
\w  :
表示字母 , 数字或下划线 , 等同于 [A-Za-z0-9_]
\W  :
表示非字母 , 数字或下划线 , 等同于 [^A-Za-z0-9_]
\s  :
表示空白字符 , 等同于 [ \f\n\r\t]
\S  :
表示非空白字符 , 等同于 [^ \f\n\r\t]
\d  :
表示数字字符 , 等同于 [0-9]
\D  :
表示非数字字符 , 等同于 [^0-9]
    当我们需要表示有特定意义的字符时 ,   可以用 "\" 来进行转义 , 如要表示一对中括号 , 就用 "\[\]", 其他的类似 . "*", "+", ".", "(", ")", "$", "?", "|", "{" 出现在中括号内时 , 就只表示字符本身而没有其他含义 .
| : 或者
* : 表示出现 0 个或多个
+ : 表示出现 1 个或多个
? : 表示出现 0 个或 1
{n} : 表示重复出现 n
{m,n} : 表示重复出现最少 m , 最多 n
    到这一部份就比较难理解了 , 还是举例子来解释吧 .
(ab|cd|ef)
"ab", "cd", "ef" 中的任一个
[a-zA-Z]+
只包括字母的单词
[A-Z][a-z]*
第一个字母是大写的单词
\d+\.?\d*
表示一个数字
[a-z]{4}
四个小写字母
[+-]?\d*\.\d{1,6}
小数点后有 1 6 位的数
.|\n
任何字符
.*
一行
^\s*$
空行
使用 UrlRewriteFilter 动态 URL 静态化
   (方法一)
                     假设你已经使用mod_jk2.so整合了Apache2.05x与Tomcat5.x
要完成的功能如下重定向:
1. 修改Apache2\conf\httpd.conf文件,加载mod_rewrite.so
LoadModule rewrite_module modules/mod_rewrite.so

2.
在每个虚拟主机的地方设置Rewrite参数
<VirtualHost *:80>
    ServerAdmin wiseweidong@gmail.com
    DocumentRoot "I:/Job/Java"
    ServerName localhost
    RewriteEngine on
    RewriteRule /([0-9]+).html /test.jsp?id=$1 [PT]
    RewriteRule /([0-9]+)_([0-9]+).html /content.jsp?id=$1&id2=$2 [PT]
</VirtualHost>
( 方法二)
     所用基于动态的url http://www.nihaoblog.com/content.jsp?id=1&contentid=404按照各大搜索引擎的喜好,应该美化成http://www.nihaoblog.com/content/1_404.html静态网页的方式,尽管目前的google及几大搜索引擎宣称支持动态页网的抓取,但与传统的html文件相比较抓取率仍不在一个数量级。Apche的mod_rewrite模块具有此功能,但是对于租用虚拟主机的用户来说就比较麻烦不太可能对所有运营商有更多的要求,需要条件依赖就不具通用性。
    目前有一个解决方法,通过UrlRewriteFilter可以完全实现动态URL表态化,你可以将它直接应用到你的web应用中,不管你用的是jsp+javabean还是struts. 
    
下面是使用方法:
    1 、下载http://tuckey.org/urlrewrite/#download目前版本是1.2,解压缩后将文件考到相应的web-inf/lib和web-inf下,。
    2、配置web.xml
<filter>
       <filter-name>UrlRewriteFilter</filter-name>
       <filter-class>org.tuckey.web.filters.urlrewrite.UrlRewriteFilter</filter-class>
</filter>
<filter-mapping>
       <filter-name>UrlRewriteFilter</filter-name>
       <url-pattern>/*</url-pattern>
</filter-mapping>
根据自己的需要,将相应目录下的url转给UrlRewriteFilter来处理。
     3 、配置urlwrite规则文件WEB-INF/urlrewrite.xml 
配置如下: 
<rule> 
    <from>/content/([0-9]+)_([0-9]+).html</from> 
    <to>/content.jsp?id=$1&amp;contentid=$2</to> 
</rule>
RewriteRule
Syntax: RewriteRule Pattern Substitution [flags]
  一条RewriteRule指令,定义一条重写规则,规则间的顺序非常重要。对Apache1.2及以后的版本,模板(pattern)是一个POSIX正则式,用以匹配当前的URL。当前的URL不一定是用记最初提交的URL,因为可能用一些规则在此规则前已经对URL进行了处理。
  对mod_rewrite来说,!是个合法的模板前缀,表示“非”的意思,这对描述“不满足某种匹配条件”的情况非常方便,或用作最后一条默认规则。当使用!时,不能在模板中有分组的通配符,也不能做后向引用。
  当匹配成功后,Substitution会被用来替换相应的匹配,它除了可以是普通的字符串以外,还可以包括:
  1. $N,引用RewriteRule模板中匹配的相关字串,N表示序号,N=0..9
  2. %N,引用最后一个RewriteCond模板中匹配的数据,N表示序号
  3. %{VARNAME},服务器变量
  4. ${mapname:key|default},映射函数调用
这些特殊内容的扩展,按上述顺序进行。
  一个URL的全部相关部分都会被Substitution替换,而且这个替换过程会一直持续到所有的规则都被执行完,除非明确地用L标志中断处理过程。
  当susbstitution有”-”前缀时,表示不进行替换,只做匹配检查。
  利用RewriteRule,可定义含有请求串(Query String)的URL,此时只需在Sustitution中加入一个?,表示此后的内容放入QUERY_STRING变量中。如果要清空一个QUERY_STRING变量,只需要以?结束Substitution串即可。
  如果给一个Substitution增加一个http://thishost[:port]的前缀,则mod_rewrite会自动将此前缀去掉。因此,利用http://thisthost做一个无条件的重定向到自己,将难以奏效。要实现这种效果,必须使用R标志。
  Flags是可选参数,当有多个标志同时出现时,彼此间以逗号分隔。
  1. 'redirect|R [=code]' (强制重定向)
      给当前的URI增加前缀http://thishost[:thisport]/, 从而生成一个新的URL,强制生成一个外部重定向(external redirection,指生的URL发送到客户端,由客户端再次以新的URL发出请求,虽然新URL仍指向当前的服务器). 如果没有指定的code值,则HTTP应答以状态值302 (MOVED TEMPORARILY),如果想使用300-400(不含400)间的其它值可以通过在code的位置以相应的数字指定,也可以用标志名指定: temp (默认值), permanent, seeother.
      注意,当使用这个标志时,要确实substitution是个合法的URL,这个标志只是在URL前增加http://thishost[:thisport]/前缀而已,重写操作会继续进行。如果要立即将新URL重定向,用L标志来中重写流程。
  2. 'forbidden|F' (强制禁止访问URL所指的资源)
      立即返回状态值403 (FORBIDDEN)的应答包。将这个标志与合适的RewriteConds 联合使用,可以阻断访问某些URL。
  3. 'gone|G' (强制返回URL所指资源为不存在(gone))
      立即返回状态值410 (GONE)的应答包。用这个标志来标记URL所指的资源永久消失了.
  4. # 'proxy|P' (强制将当前URL送往代理模块(proxy module))
      这个标志,强制将substitution当作一个发向代理模块的请求,并立即将共送往代理模块。因此,必须确保substitution串是一个合法的URI (如, 典型的情况是以http://hostname开头),否则会从代理模块得到一个错误. 这个标志,是ProxyPass指令的一个更强劲的实现,将远程请求(remote stuff)映射到本地服务器的名字空间(namespace)中来。
      注意,使用这个功能必须确保代理模块已经编译到Apache 服务器程序中了. 可以用“httpd -l ”命令,来检查输出中是否含有mod_proxy.c来确认一下。如果没有,而又需要使用这个功能,则需要重新编译``httpd''程序并使用mod_proxy有效。
  5. 'last|L' (最后一条规则)
      中止重写流程,不再对当前URL施加更多的重写规则。这相当于perl的last命令或C的break命令。
  6. 'next|N' (下一轮)
      重新从第一条重写规则开始执行重写过程,新开的过程中的URL不应当与最初的URL相同。 这相当于Perl的next命令或C的continue命令. 千万小心不要产生死循环。
  7. # 'chain|C' (将当前的规则与其后续规则綑绑(chained))
      当规则匹配时,处理过程与没有綑绑一样;如果规则不匹配,则綑绑在一起的后续规则也不在检查和执行。
  8. 'type|T=MIME-type' (强制MIME类型)
      强制将目标文件的MIME-type为某MIME类型。例如,这可用来模仿mod_alias模块对某目录的ScriptAlias指定,通过强制将该目录下的所有文件的类型改为 “application/x-httpd-cgi”.
  9. 'nosubreq|NS' (used only if no internal sub-request )
      这个标志强制重写引擎跳过为内部sub-request的重写规则.例如,当mod_include试图找到某一目录下的默认文件时 (index.xxx),sub-requests 会在Apache内部发生. Sub-requests并非总是有用的,在某些情况下如果整个规则集施加到它上面,会产生错误。利用这个标志可排除执行一些规则。
  10. 'nocase|NC' (模板不区分大小写)
      这个标志会使得模板匹配当前URL时忽略大小写的差别。
  11. 'qsappend|QSA' (追加请求串(query string))
      这个标志,强制重写引擎为Substitution的请求串追加一部分串,则不是替换掉原来的。借助这个标志,可以使用一个重写规则给请求串增加更多的数据。
  12. 'noescape|NE' (不对输出结果中的特殊字符进行转义处理)
      通常情况下,mod_write的输出结果中,特殊字符(如'%', '$', ';', 等)会转义为它们的16进制形式(如分别为'%25', '%24', and '%3B')。这个标志会禁止mod_rewrite对输出结果进行此类操作。 这个标志只能在 Apache 1.3.20及以后的版本中使用。
  13. 'passthrough|PT' (通过下一个处理器)
      这个标志强制重写引擎用filename字段的值来替换内部request_rec数据结构中uri字段的值。. 使用这个标志,可以使后续的其它URI-to-filename转换器的Alias、ScriptAlias、Redirect等指令,也能正常处理RewriteRule指令的输出结果。用一个小例子来说明它的语义:如果要用mod_rewrite的重写引擎将/abc转换为/def,然后用mod_alas将/def重写为ghi,则要:
    RewriteRule ^/abc(.*) /def$1 [PT]
    Alias /def /ghi
    如果PT标志被忽略,则mod_rewrite也能很好完成工作,如果., 将 uri=/abc/... 转换为filename=/def/... ,完全符合一个URI-to-filename转换器的动作。接下来 mod_alias 试图做 URI-to-filename 转换时就会出问题。
    注意:如果要混合都含有URL-to-filename转换器的不同的模块的指令,必须用这个标志。最典型的例子是mod_alias和mod_rewrite的使用。
  14. 'skip|S=num' (跳过后面的num个规则)
      当前规则匹配时,强制重写引擎跳过后续的num个规则。用这个可以来模仿if-then-else结构:then子句的最后一条rule的标志是skip=N,而N是else子句的规则条数。
  15. 'env|E=VAR:VAL' (设置环境变量)
      设置名为VAR的环境变量的值为VAL,其中VAL中可以含有正则式的后向引用($N或%N)。这个标志可以使用多次,以设置多个环境变量。这儿设置的变量,可以在多种情况下被引用,如在XSSI或CGI中。另外,也可以在RewriteCond模板中以%{ENV:VAR}的形式被引用。

注意:一定不要忘记,在服务器范围内的配置文件中,模板(pattern)用以匹配整个URL;而在目录范围内的配置文件中,目录前缀总是被自动去掉后再进行模板匹配的,且在替换完成后自动再加上这个前缀。这个功能对很多种类的重写是非常重要的,因为如果没有去前缀,则要进行父目录的匹配,而父目录的信息并不是总能得到的。一个例外是,当substitution中有http://打头时,则不再自动增加前缀了,如果P标志出现,则会强制转向代理。
注意:如果要在某个目录范围内启动重写引擎,则需要在相应的目录配置文件中设置“RewriteEngine on”,且目录的“Options FollowSymLinks”必须设置。如果管理员由于安全原因没有打开FollowSymLinks,则不能使用重写引擎。
注:顺序
下表从最高优先级到最低优先级列出各种正则表达式操作符的优先权顺序:

操作符 描述

\
转义符

(), (?:), (?=), []
圆括号和方括号

*, +, ?, {n}, {n,}, {n,m}
限定符

^, $, \anymetacharacter
位置和顺序

| “
操作
RewriteRule news/(\d+)\.html news\.php\?id=$1 [N,L]
这样就实现了将 http://localhost/news/1000.html 解析为 http://localhost/news.php?id=1000 的功能
http://211.100.227.106:8080/wp-cp-m7/index.jsp?mod=free&act=watch&cid=714
index/[a-zA-Z]/[a-zA-Z]/(\d+)_(\d+)\.html index\.jsp\?mod=$1&act=$2&cid=
RewriteRule ^(power([^/]*))/([^/]+)\.htm(l?)$ series\.php\?fclassname=$1&fb_babrand=$3 [NC]
$ 匹配输入字符串的结束位置。如
URL http://host/test.jps?id=1 重定向为 http://host/1.html
URL http://host/conent.jsp?id=1&id2=3 重定向为 http://host/1_3.html
RewriteEngine on
    RewriteRule /([0-9]+).html /test.jsp?id=$1 [PT]
    RewriteRule /([0-9]+)_([0-9]+).html /content.jsp?id=$1&id2=$2 [PT]
index.jsp?lid=2&mod=free&act=watch&cid=714&mid=112312&type=adlska
index/lang/mod/act/type/cid_mid.html
RewriteRule index/(\d+\.?\d*)/(a-z)/(a-z)/(a-z)/([0-9]+)_([0-9]+).html /index.jsp?lid=$1&mod=&2&act=$3&type=$4&cid=$5&mid=$6 [PT]
RewriteRule index/(a-z)/(a-z)/(a-z)/([0-9]+)_([0-9]+).html /index.jsp?mod=&1&act=$2&type=$3&cid=$4&mid=$5 [PT]
RewriteRule /(a-z)/(a-z)/([0-9]+)_([0-9]+).html /?mod=&1&act=$2&cid=$3&mid=$4 [PT]
index.jsp?mod=free&act=watch&cid=714
index.jsp?mod=free&act=watch
index.jsp?mod=free
             
               RewriteRule ^([^/]+)/([^/]+)/(\d+)_(\d+).html$ /index.jsp?mod=$1&act=$2&cid=$3&mid=$4
 RewriteRule ^([^/]+)/([^/]+)/([^/]+)/(\d+)_(\d+).html$ /index.jsp?lid=$1&mod=$2&act=$3&cid=$4&mid=$5
         
 RewriteRule ^([^/]+)/([^/]+)/(\d+).html$ /index.jsp?mod=$1&act=$2&cid=$3
 RewriteRule ^([^/]+)/([^/]+)/(\d+)/(\d+).html$ /index.jsp?lid=$1&mod=$2&act=$3&cid=$4
       
 RewriteRule ^(\d+)/(\d+).html$ /index.jsp?mod=$1&act=$2
 RewriteRule ^(\d+)/([^/]+)/([^/]+).html$ /index.jsp?lid=$1&mod=$2&act=$3
     
 RewriteRule ^([^/]+).html$ /index.jsp?mod=$1
 RewriteRule ^(\d+)/([^/]).html$ /index.jsp?lid=$1&mod=$2