GET方式传递中文参数乱码的问题

精选转载

rentian870423 2013-01-16 10:36:58

今天在做文件下载功能，发现传递中文文件名为参数时在ACTION中获取显示为乱码，然后去网上找了很久资料，说是需要URLEncoder和URLDecoder,然后我试着改写

buffer.append("<li><a href='" + request.getContextPath() + "/fileDownload.do?filename=" + URLEncoder.encode(files[i].getName(),"UTF-8") + "' >" + files[i].getName() + "</a></li>");

然后在下载ACTION中获取文件名：

filename = URLDecoder.decode(request.getParameter("filename"),"UTF-8");

结果还是乱码。于是继续查资料，发现一个细节，有篇文章里写了两次URLEncoder.encode，于是我抱着试一试的心态，把生成链接的地方做了两次URLEncoder:

buffer.append("<li><a href='" + request.getContextPath()+ "/fileDownload.do?filename=" + URLEncoder.encode(URLEncoder.encode(files[i].getName(),"UTF-8"),"UTF-8") + "' >" + files[i].getName() + "</a></li>");

结果竟然成功了，filename不是乱码了。感觉非常的奇怪，于是去BAIDU： URLEncoder转两次。才发现原来道理是这样的：

因为在jsp中对中文进行了编码的时候用的是UTF-8的编码方式，而在servlet中调用request.getParameter();方法的时候使用服务器指定的编码格式自动解码一次，所以前台编码一次后台解码一次而解码和编码的方式不用所以造成了乱码的出现，

这就类似于以下代码：

            String name=java.net.URLEncoder.encode("测试", "UTF-8");
            System.out.println(name);
            System.out.println(java.net.URLDecoder.decode(name, "ISO-8859-1"));
编码后的是%E6%B5%8B%E8%AF%95；
而用ISO-8859-1解码后的是???è?；

但是如果调用的是
           System.out.println(java.net.URLDecoder.decode(name, "UTF-8"));
则结果是打印“测试”；

这就印证了之前为什么我在servlet中调用 java.net.URLDecoder.decode(request.getParameter("name"), "UTF-8")方法和调用java.net.URLDecoder.decode(request.getQueryString(), "UTF-8")所得到的结果是不一样的，就是由于在request.getParameter("name")之前会自动做一次解码的工作，而且是默认的ISO-8859-1。

所以，在使用java.net.URLEncoder.decode()和java.net.URLDecoder.decode(),的时候需要在前端页面中使用两次java.net.URLDecoder.decode()方法。

使用两次编码的过程相当于如下代码：
            String name=java.net.URLEncoder.encode("测试", "UTF-8");
            System.out.println(name);
            name=java.net.URLEncoder.encode(name,"UTF-8");
            System.out.println(name);
            name=java.net.URLDecoder.decode(name, "UTF-8");
            System.out.println(name);
            System.out.println(java.net.URLDecoder.decode(name, "UTF-8"));

输出为：

            %E6%B5%8B%E8%AF%95
            %25E6%25B5%258B%25E8%25AF%2595
            %E6%B5%8B%E8%AF%95
            测试

第一次编码后将汉字编码为%和字母数字的格式，而第二次编码的时候是对%字母数字进行编码，虽然解码的时候使用的是ISO-8859-1，但是对于%和字母数字而言用ISO-8859-1和UTF-8解码出来的是一样的，此时就回到了汉字被编码过一次的字符串了，当再次进行解码的时候使用UTF-8就回将它转会汉字；