java 中文字符乱码 java中文显示乱码

转载

mob64ca1409970a 2024-01-24 10:46:47

文章标签 java 中文字符乱码 java encoding byte string 文章分类 Java 后端开发

在基于Java的编程中，经常会碰到汉字的处里及显示的问题，比如一大堆乱码或问号。
这是因为JAVA中默认的编码方式是UNICODE，而中国人通常使用的文件和DB都是基于GB2312或者BIG5等编码，故会出现此问题。以前我也经常为这个问题而苦恼，后来经查了些资料，终于解决了，我知道一定有很多朋友也会碰到这个问题，所以特就总结了一下，来拿出来让大家一起分享了。

    1、在网页中输出中文。
    JAVA在网络传输中使用的编码是"ISO-8859-1"，故在输出时需要进行转化，如：
    String str="中文";
    str=new String(str.getBytes("GB2312"),"8859_1");
    但假如在编译程序时，使用的编码是“GB2312”,且在中文平台上运行此程序，不会出现此问题，一定要注重。

    2、从参数中读取中文
    这正好与在网页中输出相反如：
    str=new String(str.getBytes("8859_1"),"GB2312");

    3、操作DB中的中文问题
    一个较简单的方法是：在“控制面扳”中，把“区域”设置为“英语(美国)”。假如还会出现乱码，还可进行如下设置：
    取中文时：str=new String(str.getBytes("GB2312"));
    向DB中输入中文：str=new String(str.getBytes("ISO-8859-1"));

4、在jsp中的中文解决：

    在“控制面扳”中，把“区域”设置为“英语(美国)”.
    在JSP页面中加入：
    假如还不行正常显示，则还要进行下面的转换：
    如：name=new String(name.getBytes("ISO-8859-1"),"GBK");
    就不会出现中文问题了。

------------------------------------------------------

一、字节和unicode

　　Java内核是unicode的，就连class文件也是，但是很多媒体，包括文件/流的保存方式是使用字节流的。因此Java要对这些字节流经行转化。 char是unicode的，而byte是字节。Java中byte/char互转的函数在sun.io的包中间有。其中 ByteToCharConverter类是中调度，可以用来告诉你，你用的convertor。其中两个很常用的静态函数是：

　　public static ByteToCharConverter getDefault();

　　public static ByteToCharConverter getConverter(String encoding);

　　如果你不指定converter，则系统会自动使用当前的encoding,gb平台上用gbk,en平台上用8859_1。

　　byte ——〉char：

　　"你"的gb码是：0xc4e3 ,unicode是0x4f60

　

String encoding = "gb2312"; 

　　byte b[] = {(byte)''/u00c4'',(byte)''/u00e3''}; 

　　ByteToCharConverter converter = ByteToCharConverter.getConverter(encoding); 

　　char c[] = converter.convertAll(b); 

　　for (int i = 0; i < c.length; i++) { 

　　System.out.println(Integer.toHexString(c[i])); 

　　}

　　结果是什么？0x4f60

　　如果encoding ="8859_1"，结果又是什么？0x00c4,0x00e3（这表明8859_1是以字节为单位的）

　　如果代码改为：

　　

byte b[] = {(byte)''/u00c4'',(byte)''/u00e3''}; 

　　ByteToCharConverter converter = ByteToCharConverter. getDefault(); 

　　char c[] = converter.convertAll(b); 

　　for (int i = 0; i < c.length; i++) { 

　　System.out.println(Integer.toHexString(c[i])); 

　　}

　　结果将又是什么？

　　这就要根据平台的编码而定。

　

char ——〉byte： 

　　String encoding = "gb2312"; 

　　char c[] = {''/u4f60''}; 

　　CharToByteConverter converter = CharToByteConverter.getConverter(encoding); 

　　byte b[] = converter.convertAll(c); 

　　for (int i = 0; i < b.length; i++) { 

　　System.out.println(Integer.toHexString(b[i])); 

　　}

　　结果是什么？0x00c4,0x00e3

　　如果encoding ="8859_1"，结果又是什么？0x3f

　　如果代码改为

　

String encoding = "gb2312"; 

　　char c[] = {''/u4f60''}; 

　　CharToByteConverter converter = CharToByteConverter.getDefault(); 

　　byte b[] = converter.convertAll(c); 

　　for (int i = 0; i < b.length; i++) { 

　　System.out.println(Integer.toHexString(b[i])); 

　　}

　　结果将又是什么？还是根据平台的编码而定。

　　很多中文问题就是从这两个最简单的类派生出来的。而却有很多类不直接支持把encoding输入，这给我们带来诸多不便。很多程序难得用encoding了，直接用default的encoding，这就给我们移植带来了很多困难。

　　二、utf-8

　　utf-8是和unicode一一对应的，其实现很简单：

　　7位的unicode: 0 _ _ _ _ _ _ _

　　11位的unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _

　　16位的unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _

　　21位的unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _

　　大多数情况是只使用到16位以下的unicode:

　　"你"的gb码是：0xc4e3 ,unicode是0x4f60

　　0xc4e3的二进制：

　　1100 ，0100 ，1110 ，0011

　　由于只有两位我们按照两位的编码来排，但是我们发现这行不通，因为第７位不是0因此，返回"?"

　　0x4f60的二进制：

　　0100 ，1111 ，0110 ，0000

　　我们用utf-8补齐，变成：

　　1110 ，0100 ，1011 ，1101 ，1010 ，0000

　　e4--bd-- a0

　　于是返回：0xe4,0xbd,0xa0。

　　三、string和byte[]

　　string其实核心是char[],然而要把byte转化成string，必须经过编码。string.length()其实就是char数组的长度，如果使用不同的编码，很可能会错分，造成散字和乱码。例如：

　　String encoding = “”;

　　byte [] b={(byte)''/u00c4'',(byte)''/u00e3''};

　　String str=new String(b,encoding);

　　如果encoding=8859_1，会有两个字，但是encoding=gb2312只有一个字这个问题在处理分页是经常发生。

　　四、Reader,Writer / InputStream,OutputStream

　　Reader和Writer核心是char，InputStream和OutputStream核心是byte。但是Reader和Writer的主要目的是要把char读/写InputStream/OutputStream。例如：

　　文件test.txt只有一个"你"字，0xc4,0xe3

String encoding = "gb2312"; 

　　InputStreamReader reader = new InputStreamReader(new FileInputStream( 

　　"text.txt"), encoding); 

　　char c[] = new char[10]; 

　　int length = reader.read(c); 

　　for (int i = 0; i < length; i++) { 

　　System.out.println(c[i]); 

　　}

　　结果是什么？是"你"。如果encoding ="8859_1"，结果是什么？"??"两个字符，表示不认识。反过来的例子自己做。

　　五、我们要对Java的编译器有所了解：

　　Javac ?encoding

　　我们常常没有用到encoding这个参数。其实encoding这个参数对于跨平台的操作是很重要的。如果没有指定encoding，则按照系统的默认encoding,gb平台上是gb2312，英文平台上是iso8859_1。Java的编译器实际上是调用 sun.tools.Javac.main的类，对文件进行编译，这个类有compile函数中间有一个encoding的变量,-encoding的参数其实直接传给encoding变量。编译器就是根据这个变量来读取Java文件的，然后把用utf-8形式编译成class文件。例子代码：

　　String str = "你";

　　FileWriter writer = new FileWriter("text.txt");

　　write.write(str);

　　writer.close();

　　如果用gb2312编译，你会找到e4 bd a0的字段；

　　如果用8859_1编译， 00c4 00e3的二进制：

　　0000，0000 ，1100，0100 ，0000，0000 ，1110，0011

　　因为每个字符都大于7位，因此用11位编码：

　　1100，0001，1000，0100，1100，0011，1010，0011

　　c1-- 84--　c3--　 a3

　　你会找到c1 84 c3 a3

　　但是我们往往忽略掉这个参数，因此这样往往会有跨平台的问题：

　　样例代码在中文平台上编译，生成zhclass

　　样例代码在英文平台上编译，输出enclass

　　(1) zhclass在中文平台上执行ok,但是在英文平台上不行

　　(2) enclass在英文平台上执行ok,但是在中文平台上不行

　　原因是：

　　(1) 在中文平台上编译后，其实str在运行态的char[]是0x4f60,　在中文平台上运行，filewriter的缺省编码是gb2312,因此 chartobyteconverter会自动用调用gb2312的converter,把str转化成byte输入到fileoutputstream 中，于是0xc4,0xe3放进了文件。但是如果是在英文平台下，chartobyteconverter的缺省值是8859_1, filewriter会自动调用8859_1去转化str,但是他无法解释，因此他会输出"?"

　　(2) 在英文平台上编译后，其实str在运行态的char[]是0x00c4 0x00e3, 在中文平台上运行，中文无法识别，因此会出现??；在英文平台上，0x00c4-->0xc4,0x00e3->0xe3，因此 0xc4,0xe3被放进了文件。

　　六、其它原因：

　　设置浏览器的显示编码，如果response的数据是utf8编码，显示将是乱码，但是乱码和上述原因还不一样。

　　七、发生编码的地方：

　　1. 从数据库到Java程序 byte——〉char

　　2. 从Java程序到数据库 char——〉byte

　　3. 从文件到Java程序 byte——〉char

　　4. 从Java程序到文件 char——〉byte

　　5. 从Java程序到页面显示 char——〉byte

　　6. 从页面form提交数据到Java程序byte——〉char

　　7. 从流到Java程序byte——〉char

　　8. 从Java程序到流char——〉byte

　　可以使用配置过滤器的方法解决中文乱码的：

　

RequestFilter 

　　net.golden.uirs.util.RequestFilter 

　　charset 

　　gb2312 

　　RequestFilter 

　　*.Jsp 

　　public void doFilter(ServletRequest req, ServletResponse res, 

　　FilterChain fChain) throws IOException, ServletException { 

　　HttpServletRequest request = (HttpServletRequest) req; 

　　HttpServletResponse response = (HttpServletResponse) res; 

　　HttpSession session = request.getSession(); 

　　String userId = (String) session.getAttribute("userid"); 

　　req.setCharacterEncoding(this.filterConfig.getInitParameter("charset")); 

　　// 设置字符集？ 

　　实际上是设置了byte ——〉char的encoding 

　　try { 

　　if (userId == null 　　 userId.equals("")) { 

　　if (!request.getRequestURL().toString().matches( 

　　".*/uirs/logon/logon(Controller){0,1}//x2EJsp$")) { 

　　session.invalidate(); 

　　response.sendRedirect(request.getContextPath() + 

　　"/uirs/logon/logon.Jsp"); 

　　} 

　　} 

　　else { 

　　// 看看是否具有信息上报系统的权限 

　　if (!net.golden.uirs.util.UirsChecker.check(userId, "信息上报系统", 

　　net.golden.uirs.util.UirsChecker.ACTION_DO)) { 

　　if (!request.getRequestURL().toString().matches( 

　　".*/uirs/logon/logon(Controller){0,1}//x2EJsp$")) { 

　　response.sendRedirect(request.getContextPath() + 

　　"/uirs/logon/logonController.Jsp"); 

　　} 

　　} 

　　} 

　　} 

　　catch (Exception ex) { 

　　response.sendRedirect(request.getContextPath() + 

　　"/uirs/logon/logon.Jsp"); 

　　} 

　　fChain.doFilter(req, res); 

　　}

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。