解决JAVA编程过程中的乱码问题


一、乱码是如何产生的?
本质上都是由于字符串原本的编码格式与读取时解析用的编码格式不一致导致的。乱码指的是程序显示出来的字符文本无法用任何语言去解读。一般情况下会包含大量的?。乱码问题是所有计算机用户或多或少会遇到的问题。造成乱码的原因就是因为使用了错误的字符编码去解码字节流,因此当我们在思考任何跟文本显示有关的问题时,请时刻保持清醒:当前使用的字符编码是什么。只有这样,我们才能正确分析和处理乱码问题。例如最常见的网页乱码问题。如果你是网站技术人员,遇到这样的问题,需要检查以下原因:1、服务器返回的响应头Content-Type没有指明字符编码。2、网页内是否使用META HTTP-EQUIV标签指定了字符编码。3、网页文件本身存储时使用的字符编码和网页声明的字符编码是否一致。
二、java代码中的乱码问题如何解决呢?
System.out.println( new String(s.getBytes(),“UTF-8”)); 其中String s =“测试字符串”。这个肯定是错误,因为getBytes()默认使用GBK编码, 而解析时使用UTF-8编码,肯定出错。其中getBytes()是将Unicode转换为操作系统默认格式的字节数组,即“测试字符串”的GBK格式,new String (bytes, Charset) 中的charset 是指定读取byte的方式,这里指定为UTF-8,即把bytes的内容当做UTF-8来读取。如下两种方式得到的结果都是正确的,因为它们的源内容编码和解析用的编码是一致的。①:System.out.println( new String(s.getBytes(),“GBK”));②:System.out.println( new String(s.getBytes(“UTF-8”),“UTF-8”));
那么,如何利用getBytes 和 new String() 来进行编码转换呢?网上流传着一种错误的方法:GBK–> UTF-8: new String( s.getBytes(“GBK”) , "UTF-8); 这种方式是完全错误的,因为getBytes 的编码与 UTF-8 不一致,肯定是乱码。但是为什么在tomcat 下,使用 new String(s.getBytes(“iso-8859-1”) ,”GBK”) 却可以用呢?答案是:tomcat 默认使用iso-8859-1编码, 也就是说,如果原本字符串是GBK的,tomcat传输过程中,将GBK转成iso-8859-1了,默认情况下,使用iso-8859-1读取中文肯定是有问题的,那么我们需要将iso-8859-1 再转成GBK, 而iso-8859-1 是单字节编码的,即他认为一个字节是一个字符, 那么这种转换不会对原来的字节数组做任何改变,因为字节数组本来就是由单个字节组成的,如果之前用GBK编码,那么转成iso-8859-1后编码内容完全没变, 则 s.getBytes(“iso-8859-1”) 实际上还是原来GBK的编码内容则 new String(s.getBytes(“iso-8859-1”) ,”GBK”) 就可以正确解码了。 所以说这是一种巧合。
三、如何正确的将GBK转UTF-8 ? (实际上是unicode转UTF-8)

new String( s.getBytes(“utf-8”) , “utf-8”);
 new String( s.getBytes(“GBK”) , “GBK”);


其实核心工作都由getBytes(charset)做了。getBytes的JDK描述:Encoding this String into a sequence of bytes using the named charset,storing the result into a new byte array.
①:OutputStreamWriter w1 = new OutputStreamWriter(new FileOutputStream(“D:\file1.txt”),“UTF-8”);
②:InputStreamReader( stream, charset)
可以帮助我们轻松的按照指定编码读写文件。