java 输出unicode字符 java使用unicode字符集

关注 mob6454cc73e9a6

java 输出unicode字符 java使用unicode字符集

转载

mob6454cc73e9a6 2023-06-12 17:08:21

文章标签 java 输出unicode字符 Java System 字符串 文章分类 Java 后端开发

Java与Unicode： Java的class文件采用utf8的编码方式，JVM运行时采用utf16。Java的字符串是unicode编码的。总之，Java采用了unicode字符集，使之易于国际化。

Java支持哪些字符集：
即Java能识别哪些字符集并对它进行正确地处理？查看Charset 类，最新的JDK支持160种字符集。可以通过static方法availableCharsets拿到所有Java支持的字符集。

Java代码

java 输出unicode字符 java使用unicode字符集_字符串

1. assertEquals(160, Charset.availableCharsets().size());    
2. Set<String> charsetNames = Charset.availableCharsets().keySet();     
3. assertTrue(charsetNames.contains("utf-8"));     
4. assertTrue(charsetNames.contains("utf-16"));     
5. assertTrue(charsetNames.contains("gb2312"));     
6. assertTrue(Charset.isSupported("utf-8"));

需要在哪些时候注意编码问题？

1.从外部资源读取数据：
这跟外部资源采取的编码方式有关，我们需要使用外部资源采用的字符集来读取外部数据：

Java代码

java 输出unicode字符 java使用unicode字符集_字符串

1. InputStream is = new FileInputStream("res/input2.data");     
2. InputStreamReader streamReader = new InputStreamReader(is, "GB18030");

这里可以看到，我们采用了GB18030编码读取外部数据，通过查看streamReader的encoding可以印证：

Java代码

java 输出unicode字符 java使用unicode字符集_字符串

1. assertEquals("GB18030", streamReader.getEncoding());

正是由于上面我们为外部资源指定了正确的编码，当它转成char数组时才能正确地进行解码（GB18030 -> unicode）：

Java代码

java 输出unicode字符 java使用unicode字符集_字符串



1. char[] chars = new char[is.available()];     
2. streamReader.read(chars, 0, is.available());

但我们经常写的代码就像下面这样：

Java代码

java 输出unicode字符 java使用unicode字符集_字符串

1. InputStream is = new FileInputStream("res/input2.data");     
2. InputStreamReader streamReader = new

这时候InputStreamReader采用什么编码方式读取外部资源呢？Unicode？不是，这时候采用的编码方式是JVM的默认字符集，这个默认字符集在虚拟机启动时决定，通常根据语言环境和底层操作系统的 charset 来确定。可以通过以下方式得到JVM的默认字符集：

Java代码

java 输出unicode字符 java使用unicode字符集_字符串

1. Charset.defaultCharset();

为什么要这样？因为我们从外部资源读取数据，而外部资源的编码方式通常跟操作系统所使用的字符集一样，所以采用这种默认方式是可以理解的。
好吧，那么我通过我的IDE Ideas创建了一个文件，并以JVM默认的编码方式从这个文件读取数据，但读出来的数据竟然是乱码。为何？呵呵，其实是因为通过Ideas创建的文件是以utf-8编码的。要得到一个JVM默认编码的文件，通过手工创建一个txt文件试试吧。

2.字符串和字节数组的相互转换
我们通常通过以下代码把字符串转换成字节数组：

Java代码

java 输出unicode字符 java使用unicode字符集_字符串

1. "string".getBytes();

但你是否注意过这个转换采用的编码呢？其实上面这句代码跟下面这句是等价的：

Java代码

java 输出unicode字符 java使用unicode字符集_字符串

1. "string".getBytes(Charset.defaultCharset());

也就是说它根据JVM的默认编码（而不是你可能以为的unicode）把字符串转换成一个字节数组。
反之，如何从字节数组创建一个字符串呢？

Java代码

java 输出unicode字符 java使用unicode字符集_字符串

1. new String("string".getBytes());

同样，这个方法使用平台的默认字符集解码字节的指定数组（这里的解码指从一种字符集到unicode）。

字符串编码迷思：

Java代码

java 输出unicode字符 java使用unicode字符集_字符串

1. new String(input.getBytes("ISO-8859-1"), "GB18030")

上面这段代码代表什么？有人会说： “把input字符串从ISO-8859-1编码方式转换成GB18030编码方式”。如果这种说法正确，那么又如何解释我们刚提到的java字符串都采用unicode编码呢？
这种说法不仅是欠妥的，而且是大错特错的，让我们一一来分析，其实事实是这样的：我们本应该用GB18030的编码来读取数据并解码成字符串，但结果却采用了ISO-8859-1的编码，导致生成一个错误的字符串。要恢复，就要先把字符串恢复成原始字节数组，然后通过正确的编码GB18030再次解码成字符串（即把以GB18030编码的数据转成unicode的字符串）。注意，字符串永远都是unicode编码的。
但编码转换并不是负负得正那么简单，这里我们之所以可以正确地转换回来，是因为 ISO8859-1 是单字节编码，所以每个字节被按照原样转换为 String ，也就是说，虽然这是一个错误的转换，但编码没有改变，所以我们仍然有机会把编码转换回来！

总结：
所以，我们在处理java的编码问题时，要分清楚三个概念：Java采用的编码：unicode，JVM平台默认字符集和外部资源的编码。

程序示例：

Java代码

java 输出unicode字符 java使用unicode字符集_字符串

1. public static void
2.     {  
3. "default charset : "+Charset.defaultCharset());  
4. "abc你好";//string with UTF-8 charset
5.   
6. byte[] bytes = str.getBytes(Charset.forName("UTF-8"));//convert to byte array with UTF-8 encode
7. for (byte
8.         {  
9. " ");  
10.         }  
11.         System.out.println();  
12. try
13.         {  
14. new String(bytes, "UTF-8");//to UTF-8 string
15. new String(bytes, "ISO-8859-1");//to ISO-8859-1 string
16. new String(bytes, "GBK");//to GBK string
17.   
18. //abc你好
19. //abc??????
20. //abc浣犲ソ
21.   
22.             System.out.println();  
23. byte[] bytes2 = str2.getBytes(Charset.forName("ISO-8859-1"));  
24. for (byte
25.             {  
26. " ");  
27.             }  
28.             System.out.println();  
29. new String(bytes2, "UTF-8");  
30. //abc你好
31.               
32.             System.out.println();  
33. byte[] bytes3 = str3.getBytes(Charset.forName("GBK"));  
34. for (byte
35.             {  
36. " ");  
37.             }  
38.             System.out.println();  
39. new String(bytes3, "UTF-8");  
40. //abc你好
41. catch
42.         {  
43.             e.printStackTrace();  
44.         }  
45.     }

运行结果：

Html代码

java 输出unicode字符 java使用unicode字符集_字符串

1. default charset : GBK  
2. 97 98 99 -28 -67 -96 -27 -91 -67   
3. abc你好  
4. abc??????  
5. abc浣犲ソ  
6.   
7. 97 98 99 -28 -67 -96 -27 -91 -67   
8. abc你好  
9.   
10. 97 98 99 -28 -67 -96 -27 -91 -67   
11. abc你好

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：python采集番茄小说并分析 python爬取小说的代码

下一篇：docker 离线安装字体 docker离线安装部署 linux

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册