java char 编码

原创

mob649e81624618 2023-07-24 08:57:47 ©著作权

文章标签 Java ico 字符编码 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e81624618的原创作品，请联系作者获取转载授权，否则将追究法律责任

Java字符编码详解

在Java中，字符是以unicode编码标准进行表示的。每个字符都对应一个唯一的unicode码点。Java中的char类型用于表示一个16位的unicode编码单元。

Unicode编码

Unicode编码是一种用于表示所有文字字符的字符集。它为每个字符分配了一个唯一的码点，用16进制数字表示。Java中使用的是UTF-16编码，即将unicode码点编码为一个或两个16位的char类型。

例如，字符'A'对应的unicode码点是U+0041，它可以用一个16位的char来表示。

char ch = '\u0041';
System.out.println(ch); // 输出：A

字符编码转换

在Java中，为了在字符和字节之间进行转换，使用了字符集和编码。字符集（Charset）是一个用于表示字符集合的类，而编码（CharsetEncoder和CharsetDecoder）则用于进行字符和字节之间的转换。

Java中的字符串是以UTF-16编码的，如果需要将字符串转换为其他编码（如UTF-8），可以使用Charset类提供的方法。

String str = "Hello";
byte[] bytes = str.getBytes(StandardCharsets.UTF_8);

System.out.println(Arrays.toString(bytes));  // 输出：[72, 101, 108, 108, 111]

同样地，可以将字节数组转换为字符串。

byte[] bytes = {72, 101, 108, 108, 111};
String str = new String(bytes, StandardCharsets.UTF_8);

System.out.println(str);  // 输出：Hello

字符编码问题

在处理字符编码时，经常遇到的问题是乱码。乱码通常是由于字符的编码和解码不一致导致的。

例如，将字符串按照ISO-8859-1编码转换为字节数组，然后再按照UTF-8编码转换回字符串，结果就会出现乱码。

String str = "你好";
byte[] bytes = str.getBytes(StandardCharsets.ISO_8859_1);

String newStr = new String(bytes, StandardCharsets.UTF_8);
System.out.println(newStr);  // 输出：ä½ å¥½

为了避免乱码问题，需要在编码和解码的过程中保持一致。在进行字符编码转换时，应该始终使用相同的字符集。