Java之字符串的编码方式
- 前言
- idea中默认的字符串编码方式为utf-8
- utf-8和GBK中字符串所占用的字节数
- GBK编码方式下,键盘在中文状态
- gbk编码方式下,键盘在英文状态
- utf-8的方式下
- 总结
前言
UTF-8是Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉字的范围是0X4E00到0x9FA5,是指unicode值,至于放在utf-8的编码里去就是由三个字节来组织,所以可以看出unicode是给出一个字符的范围,定义了这个字是码值是多少,至于具体的实现方式可以有多种多样来实现。
idea中默认的字符串编码方式为utf-8
System.out.println(System.getProperty("file.encoding"));
更改编码方式:settings->fileCoding->GlobalEncoding = GBK
输出结果:
utf-8和GBK中字符串所占用的字节数
public static void print(String s) {
for (byte aByte : s.getBytes()) {
System.out.println(aByte);
}
System.out.println("----------------");
}
GBK编码方式下,键盘在中文状态
数字字母占一个字节,符号或者中文占用两个字节
public static void main(String[] args) {
String s1 = "2";
print(s1);
String s2 = ";";
print(s2);
String s3 = "方";
print(s3);
String s4 = "23f方";
print(s4);
}
gbk编码方式下,键盘在英文状态
字母数字占,符号用1个字节,中文占用两个字节
public static void main(String[] args) {
String s1 = "2";
print(s1);
String s2 = ";";
print(s2);
String s3 = "f";
print(s3);
String s4 = "23f方";
print(s4);
}
utf-8的方式下
中文,中文符号占用3个字节,英文符号占用1个字节,字母数字占用1个字节
public static void main(String[] args) {
String s1 = "2";
print(s1);
String s2 = ";";
print(s2);
String s3 = "方";
print(s3);
String s4 = "23f方";
print(s4);
}
总结
utf-8下中文中文符号占用3字节,英文符号,字母数字占用1个字节
gbk下中文中文符号占用2字节,英文符号,字母数字占用1个字节