java 编码转换中文 java中文编码格式

转载

码农小哥 2023-09-16 16:47:21

文章标签 java 编码转换中文 java unicode System 十六进制 文章分类 Java 后端开发

文章目录

前言
常见的编码：
UTF-8
Unicode

中文编码
十六进制转中文

前言

学习到String时，学到String(byte[] bytes)这个构造器时，发现一直时乱码，总以为我输入{1，2，3}，输出的String也应该是{1，2，3}，怎么回事，以为是我的平台默认编码跟教程不一样，去查看了下自己平台的编码，教程里说平台默认是“UTF-8",也没错，额额

发现byte字符编码成中文：“这是中文”，这部分很疑惑，看了一些博客，有很多也是按教程那样写，哭了，因此继续深入了

常见的编码：

工作后经常接触的编码方式有如下几种：

ISO-8859-1 ASCII 数字和西欧字母
GBK GB2312 BIG5 中文
UNICODE (统一码，万国码)

其中

ISO-8859-1 包含 ASCII
GB2312 是简体中文，BIG5是繁体中文，GBK同时包含简体和繁体以及日文。
UNICODE 包括了所有的文字，无论中文，英文，藏文，法文，世界所有的文字都包含其中

- [ ] UNICODE因为要存放所有的数据，每个数字都是很长的(4个字节)，因为不仅要表示字母，还要表示汉字等。

- [ ] 如果完全按照UNICODE的方式来存储数据，就会有很大的浪费。

- [ ] 比如在ISO-8859-1中，a 字符对应的数字是0x61
- [ ] 而UNICODE中对应的数字是 0x00000061，倘若一篇文章大部分都是英文字母，那么按照UNICODE的方式进行数据保存就会消耗很多空间。

UTF-8

- 在这种情况下，就出现了UNICODE的各种减肥子编码, 
- 比如UTF-8对数字和字母就使用一个字节，
- 而对汉字就使用3个字节，从而达到了减肥还能保证健康的效果

- UTF-8，UTF-16和UTF-32 针对不同类型的数据有不同的减肥效果，
- 一般说来UTF-8是比较常用的方式

Unicode

写在.java源代码中的汉字，在执行之后，都会变成JVM中的字符。
而这些中文字符采用的编码方式，都是使用UNICODE.
"中"字对应的UNICODE是4E2D,所以在内存中，实际保存的数据就是十六进制的0x4E2D, 也就是十进制的20013。

ANSI 这个不是ASCII的意思，而是采用本地编码的意思,如果你是中文的操作系统，就会使GBK，如果是英文的就会是ISO-8859-1

中文编码

String st = "您好";
		//utf-8,gbk,utf-16……
		byte[] b1=st.getBytes(Charset.forName("UTF-8"));
		
		System.out.println(b1);
		
		for(byte b0:b1){
			System.out.print(b0);
			System.out.print("   ");
		}
		System.out.println();
		//解码跟编码要对应
		System.out.println(new String(b1,Charset.forName("UTF-8")));

[B@6d06d69c
-26   -126   -88   -27   -91   -67
您好

十六进制转中文

//寻找0XE5,0XB1,0X8C对应的汉字
		int[] b2={0XE5,0XB1,0X8C};
		for(int bb2:b2){
			System.out.print(bb2);
			System.out.print("   ");
		}
		System.out.println();
		byte[] b3= new byte[b2.length];
		for(int i=0;i<b2.length;i++){
			b3[i]=(byte)b2[i];
			System.out.print(b3[i]);
			System.out.print("   ");
		}
		System.out.println();
		
		System.out.println(new String(b3,Charset.forName("UTF-8")));