java 字符串获取utf8编码

原创

mob64ca12da726f 2023-11-21 17:08:40 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12da726f的原创作品，请联系作者获取转载授权，否则将追究法律责任

Java字符串获取UTF-8编码

在Java编程中，经常会遇到需要获取字符串的UTF-8编码的情况。UTF-8是一种可变长度的Unicode编码，它可以表示世界上几乎所有字符。在本篇文章中，我们将介绍如何使用Java获取字符串的UTF-8编码，并提供一些示例代码来帮助理解。

什么是UTF-8编码？

UTF-8是一种变长的编码方案，它可以用来表示Unicode字符集中的字符。UTF-8的编码长度可以从1个字节到4个字节不等，根据编码的字符范围而定。

UTF-8编码的规则如下：

对于单字节的字符，编码的第一位是0，后面7位是其Unicode码。例如，字母"A"的Unicode码是65，其UTF-8编码为01000001。
对于多字节的字符，编码的第一个字节的前几位用于表示编码的长度，其他字节则以10开头。例如，汉字"中"的Unicode码是20013，其UTF-8编码为111001001011010010000111。

UTF-8编码的优点是可以兼容ASCII编码，对于只有单字节表示的字符，其UTF-8编码与ASCII编码是相同的。

Java中获取字符串的UTF-8编码

在Java中，我们可以使用getBytes()方法来获取字符串的UTF-8编码。该方法将返回一个字节数组，代表字符串的UTF-8编码。

以下是一个示例代码，演示了如何获取字符串的UTF-8编码：

// 定义一个字符串
String str = "Hello, 世界！";

try {
    // 获取字符串的UTF-8编码
    byte[] utf8Bytes = str.getBytes("UTF-8");
    
    // 打印UTF-8编码的字节数组
    for (byte b : utf8Bytes) {
        System.out.printf("%02X ", b);
    }
    System.out.println();
    
    // 将UTF-8编码的字节数组转换为字符串
    String utf8String = new String(utf8Bytes, "UTF-8");
    System.out.println(utf8String);
} catch (UnsupportedEncodingException e) {
    e.printStackTrace();
}

上述代码中，我们首先定义了一个字符串str，然后使用getBytes("UTF-8")方法获取字符串的UTF-8编码。接着，我们将编码结果打印出来，可以看到每个字节的十六进制表示。最后，我们将字节数组通过new String(utf8Bytes, "UTF-8")转换为字符串，打印出来。运行以上代码，输出如下：

48 65 6C 6C 6F 2C 20 E4 B8 96 E7 95 8C EF BC 81 
Hello, 世界！

可以看到，字符串"Hello, 世界！"的UTF-8编码为48 65 6C 6C 6F 2C 20 E4 B8 96 E7 95 8C EF BC 81。

UTF-8编码与其他编码之间的转换

除了获取字符串的UTF-8编码，我们还可以将其他编码的字符串转换为UTF-8编码，或将UTF-8编码的字符串转换为其他编码。

将其他编码的字符串转换为UTF-8编码

要将其他编码的字符串转换为UTF-8编码，可以使用String.getBytes(String charsetName)方法并指定源字符串的编码为charsetName。

以下是一个示例代码，演示了将GBK编码的字符串转换为UTF-8编码：

// 定义一个GBK编码的字符串
String gbkStr = "你好，世界！";

try {
    // 将GBK编码的字符串转换为UTF-8编码
    byte[] utf8Bytes = gbkStr.getBytes("GBK");
    
    // 打印UTF-8编码的字节数组
    for (byte b : utf8Bytes) {
        System.out.printf("%02X ", b);
    }
    System.out.println();
    
    // 将UTF-8编码的字节数组转换为字符串
    String utf8String = new String(utf8Bytes, "UTF-8");
    System.out.println(utf8String);
} catch (UnsupportedEncodingException e)