Java将字符串转成utf8编码

原创

mob64ca12f66e6c 2023-12-16 06:38:21 ©著作权

文章标签 ico java 字符串 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12f66e6c的原创作品，请联系作者获取转载授权，否则将追究法律责任

Java将字符串转成UTF-8编码

在Java中，字符串是以Unicode编码表示的，而UTF-8是一种可变长度的Unicode编码，用于在互联网上传输和存储文本数据。UTF-8编码通过将Unicode字符转换为多个字节表示，使得它可以处理各种字符集，并节省存储空间。

UTF-8编码原理

UTF-8编码使用1到4个字节表示不同范围内的Unicode字符。以下是UTF-8编码的一些基本规则：

对于英文字母和数字等ASCII字符，UTF-8编码使用一个字节表示，与ASCII编码兼容。
对于大部分常用的字符，UTF-8编码使用两个字节表示，可以表示范围为：U+0080到U+07FF的Unicode字符。
对于较少使用的字符，UTF-8编码使用三个字节表示，可以表示范围为：U+0800到U+FFFF的Unicode字符。
对于非常罕见的字符，UTF-8编码使用四个字节表示，可以表示范围为：U+10000到U+10FFFF的Unicode字符。

由于UTF-8编码的可变长度特性，一个UTF-8编码的字符串可以包含不同长度的字节。

使用Java将字符串转换为UTF-8编码

在Java中，可以使用内置的编码器将字符串转换为UTF-8编码的字节数组。下面是一个示例代码：

import java.nio.charset.StandardCharsets;

public class UTF8Converter {
    public static void main(String[] args) {
        String input = "Hello, 世界!";
        
        byte[] utf8Bytes = input.getBytes(StandardCharsets.UTF_8);
        
        for (byte b : utf8Bytes) {
            System.out.print(Integer.toHexString(b & 0xFF) + " ");
        }
    }
}

上述代码中，我们使用getBytes方法并传递StandardCharsets.UTF_8作为参数，来获得字符串的UTF-8编码字节数组。然后，我们遍历字节数组，并以十六进制形式打印每个字节。

输出结果为：

48 65 6c 6c 6f 2c 20 e4 b8 96 e7 95 8c 21

可以看到，字符串"Hello, 世界!"被成功转换为UTF-8编码的字节数组。其中，字母和逗号的ASCII码保持不变，而中文字符"世界"被编码为三个字节。

应用案例

UTF-8编码在实际应用中广泛使用，特别是在处理多语言文本、国际化和跨平台数据交换等方面。以下是一个应用案例，演示如何将UTF-8编码的文本写入文件：

import java.io.BufferedWriter;
import java.io.FileOutputStream;
import java.io.OutputStreamWriter;
import java.nio.charset.StandardCharsets;

public class UTF8Writer {
    public static void main(String[] args) {
        String text = "你好，世界！";
        
        try (BufferedWriter writer = new BufferedWriter(
                new OutputStreamWriter(new FileOutputStream("output.txt"), StandardCharsets.UTF_8))) {
            writer.write(text);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

上述代码中，我们创建了一个BufferedWriter对象，并将OutputStreamWriter作为参数传递给它。OutputStreamWriter将输出流与UTF-8编码的字符流联系起来。然后，我们使用write方法将UTF-8编码的文本写入文件。

总结

通过使用Java内置的编码器，我们可以将字符串转换为UTF-8编码的字节数组，以及将UTF-8编码的文本写入文件。UTF-8编码是一种广泛使用的Unicode编码，可以表示各种字符集，并在互联网上传输和存储文本数据。在处理多语言文本和国际化等场景下，了解和使用UTF-8编码是非常重要的。

以下是示例饼状图和关系图：

pie
    title UTF-8编码示例
    "ASCII" : 1
    "2字节" : 2
    "3字节" : 3
    "4字节"

上一篇：java log没有报错信息

下一篇：Android 用fasjson

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯