Java实现Unicode与普通字符的转换

什么是Unicode?与UTF-8、UTF-16、UTF-32是什么关系?

Unicode是一个字符编码标准,负责分配某个字符在Unicode字符集中的序号。

UTF-8、UTF-16、UTF-32等则是具体的编码方案,也就是将字符在Unicode字符集中的序号转换为具体的编码方案。

如:

  • UTF-8是针对不同范围的序号转换成不同长度的字符编码,最短编码为一个字节(8bit),可兼容ASCII;
  • UTF-16跟UTF-8类似,不过最短编码为两个字节(16bit),不可兼容ASCII;
  • 当前Unicode能容纳的最大编号为2^32 - 1,也就是32bit,所以UTF-32是每个字符长度固定为32bit的定长编码。

如何进行转换?

知道什么是Unicode以后,代码就很简单了:将字符对应的Unicode编码转为16进制,并加上\u前缀即可转为Unicode;剥离Unicode的\u前缀即可获得其在Unicode字符集的序号,转成String即可。

实现功能

本文实现以下四个功能:

  1. 字符转Unicode;
  2. Unicode转字符;
  3. 混合串转字符串;
  4. 混合串转Unicode。

代码如下:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class UnicodeCharConvert {
    private static final Pattern PATTERN_UNICODE = Pattern.compile("\\\\u[a-f0-9A-F]{1,4}");

    /**
     * unicode串转字符串
     *
     * @param unicode unicode串
     * @return 字符串
     */
    private static String unicodeToChar(String unicode) {
        if (unicode == null || unicode.isEmpty()) {
            return unicode;
        }
        StringBuffer str = new StringBuffer();
        String[] hex = unicode.split("\\\\u");
        for (int index = 1; index < hex.length; index++) {
            int data = Integer.parseInt(hex[index], 16);
            str.append((char) data);
        }
        return str.toString();
    }

    /**
     * 字符串转unicode串
     *
     * @param str 字符串
     * @return unicode串
     */
    private static String charToUnicode(String str) {
        if (str == null || str.isEmpty()) {
            return str;
        }
        StringBuffer unicode = new StringBuffer();
        for (int index = 0; index < str.length(); index++) {
            char c = str.charAt(index);
            unicode.append("\\u").append(Integer.toHexString(c));
        }
        return unicode.toString();
    }


    /**
     * 混合串转普通字符串
     * 混合串指的是包含unicode和普通字符的字符串
     *
     * @param mixStr 混合串
     * @return 普通字符串
     */
    public static String mixStrToString(String mixStr) {
        if (mixStr == null || mixStr.isEmpty()) {
            return mixStr;
        }
        int start = 0;
        StringBuffer result = new StringBuffer();
        Matcher matcher = PATTERN_UNICODE.matcher(mixStr);
        while (matcher.find()) {
            String oldChar = matcher.group();
            result.append(mixStr.substring(start, matcher.start()));
            result.append(unicodeToChar(oldChar));
            start = matcher.start() + oldChar.length();
        }
        result.append(mixStr.substring(start));
        return result.toString();
    }

    /**
     * 混合串转unicode串
     * 混合串指的是包含unicode和普通字符的字符串
     *
     * @param mixStr 混合串
     * @return unicode串
     */
    public static String mixStrToUnicode(String mixStr) {
        if (mixStr == null || mixStr.isEmpty()) {
            return mixStr;
        }
        int start = 0;
        StringBuffer result = new StringBuffer();
        Matcher matcher = PATTERN_UNICODE.matcher(mixStr);
        while (matcher.find()) {
            String oldChar = matcher.group();
            result.append(charToUnicode(mixStr.substring(start, matcher.start())));
            result.append(oldChar);
            start = matcher.start() + oldChar.length();
        }
        result.append(charToUnicode(mixStr.substring(start)));
        return result.toString();
    }

    public static void main(String[] args) {
        // 测试unicode编解码函数
        String str = "测试unicode编解码函数";
        String unicode = charToUnicode(str);
        System.out.println("字符转unicode:" + unicode);
        System.out.println("unicode转字符:" + unicodeToChar(unicode));
        // 用\u202e翻转后续字符
        System.out.println("用\\u202e翻转后续字符:"
                + unicodeToChar(charToUnicode("后面的字符串将被翻转:Unicode和字符串互转")
                .replace("\\uff1a", "\\uff1a\\u202e")));
        // 测试混合串
        System.out.println("(伪)混合串转字符串:" + mixStrToString(unicode));
        System.out.println("(伪)混合串转unicode:" + mixStrToUnicode(str));
        str = "转换\\u6df7合Uni\\u63\\u6f\\u64\\u65\\u7684字串\\u7b26";
        System.out.println("混合串转字符串:" + mixStrToString(str));
        System.out.println("混合串转unicode:" + mixStrToUnicode(str));
        System.out.println("混合串转unicode再转字符串:" + unicodeToChar(mixStrToUnicode(str)));
        System.out.println("混合串转字符串再转unicode:" + charToUnicode(mixStrToString(str)));
    }
}

参考文章:Java String字符串和Unicode字符相互转换代码(包括混有普通字符的Unicode)