java正则匹配中文替换

原创

mob64ca12d9b014 2023-11-12 06:07:14 ©著作权

文章标签 正则表达式中文字符 java 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12d9b014的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用正则表达式在Java中匹配中文并替换

在Java中，正则表达式是一种强大的工具，它能够帮助我们匹配和操作字符串。如果我们想要匹配和替换中文字符，正则表达式同样可以派上用场。本文将介绍如何在Java中使用正则表达式来匹配中文，并给出相应的代码示例。

了解正则表达式

在开始之前，我们先简单了解一下正则表达式的基本概念。正则表达式是一种模式匹配的工具，它使用特定的符号和字符组合来描述字符串的模式。通过正则表达式，我们可以轻松地匹配、查找、替换字符串中的特定内容。

在Java中，正则表达式的使用是通过java.util.regex包下的相关类实现的。其中，Pattern类表示正则表达式的编译表示，Matcher类则用于对字符串进行匹配。

匹配中文字符

要匹配中文字符，我们需要了解中文字符的Unicode编码范围。中文字符的Unicode编码范围是[\u4E00-\u9FA5]，其中\u4E00表示第一个中文字符“一”，\u9FA5表示最后一个中文字符“龥”。

因此，我们可以使用正则表达式[\u4E00-\u9FA5]来匹配单个中文字符。下面是一个示例代码，演示了如何使用正则表达式匹配中文字符：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class ChineseRegexDemo {
    public static void main(String[] args) {
        String text = "你好，世界！Hello, 世界！";
        String regex = "[\\u4E00-\\u9FA5]";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(text);

        while (matcher.find()) {
            System.out.println(matcher.group());
        }
    }
}

运行上述代码，输出结果为：

你
好
世
界
世
界

可以看到，正则表达式成功地匹配到了文本中的中文字符。

替换中文字符

除了匹配中文字符，我们还可以使用正则表达式来替换中文字符。在Java中，我们可以使用Matcher类的replaceAll方法来进行替换。

下面是一个示例代码，演示了如何使用正则表达式替换文本中的中文字符为指定的字符串：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class ChineseReplaceDemo {
    public static void main(String[] args) {
        String text = "你好，世界！Hello, 世界！";
        String regex = "[\\u4E00-\\u9FA5]";
        String replacement = "*";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(text);

        String result = matcher.replaceAll(replacement);
        System.out.println(result);
    }
}

运行上述代码，输出结果为：