java正则提取汉字

原创

mob649e8158ed1f 2023-07-26 04:53:04 ©著作权

文章标签 正则表达式 Java java 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e8158ed1f的原创作品，请联系作者获取转载授权，否则将追究法律责任

Java正则表达式提取汉字

在处理中文文本时，有时我们需要从字符串中提取出其中的汉字。Java的正则表达式提供了一种简洁而强大的方式来处理这个问题。本文将介绍如何使用Java正则表达式来提取汉字，并提供一些代码示例。

正则表达式基础

正则表达式是一种用于匹配文本模式的强大工具。在Java中，可以使用java.util.regex包提供的类来操作正则表达式。

要理解如何提取汉字，首先需要了解一些基本的正则表达式语法：

[]：用于定义一个字符集，表示匹配方括号中的任意一个字符。例如，[abc]匹配字符'a'、'b'或'c'。
^：用于否定一个字符集，表示匹配除了方括号中的字符之外的任意一个字符。例如，[^abc]匹配除了字符'a'、'b'和'c'之外的任意一个字符。
*：匹配前面的元素零次或多次。例如，a*匹配任意数量的字符'a'，包括一个字符都没有的情况。
+：匹配前面的元素一次或多次。例如，a+匹配至少一个字符'a'。
\p{script=Hans}：用于匹配Unicode中的汉字。

提取汉字的正则表达式

使用上述正则表达式基础知识，我们可以构建一个用于提取汉字的正则表达式。以下是一个示例的正则表达式：

String regex = "[\\p{script=Hans}]+";

该正则表达式可以匹配一个或多个连续的汉字。需要注意的是，为了在Java字符串中表示反斜杠字符，需要使用双反斜杠。

使用示例

下面是一个完整的Java代码示例，演示如何使用正则表达式提取汉字：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class ChineseExtractor {
    public static void main(String[] args) {
        String text = "这是一段包含中文的文本。This is a text containing English words.";

        String regex = "[\\p{script=Hans}]+";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(text);

        while (matcher.find()) {
            String chinese = matcher.group();
            System.out.println(chinese);
        }
    }
}

运行上述代码，输出将是：