java正则表达式获取汉字

原创

mob64ca12e83232 2024-02-23 04:24:06 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12e83232的原创作品，请联系作者获取转载授权，否则将追究法律责任

用Java正则表达式获取汉字

在处理文本数据时，有时候我们需要提取其中的汉字部分。这时候可以使用Java正则表达式来实现。Java正则表达式是用来匹配字符串模式的一种强大工具，通过使用一些特殊字符和符号，可以匹配各种复杂的字符串模式。

步骤

流程图

flowchart TD
    A[开始] --> B{提取汉字}
    B --> C[使用正则表达式]
    C --> D[匹配文本]
    D --> E[获取汉字]
    E --> F[结束]

类图

classDiagram
    class RegexUtil {
        <<utility>>
        - getChineseWords(String text): List<String>
    }

代码示例

首先，我们需要一个工具类来处理正则表达式，并提供一个方法来获取文本中的汉字部分。

public class RegexUtil {
    
    public List<String> getChineseWords(String text) {
        List<String> chineseWords = new ArrayList<>();
        Pattern pattern = Pattern.compile("[\\u4e00-\\u9fa5]+");
        Matcher matcher = pattern.matcher(text);
        
        while (matcher.find()) {
            chineseWords.add(matcher.group());
        }
        
        return chineseWords;
    }
}

然后，我们可以在主程序中调用这个工具类来提取文本中的汉字。

public class Main {
    
    public static void main(String[] args) {
        String text = "Hello, 你好，世界！";
        RegexUtil regexUtil = new RegexUtil();
        
        List<String> chineseWords = regexUtil.getChineseWords(text);
        
        for (String word : chineseWords) {
            System.out.println(word);
        }
    }
}

在上面的代码中，我们首先定义了一个正则表达式[\\u4e00-\\u9fa5]+，它可以匹配Unicode编码范围在\u4e00到\u9fa5之间的字符，也就是汉字。然后我们使用Pattern和Matcher类来匹配文本中的汉字并存储在一个列表中，最后输出所有匹配到的汉字。

通过这种方法，我们可以轻松地提取文本中的汉字部分，方便我们进行各种文本处理操作。