java 正则表达式非贪婪

原创

mob649e8162c013 2023-08-08 16:09:46 ©著作权

©著作权归作者所有：来自51CTO博客作者mob649e8162c013的原创作品，请联系作者获取转载授权，否则将追究法律责任

Java 正则表达式之非贪婪模式

引言

正则表达式是一种强大的文本模式匹配工具，它可以通过定义模式来搜索、替换和验证字符串。在Java中，java.util.regex包提供了对正则表达式的支持。正则表达式的匹配默认是贪婪模式，即尽可能匹配更长的字符串。然而，在某些情况下，我们可能需要使用非贪婪模式，即尽可能匹配更短的字符串。本文将介绍正则表达式的非贪婪模式，并提供相关的代码示例。

贪婪模式和非贪婪模式

在正则表达式中，*和+是两个常用的元字符。它们分别表示匹配前一个字符零次或多次，和匹配前一个字符一次或多次。默认情况下，它们都是贪婪的，即会尽可能匹配更长的字符串。

例如，假设我们有一个字符串"abbbc"，我们想要匹配其中的"abbc"部分。我们可以使用正则表达式"ab+c"来进行匹配。在贪婪模式下，该表达式将匹配到整个字符串"abbbc"，因为+尽可能匹配更长的字符串。然而，在非贪婪模式下，该表达式将只匹配到"abbc"，因为+尽可能匹配更短的字符串。

非贪婪模式的表示方式

在Java中，我们可以通过在*或+后面加上?来表示非贪婪模式。例如，正则表达式"ab+?c"表示匹配以"a"开头，后面跟着一个或多个"b"，最后以"c"结尾的字符串，且+是非贪婪的。

下面是一个示例代码，展示了贪婪模式和非贪婪模式的区别：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexDemo {
    public static void main(String[] args) {
        String input = "abbbc";
        
        // 贪婪模式
        Pattern greedyPattern = Pattern.compile("ab+c");
        Matcher greedyMatcher = greedyPattern.matcher(input);
        if (greedyMatcher.find()) {
            System.out.println("Greedy match: " + greedyMatcher.group());
        }
        
        // 非贪婪模式
        Pattern nonGreedyPattern = Pattern.compile("ab+?c");
        Matcher nonGreedyMatcher = nonGreedyPattern.matcher(input);
        if (nonGreedyMatcher.find()) {
            System.out.println("Non-greedy match: " + nonGreedyMatcher.group());
        }
    }
}

运行以上代码，输出结果为：

Greedy match: abbbc
Non-greedy match: abbc

可以看到，贪婪模式下匹配到了整个字符串"abbbc"，而非贪婪模式下只匹配到了"abbc"。

非贪婪模式的应用

非贪婪模式在处理一些复杂的文本匹配问题时非常有用。例如，如果我们想从一个HTML文档中提取出所有的链接标签，我们可以使用正则表达式"<a.*?>.*?</a>"。在贪婪模式下，该表达式会匹配到所有的<a>标签，包括它们之间的内容。但是在非贪婪模式下，该表达式只会匹配到每个<a>标签本身。

下面是一个示例代码，展示了如何使用非贪婪模式提取HTML文档中的链接标签：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HtmlLinkExtractor {
    public static void main(String[] args) {
        String html = "<a rel="nofollow" href=\" <a href=\"
        
        Pattern pattern = Pattern.compile("<a.*?>");
        Matcher matcher