正则 JAVA 获取 href

原创

mob64ca12f09e0c 2023-08-12 09:15:53 ©著作权

文章标签 正则表达式 JAVA 链接地址 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12f09e0c的原创作品，请联系作者获取转载授权，否则将追究法律责任

正则表达式在JAVA中获取 href

引言

在网页开发中，经常需要从HTML代码中提取出链接地址（href），用于各种用途，比如爬虫、数据分析等。在JAVA中，可以使用正则表达式来快速、方便地提取出链接地址。本文将介绍如何在JAVA中使用正则表达式获取href，并提供代码示例。

正则表达式

正则表达式是一种用来匹配字符串的强大工具。它通过一种模式匹配的方式，可以找到符合特定规则的字符串。在JAVA中，可以使用java.util.regex包来处理正则表达式。

针对 href 的正则表达式

在HTML代码中，链接地址通常是通过href属性来定义的。因此，我们需要找到所有包含href属性的标签，并从中提取出链接地址。

针对href属性的正则表达式可以如下所示：

String pattern = "href=\"(.*?)\"";

该正则表达式的含义是匹配所有以href="开头，以"结尾的字符串，并将其中的链接地址提取出来。

JAVA代码示例

下面是一个完整的JAVA代码示例，演示如何使用正则表达式获取href。

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HrefExtractor {
    public static void main(String[] args) {
        String htmlCode = "<a rel="nofollow" href=\"
        String pattern = "href=\"(.*?)\"";
        
        // 创建 Pattern 对象
        Pattern r = Pattern.compile(pattern);
        
        // 创建 Matcher 对象
        Matcher m = r.matcher(htmlCode);

        // 查找匹配的字符串
        while (m.find()) {
            // 获取匹配到的字符串
            String href = m.group(1);
            System.out.println("Href: " + href);
        }
    }
}

上述代码中，我们首先定义了一个HTML代码字符串，其中包含一个a标签，其中的href属性为"

运行以上代码，我们将得到以下输出结果：

Href:

流程图

以下是使用流程图表示获取href的过程：

st=>start: 开始
op=>operation: 定义HTML代码和正则表达式
cond=>condition: 字符串是否匹配？
op2=>operation: 提取链接地址
op3=>operation: 打印链接地址
e=>end: 结束

st->op->cond
cond(yes)->op2->op3
cond(no)->op3