java从html里获取指定的标签

原创

mob64ca12dcc794 2024-01-01 05:43:16 ©著作权

文章标签 HTML 代码示例 Java 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12dcc794的原创作品，请联系作者获取转载授权，否则将追究法律责任

Java从HTML里获取指定的标签

在Web开发中，经常需要从HTML页面中获取特定的标签内容来进行处理。本文将介绍如何使用Java从HTML中提取指定的标签，以及给出相应的代码示例。

1. 使用Jsoup库

要在Java中从HTML中提取标签，可以使用Jsoup库。Jsoup是一个Java HTML解析器，它提供了简单且灵活的API来处理HTML文档。以下是使用Jsoup库的代码示例：

首先，需要导入Jsoup库的依赖：

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.1</version>
</dependency>

然后，可以使用以下代码来获取HTML中指定标签的内容：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HtmlParser {
    public static void main(String[] args) {
        // HTML内容
        String html = "<html><body><div>Title<p>Paragraph 1</p><p>Paragraph 2</p></div></body></html>";

        // 解析HTML
        Document doc = Jsoup.parse(html);

        // 获取指定标签
        Elements paragraphs = doc.select("p");

        // 遍历并输出标签内容
        for (Element paragraph : paragraphs) {
            System.out.println(paragraph.text());
        }
    }
}

上述代码中，我们首先将HTML内容传递给Jsoup.parse()方法进行解析。然后，使用select()方法选择指定的标签，该方法接受一个CSS选择器作为参数。在代码示例中，我们选择了所有的<p>标签。最后，使用text()方法获取标签的文本内容。

2. 获取标签属性

除了获取标签的文本内容，有时我们还需要获取标签的属性。例如，我们可能需要获取<a>标签的href属性。以下是获取标签属性的代码示例：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HtmlParser {
    public static void main(String[] args) {
        // HTML内容
        String html = "<html><body><a rel="nofollow" href=\"

        // 解析HTML
        Document doc = Jsoup.parse(html);

        // 获取指定标签
        Elements links = doc.select("a");

        // 遍历并输出标签属性
        for (Element link : links) {
            String href = link.attr("href");
            System.out.println(href);
        }
    }
}

上述代码中，我们使用attr()方法来获取指定标签的属性值。在代码示例中，我们选择了所有的<a>标签，并使用attr("href")方法获取了href属性的值。