java 字符串提取html标签

原创

mob64ca12e4594b 2024-01-13 06:24:40 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12e4594b的原创作品，请联系作者获取转载授权，否则将追究法律责任

Java 字符串提取 HTML 标签

本文将介绍如何利用 Java 提取 HTML 标签中的内容。HTML 是一种用于创建网页的标记语言，其中包含了丰富的标签用于展示文本、图片、链接等元素。有时候我们需要从 HTML 中提取出特定标签的内容，例如获取所有的链接或者提取段落文本。 Java 提供了多种方法来实现这一目标。

1. 使用正则表达式

正则表达式是一种强大的字符串匹配工具，可以用于在文本中查找特定模式的字符串。在 HTML 中，标签的起始和结束位置可以通过尖括号（< >）来确定。我们可以使用正则表达式来匹配这些标签并提取出其中的内容。

下面是一个示例代码，演示了如何使用正则表达式提取 HTML 中的链接：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HTMLParser {
    public static void main(String[] args) {
        String html = "<a rel="nofollow" href=\"
        String regex = "<a[^>]+href=\"([^\"]+)\"[^>]*>([^<]+)</a>";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(html);
        
        while (matcher.find()) {
            String link = matcher.group(1);
            String text = matcher.group(2);
            System.out.println("Link: " + link);
            System.out.println("Text: " + text);
        }
    }
}

上述代码使用了正则表达式 <a[^>]+href="([^"]+)"[^>]*>([^<]+)</a> 来匹配 HTML 中的链接标签，并通过 group 方法提取出链接和文本内容。

2. 使用第三方库

除了正则表达式，我们还可以使用一些第三方库来实现 HTML 提取功能。这些库通常提供了更简洁的 API，并且处理起来更加方便。

下面是一个使用 jsoup 库提取 HTML 中链接的示例代码：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HTMLParser {
    public static void main(String[] args) {
        String html = "<a rel="nofollow" href=\"
        Document doc = Jsoup.parse(html);
        Elements links = doc.select("a[href]");

        for (Element link : links) {
            String url = link.attr("href");
            String text = link.text();
            System.out.println("Link: " + url);
            System.out.println("Text: " + text);
        }
    }
}

上述代码使用了 jsoup 库来解析 HTML，并使用 select 方法选择所有的带有 href 属性的链接标签。然后通过 attr 方法获取链接的地址，通过 text 方法获取链接的文本内容。

序列图

下面是一个序列图，展示了使用正则表达式提取 HTML 标签的过程：

sequenceDiagram
    participant User
    participant Application
    User->>Application: 提供 HTML 字符串
    Application->>Application: 使用正则表达式匹配标签
    Application-->>User: 返回提取结果

类图

下面是一个类图，展示了使用 jsoup 库提取 HTML 标签的过程：

classDiagram
    class HTMLParser {
        -html: String
        +parseHTML(): void
        +extractLinks(): List<String>
    }
    HTMLParser --> Document
    HTMLParser --> Elements
    HTMLParser --> Element