java 提取html中的纯文本

原创

mob64ca12df9869 2024-06-12 03:45:21 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12df9869的原创作品，请联系作者获取转载授权，否则将追究法律责任

提取HTML中的纯文本

在Web开发中，我们经常需要从HTML文档中提取纯文本信息。这在爬虫应用、文本分析等领域都是非常常见的需求。在Java中，我们可以使用一些库来帮助我们从HTML中提取纯文本，使得处理起来更加简单和高效。本文将介绍如何使用Java来提取HTML中的纯文本内容，并提供相应的代码示例。

HTML文本提取的需求

在处理HTML文档时，通常会遇到以下需求：

从HTML文档中提取纯文本内容，去除HTML标签和样式信息。
处理包含特定标签或类名的内容，例如提取所有<p>标签中的文本。
从多个HTML文档中提取内容并进行比较或分析。

为了实现这些需求，我们可以使用Java中的一些库来帮助我们处理HTML文本。接下来将介绍如何使用Jsoup这个流行的Java HTML解析库来提取HTML中的纯文本。

使用Jsoup提取HTML中的纯文本

Jsoup是一个用于解析、处理和提取HTML文档的Java库。它提供了一组简单易用的API，可以帮助我们高效地处理HTML文本。下面是一个简单的示例，演示如何使用Jsoup来提取HTML文档中的纯文本内容。

示例代码

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class HtmlParser {
    public static void main(String[] args) {
        String html = "<html><body><p>Hello, <b>world</b>!</p></body></html>";
        
        Document doc = Jsoup.parse(html);
        String text = doc.text();
        
        System.out.println(text);
    }
}

在上面的示例中，我们首先定义了一个包含HTML标签的字符串html。然后使用Jsoup的parse方法将其解析为一个Document对象，最后通过text方法获取其中的纯文本内容并输出。

处理具体的HTML结构

如果我们想要处理包含特定标签或类名的内容，可以使用Jsoup提供的选择器功能。下面是一个示例，演示如何提取所有<p>标签中的文本内容。

示例代码

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HtmlParser {
    public static void main(String[] args) {
        String html = "<html><body><p>Paragraph 1</p><p>Paragraph 2</p></body></html>";
        
        Document doc = Jsoup.parse(html);
        Elements paragraphs = doc.select("p");
        
        for (Element paragraph : paragraphs) {
            System.out.println(paragraph.text());
        }
    }
}

在上面的示例中，我们首先定义了一个包含两个<p>标签的HTML字符串html。然后使用Jsoup的select方法选择所有<p>标签，最后遍历输出每个段落的文本内容。

处理多个HTML文档

如果我们需要处理多个HTML文档，可以将上述代码封装为一个方法，然后在循环中进行调用。这样可以提高代码的复用性和可维护性。下面是一个示例，演示如何处理多个HTML文档并提取纯文本内容。

示例代码

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HtmlParser {
    public static void main(String[] args) {
        String[] htmlDocs = {
            "<html><body><p>Document 1</p></body></html>",
            "<html><body><p>Document 2</p></body></html>",
            "<html><body><p>Document 3</p></body></html>"
        };
        
        for (String html : htmlDocs) {
            processHtmlDocument(html);
        }
    }
    
    public static void processHtmlDocument(String html) {
        Document doc = Jsoup.parse(html);
        Elements paragraphs = doc.select("p");
        
        for (Element paragraph : paragraphs) {
            System.out.println(paragraph.text());
        }
    }
}

在上面的示例中，我们定义了一个包含三个HTML文