网页抓取 java

原创

mob64ca12dd07fb 2023-08-08 08:19:24 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12dd07fb的原创作品，请联系作者获取转载授权，否则将追究法律责任

网页抓取的流程

网页抓取是指通过编程的方式从网页中获取所需的数据。在Java中，我们可以使用Jsoup这个开源的HTML解析库来实现网页抓取。下面是网页抓取的整个流程，我们可以用表格来展示每个步骤：

步骤	描述
1. 发送HTTP请求	通过URL连接发送HTTP请求，获取网页的内容
2. 解析HTML	使用Jsoup解析获取到的网页内容
3. 提取数据	从解析后的HTML中提取出所需的数据
4. 存储数据	将提取到的数据存储到本地或其他目的地

下面我们将详细介绍每个步骤需要做的事情，并给出相应的代码示例。

1. 发送HTTP请求

在Java中发送HTTP请求，我们可以使用Java提供的URLConnection类。以下是发送HTTP请求的代码示例：

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;

public class HttpUtil {
    public static String sendGetRequest(String url) throws Exception {
        StringBuilder result = new StringBuilder();
        URLConnection connection = new URL(url).openConnection();
        connection.setRequestProperty("User-Agent", "Mozilla/5.0");
        
        BufferedReader reader = new BufferedReader(new InputStreamReader(connection.getInputStream()));
        String line;
        while ((line = reader.readLine()) != null) {
            result.append(line);
        }
        
        reader.close();
        return result.toString();
    }
}

代码解释：

首先，我们使用URL类创建一个URL对象，并通过openConnection方法获取URLConnection对象。
然后，我们设置请求头的User-Agent，这是为了模拟浏览器请求，防止网站拦截爬虫。
接下来，我们使用BufferedReader逐行读取URLConnection的输入流，将获取到的内容追加到StringBuilder对象中。
最后，我们关闭输入流并返回获取到的网页内容。

2. 解析HTML

在获取到网页内容之后，我们需要使用Jsoup来解析HTML。以下是解析HTML的代码示例：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class HtmlParser {
    public static Document parseHtml(String html) {
        return Jsoup.parse(html);
    }
}

代码解释：

我们使用Jsoup的parse方法将获取到的网页内容转换为一个Document对象，方便后续的操作。

3. 提取数据

一旦我们得到了解析后的HTML，就可以从中提取所需的数据了。以下是提取数据的代码示例：

import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class DataExtractor {
    public static void extractData(Document document) {
        Elements elements = document.select("h1");  // 使用CSS选择器选择网页中的所有<h1>元素
        for (Element element : elements) {
            System.out.println(element.text());  // 输出<h1>元素的文本内容
        }
    }
}

代码解释：

首先，我们使用select方法和CSS选择器选择网页中的所有<h1>元素，这里只是一个示例，你可以根据具体需求选择其他元素。
然后，我们使用循环遍历选中的元素，并通过text方法获取元素的文本内容。
最后，我们输出文本内容，你可以根据需求将数据存储到本地文件或其他目的地。

4. 存储数据

最后一步是将提取到的数据存储起来。这里我们以将数据输出到控制台作为示例：

public class DataStorage {
    public static void main(String[] args) {
        try {
            String url = "  // 要抓取的网页的URL
            String html = HttpUtil.sendGetRequest(url);  // 发送HTTP请求，获取网页内容
            Document document = HtmlParser.parseHtml(html);  // 解析HTML
            DataExtractor.extractData(document);  // 提取数据
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

代码解释：