爬虫教程java

原创

mob64ca12f3f05d 2023-08-08 22:29:36 ©著作权

文章标签 java Java 数据 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12f3f05d的原创作品，请联系作者获取转载授权，否则将追究法律责任

爬虫教程 Java

本文将介绍使用 Java 编写爬虫的基本知识和技巧。我们将从爬虫的基本概念开始，逐步深入，为读者提供全面的爬虫教程。

简介

在互联网时代，大量的数据被存储在各种网站上。爬虫就是一种自动化获取网页数据的工具。使用爬虫可以快速、高效地从互联网上抓取所需的数据，为后续的数据分析和处理提供便利。

Java 是一种广泛使用的编程语言，具有跨平台的特性和强大的工具支持。在爬虫领域，Java 也是一种常用的语言。

本教程将通过实例演示，介绍 Java 爬虫的基本知识和技巧，帮助读者快速上手。

爬虫的基本流程

爬虫的基本流程可以概括为以下几个步骤：

发送 HTTP 请求，获取网页内容。
解析网页，提取需要的数据。
保存数据或进行后续处理。

下面我们将逐步展示这个流程，并提供相应的 Java 代码示例。

发送 HTTP 请求

在 Java 中，我们可以使用 HttpURLConnection 类来发送 HTTP 请求。

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class HttpClient {
    public static String sendGetRequest(String url) {
        StringBuilder response = new StringBuilder();
        
        try {
            URL obj = new URL(url);
            HttpURLConnection con = (HttpURLConnection) obj.openConnection();
            con.setRequestMethod("GET");
    
            BufferedReader in = new BufferedReader(new InputStreamReader(con.getInputStream()));
            String inputLine;
    
            while ((inputLine = in.readLine()) != null) {
                response.append(inputLine);
            }
    
            in.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
        
        return response.toString();
    }
}

上述代码定义了一个 HttpClient 类，其中的 sendGetRequest() 方法用于发送 GET 请求，并返回响应的内容。

解析网页

在获取到网页的内容后，我们需要对其进行解析，提取出我们需要的数据。Java 中常用的网页解析库有 Jsoup 和 HtmlUnit。

使用 Jsoup 解析网页

Jsoup 是一种方便易用的 Java HTML 解析器。我们可以使用它来解析网页，并从中提取出需要的数据。

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HtmlParser {
    public static void parseHtml(String html) {
        Document doc = Jsoup.parse(html);
        
        // 使用选择器提取数据
        Elements links = doc.select("a[href]");
        for (Element link : links) {
            System.out.println(link.attr("href"));
        }
    }
}

上述代码定义了一个 HtmlParser 类，其中的 parseHtml() 方法用于解析网页，并提取其中的链接。

使用 HtmlUnit 解析网页

HtmlUnit 是一种模拟浏览器行为的 Java 网络爬虫工具。我们可以使用它来解析网页，并执行其中的 JavaScript 代码。

import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

public class HtmlUnitParser {
    public static void parseHtml(String url) {
        try (WebClient webClient = new WebClient()) {
            webClient.getOptions().setJavaScriptEnabled(true);
            HtmlPage page = webClient.getPage(url);
            
            // 执行 JavaScript 代码
            page.executeJavaScript("console.log('Hello, world!');");
            
            String html = page.asXml();
            System.out.println(html);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

上述代码定义了一个 HtmlUnitParser 类，其中的 parseHtml() 方法用于解析网页，并执行其中的 JavaScript 代码。

保存数据

在解析网页并提取出需要的数据后，我们可以将数据保存到文件、数据库或其他存储介质中。

import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintWriter;

public class DataWriter {
    public static void writeData(String data, String filename) {
        try (PrintWriter out = new PrintWriter(new FileWriter(filename))) {
            out.println(data);
        }