Java spider 爬虫

原创

mob649e81680b4f 2024-08-04 03:47:11 ©著作权

©著作权归作者所有：来自51CTO博客作者mob649e81680b4f的原创作品，请联系作者获取转载授权，否则将追究法律责任

学习如何实现 Java 爬虫

在这个数字化的时代，网络爬虫（Spider）正在变得越来越重要。网络爬虫可以帮助我们从互联网抓取信息。今天，我将带你一步步实现一个简单的 Java 爬虫。

实现流程

在开始编码之前，首先我们要了解整个过程的步骤。以下是实现 Java 爬虫的一些基本步骤：

步骤	描述
1	确定目标网站
2	确定需要抓取的数据
3	使用 Java 网络库发起请求
4	解析网页内容
5	存储抓取的数据

1. 确定目标网站

在这个例子中，我们选择一个简单的网页作为目标。

2. 确定需要抓取的数据

这里我们假定要抓取网站上的标题和所有段落。

3. 使用 Java 网络库发起请求

我们可以使用 HttpURLConnection 发起 HTTP 请求。以下是相关代码：

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class WebSpider {
    public static void main(String[] args) {
        try {
            String url = " // 目标网页
            URL obj = new URL(url);
            HttpURLConnection con = (HttpURLConnection) obj.openConnection();
            con.setRequestMethod("GET"); // 设置请求方式为 GET
            
            int responseCode = con.getResponseCode(); // 获取响应代码
            System.out.println("Response Code : " + responseCode);

            // 读取网页内容
            BufferedReader in = new BufferedReader(new InputStreamReader(con.getInputStream()));
            String inputLine;
            StringBuilder content = new StringBuilder();
            while ((inputLine = in.readLine()) != null) {
                content.append(inputLine); // 将网页内容存入 StringBuilder
            }

            in.close(); // 关闭输入流
            con.disconnect(); // 断开连接

            // 解析内容
            parseContent(content.toString());

        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    // 将解析内容的逻辑写在这里
    private static void parseContent(String html) {
        // 解析逻辑待实现
    }
}

HttpURLConnection：用于发起 HTTP 请求。
BufferedReader：用于逐行读取网页内容。

4. 解析网页内容

我们可以使用 JSoup 库来解析网页。添加 JSoup 库的 Maven 依赖，代码如下：

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version> <!-- 请确认最新版本 -->
</dependency>

然后在代码中解析网页数据：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

private static void parseContent(String html) {
    Document doc = Jsoup.parse(html); // 使用 JSoup 解析 HTML
    String title = doc.title(); // 获取网页标题
    System.out.println("Title: " + title);
    
    for (Element paragraph : doc.select("p")) { // 获取所有段落
        System.out.println(paragraph.text()); // 打印段落内容
    }
}

Jsoup.parse(html)：解析 HTML 内容并返回 Document 对象。
doc.title()：获取网页的标题。
doc.select("p")：选择网页中的所有段落。

5. 存储抓取的数据

在这个阶段，我们可以将抓取到的数据存储到文件或数据库中。我们采用简单的文件写入：

import java.io.FileWriter;
import java.io.IOException;

private static void saveData(String title, List<String> paragraphs) {
    try (FileWriter writer = new FileWriter("output.txt")) { // 创建文件输出
        writer.write("Title: " + title + "\n");
        for (String paragraph : paragraphs) {
            writer.write(paragraph + "\n");
        }
    } catch (IOException e) {
        e.printStackTrace();
    }
}

FileWriter：用于将数据写入文件。
writer.write()：写入文件内容。

项目时间规划

通过甘特图，你可以更好地安排你的爬虫项目任务。

gantt
    title 项目进度
    dateFormat  YYYY-MM-DD
    section 初始化
    确定目标网站          :a1, 2023-10-01, 1d
    section 数据抓取
    网络请求与解析        :after a1  , 2023-10-02 , 3d
    数据存储             : 2023-10-05  , 2d

数据抓取目标分布

在项目中，各部分抓取的数据也可以用饼状图展示：

pie
    title 数据抓取内容分布
    "标题": 50
    "段落": 50

结论

通过以上几个步骤和代码示例，你已经掌握了 Java 爬虫的基本实现方法。从确定目标网站、抓取数据、解析内容到存储数据，整个过程并不复杂。希望这篇文章能帮助你开始自己的爬虫之旅！如果你还有其他问题或需要进一步的帮助，请随时询问。 Happy coding!

上一篇：Java 中如何将jar 包进行解码

下一篇：前端样式到iOS手机错乱

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯