java 开源爬虫系统 java爬虫用什么框架

转载

jimoshalengzhou 2024-02-06 18:10:48

文章标签 java 开源爬虫系统爬虫 github 模版 Java 文章分类 Java 后端开发

以下为题主推荐一些在国内平台和 Github 上都可以找到的 Java 爬虫项目，希望能够帮助到题主和对此感兴趣的朋友。

1、项目名称：爬虫框架 webmagic

项目简介：webmagic 是一个开源的 Java 垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发。webmagic 的核心非常简单，但是覆盖爬虫的整个流程，也是很好的学习爬虫开发的材料。

码云项目地址：https://gitee.com/flashsword20/webmagic
GitHub 地址：https://github.com/code4craft/webmagic

webmagic的主要特色：

完全模块化的设计，强大的可扩展性。
核心简单但是涵盖爬虫的全部流程，灵活而强大，也是学习爬虫入门的好材料。
提供丰富的抽取页面API。
无配置，但是可通过POJO+注解形式实现一个爬虫。
支持多线程。
支持分布式。
支持爬取js动态渲染的页面。
无框架依赖，可以灵活的嵌入到项目中去。

2、项目名称：轻量化网络爬虫 Gecco

java 开源爬虫系统 java爬虫用什么框架_模版

项目简介：Gecco 是一款用 java 语言开发的轻量化的易用的网络爬虫。Gecco 整合了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等优秀框架，让您只需要配置一些 jquery 风格的选择器就能很快的写出一个爬虫。Gecco 框架有优秀的可扩展性，框架基于开闭原则进行设计，对修改关闭、对扩展开放。同时 Gecco 基于十分开放的 MIT 开源协议，无论你是使用者还是希望共同完善 Gecco 的开发者，欢迎 pull request。如果