以下为题主推荐一些在国内平台和 Github 上都可以找到的 Java 爬虫项目,希望能够帮助到题主和对此感兴趣的朋友。
 

1、项目名称:爬虫框架 webmagic

项目简介:webmagic 是一个开源的 Java 垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic 的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。

webmagic的主要特色:

  • 完全模块化的设计,强大的可扩展性。
  • 核心简单但是涵盖爬虫的全部流程,灵活而强大,也是学习爬虫入门的好材料。
  • 提供丰富的抽取页面API。
  • 无配置,但是可通过POJO+注解形式实现一个爬虫。
  • 支持多线程。
  • 支持分布式。
  • 支持爬取js动态渲染的页面。
  • 无框架依赖,可以灵活的嵌入到项目中去。

2、项目名称:轻量化网络爬虫 Gecco

java 开源爬虫系统 java爬虫用什么框架_模版

项目简介:Gecco 是一款用 java 语言开发的轻量化的易用的网络爬虫。Gecco 整合了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等优秀框架,让您只需要配置一些 jquery 风格的选择器就能很快的写出一个爬虫。Gecco 框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展开放。同时 Gecco 基于十分开放的 MIT 开源协议,无论你是使用者还是希望共同完善 Gecco 的开发者,欢迎 pull request。如果

3、项目名称:扒网站工具 templatespider

java 开源爬虫系统 java爬虫用什么框架_github_02

项目简介:看好哪个网站,指定好 URL,自动扒下来做成 html 模版。并且所下载的 css、js、图片、html 文件会自动分好类保存到特定文件夹! 然后使用 模版计算工具,自动将 html 模版计算合成为网市场云建站系统可用的模版。

4、项目名称:分布式网络爬虫

项目简介:实现基于 hadoop 思维的分布式网络爬虫,实现各种包括去重分析、关键字提取、情感分析、文本分类处理等。核心设计思路是可以接入任何一种爬虫,并且可以针对此种爬虫的问题进行扩展。

5、Jsoup

jsoup 是一款Java 的HTML解析器,可直接解析URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

相关文章

  1. 推荐一些优秀的开源Java爬虫项目