以下为题主推荐一些在国内平台和 Github 上都可以找到的 Java 爬虫项目,希望能够帮助到题主和对此感兴趣的朋友。
1、项目名称:爬虫框架 webmagic
项目简介:webmagic 是一个开源的 Java 垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic 的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。
webmagic的主要特色:
- 完全模块化的设计,强大的可扩展性。
- 核心简单但是涵盖爬虫的全部流程,灵活而强大,也是学习爬虫入门的好材料。
- 提供丰富的抽取页面API。
- 无配置,但是可通过POJO+注解形式实现一个爬虫。
- 支持多线程。
- 支持分布式。
- 支持爬取js动态渲染的页面。
- 无框架依赖,可以灵活的嵌入到项目中去。
2、项目名称:轻量化网络爬虫 Gecco
项目简介:Gecco 是一款用 java 语言开发的轻量化的易用的网络爬虫。Gecco 整合了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等优秀框架,让您只需要配置一些 jquery 风格的选择器就能很快的写出一个爬虫。Gecco 框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展开放。同时 Gecco 基于十分开放的 MIT 开源协议,无论你是使用者还是希望共同完善 Gecco 的开发者,欢迎 pull request。如果
3、项目名称:扒网站工具 templatespider
项目简介:看好哪个网站,指定好 URL,自动扒下来做成 html 模版。并且所下载的 css、js、图片、html 文件会自动分好类保存到特定文件夹! 然后使用 模版计算工具,自动将 html 模版计算合成为网市场云建站系统可用的模版。
- 码云项目地址:https://gitee.com/mail_osc/templatespider
- GitHub 地址:xnx3/templatespider
4、项目名称:分布式网络爬虫
项目简介:实现基于 hadoop 思维的分布式网络爬虫,实现各种包括去重分析、关键字提取、情感分析、文本分类处理等。核心设计思路是可以接入任何一种爬虫,并且可以针对此种爬虫的问题进行扩展。
- 码云项目地址:https://gitee.com/zongtui/zongtui-webcrawler
- GitHub 地址:https://github.com/zongtui/zongtui-webcrawler
5、Jsoup
- github地址:jhy/jsoup
- 中文指南:jsoup开发指南,jsoup中文文档
jsoup 是一款Java 的HTML解析器,可直接解析URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
相关文章