文章目录

  • 前言
  • 一、使用的工具
  • 二、使用步骤
  • 1.maven引入包



前言

1. 为何要用爬虫
以前没得需求,最近做毕设,需要获取一些数据,说多不多,说少也不少,靠手工肯定累的够呛,正好自己也一直想试试爬虫,便花了些时间去尝试。

2. 为何选择Java
这个就没其他原因,纯粹是最近再学习java。我还想如果Java效果不好,我直接用Python去做,什么方便用什么。

3. 为何不用爬虫框架
刚开始我是想用的,就去github上找了一些Java相关的爬虫,我找到以下两个:
WebCollector
https://github.com/CrawlScript/WebCollector WebMagic
https://github.com/code4craft/webmagic 在使用的时候出现了一些问题,寻求解决方法未果,再者我要获取数据的网站本身结构很简单规律,所以就打算自己编写一个只针对该网站的特型爬虫。

4. 如何开始
webmagic有着详细的用法介绍和文档,其中也介绍了该项目的开发历程和愿景,以及使用的技术。正是webmagic作者详细的文档介绍让我对爬虫开发的技术有了一个概略的认识。
其中遇到的一些问题,我也有查阅参考这两个项目的源码,确实给了我很大启发和帮助,非常感谢。
本人开发爬虫获取数据仅为学习之用,开发过程中使用的各种工具版权皆为其作者所有。
编程之路道阻且长,java之海深不可测,本人技术水平有限,时间仓促,如有纰漏,还望见谅。

一、使用的工具

  1. HTTPClient
    用于发送请求和处理响应
  2. Jsoup
    用于解析页面和提取数据
  3. JsoupXpath
    补充Jsoup的工具,提供了通过Xpath提取数据的方式
  4. commons-csv
    数据持久化所用的工具,将数据获取后输出为csv格式

二、使用步骤

1.maven引入包

网站https://mvnrepository.com/可以获取各种包以及相应的引用方式。

进入其中搜索可得对应包:

JAVA可以爬电影吗 java适合做爬虫吗_github


一般选择使用数最多的包:

点击相应版本,一般为最新:

JAVA可以爬电影吗 java适合做爬虫吗_爬虫_02


复制依赖dependency到maven项目中即可:

JAVA可以爬电影吗 java适合做爬虫吗_JAVA可以爬电影吗_03