SpiderFlow(图形化爬虫)

url

​https://github.com/ssssssss-team/spider-flow​

官网

​https://www.spiderflow.org​

0.简介

spider-flow 是一个爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫

特性


  • 支持css选择器、正则提取
  • 支持JSON/XML格式
  • 支持Xpath/JsonPath提取
  • 支持多数据源、SQL select/insert/update/delete
  • 支持爬取JS动态渲染的页面
  • 支持代理
  • 支持二进制格式
  • 支持保存/读取文件(csv、xls、jpg等)
  • 常用字符串、日期、文件、加解密、随机等函数
  • 支持流程嵌套
  • 支持插件扩展(自定义执行器,自定义函数、自定义Controller、类型扩展等)
  • 支持HTTP接口

插件


  • redis插件
  • mongodb插件
  • IP代理池插件
  • OSS插件
  • OCR插件
  • Selenium插件

1.安装

git clone https://hub.fastgit.org/ssssssss-team/spider-flow.git

然后用IDEA打开项目,等待解析和下载maven插件。


  • 导入数据库,基础表:​​spider-flow/db/spiderflow.sql​
  • 打开并运行​​org.spiderflow.SpiderApplication.java​
  • 打开浏览器,​​输入(http://localhost:8088/)​

注意修改

SpiderFlow(图形化爬虫)_图形化

里的 数据库 用户名和密码。

另外我的IDEA jdk不支持jdk.nashorn

所以我用openjdk的nashorn才行。

SpiderFlow(图形化爬虫)_ide_02


2.运行

浏览器输入​​localhost:8088​

SpiderFlow(图形化爬虫)_git_03

然后根据官方文档设计爬虫任务即可。

3.总结

优点


  • 无需代码
  • 图形化操作
  • 快速上手

缺点


  • 无法执行较复杂的任务
  • 灵活性差