文章目录
- 1.八爪鱼软件界面
- 2.运行逻辑[以爬取36Kr快讯为例]
- 3.思考
1.八爪鱼软件界面
2.运行逻辑[以爬取36Kr快讯为例]
打开八爪鱼采集器,在主页的搜索框中输入36kr快讯的地址,点击开始采集
在屏幕右侧的操作提示中,点击自动识别网页,点击后会进入到识别网页的过程
等网页识别完成后我们就看到了八爪鱼自动识别的结果
点击生成采集设置按钮
点击保存并开始采集
数据采集的方式有2种,一个是本地采集,也就是程序运行在你的电脑上,一个是云采集,也就是用八爪鱼的服务器进行采集,其中云采集为八爪鱼的增值服务,是属于收费项目,因此在本次课程中我们选择本地采集
点击后,我们的数据采集工作就开始了
点击停止采集,就可以停止数据采集的工作
选择导出数据
我们可以看到,八爪鱼的数据导出支持很多种形式,比如excel、csv、HTML以及json,甚至可以将数据导入到数据库种中,因此数据的存储形式相当的方便
我们选择导出到excel的形式
导出完成后有相应的提示
这个时候我们就看到了我们采集的相关数据
打开八爪鱼,在“我的任务”中就可以看到我们保存的相关任务
3.思考
1.体验了八爪鱼采集后,你觉得它能够用在学习和工作中的哪些方面?
可以用它快速爬取所需数据,进行数据分析和数据挖掘等工作。比自己利用python编写代码简单便捷。
2.推测一下,你觉得八爪鱼的工作原理是什么?
通过模拟人的思维操作方式(如打开网页,点击网页中的某个按钮),对网页内容进行全自动提取。
3.和python爬虫相比,八爪鱼的优势和劣势是什么?
优势:简单快捷,即使不会代码,也能轻松操作
劣势:免费版导出数量有限制