目录

  • 4-1-综合实践背景
  • 4-2-综合实践操作
  • 1-打开网页
  • 2-按关键词进行搜索
  • 3-报错“当前IP地址可能存在异常访问”
  • 4-数据采集
  • 4-3-思考
  • 参考文献


4-1-综合实践背景

小张是某高校管理学研究生,在毕业课题中需要采集boss直聘武汉地区的相关数据,而小张同学因为是人文科学背景没有接触过爬虫,在网上搜索很多资料后,现在她找到你希望你帮她采集boss直聘网的相关数据,你应该怎么做呢?

boss直聘武汉地区网站:https://www.zhipin.com/wuhan/

4-2-综合实践操作

1-打开网页

打开八爪鱼到打开boss直聘武汉的相关页面

八爪鱼mysql插入数据_数据采集

2-按关键词进行搜索

在职务关键词中输入【数据分析】关键词进行搜索

八爪鱼mysql插入数据_数据_02

3-报错“当前IP地址可能存在异常访问”

针对Boss直聘对ip进行验证的情况,可以对打开网页这一步骤中的重试部分进行设置,从而在一定程度上对反爬虫的绕过

八爪鱼mysql插入数据_爬虫_03

4-数据采集

首先是对页面进行自动网页识别

八爪鱼mysql插入数据_八爪鱼mysql插入数据_04

这是自动识别完成后的界面,我们可以看到系统抓取的数据比较全面

八爪鱼mysql插入数据_八爪鱼mysql插入数据_05

如果需要获得更加详细的职位页面数据,相关数据采集完成后可以进入到单独的职位页面进行数据采集

采集完成后将采集的职位的链接导入到八爪鱼后,对后续的职位信息进行相关采集。循环打开采集的网页,对职位的岗位需求进行采集。

八爪鱼mysql插入数据_数据采集_06

4-3-思考

思考部分

1.在数据采集过程中,频繁访问网页会引发反爬虫机制,如何规避这样的问题?

切换IP地址;设置采集间隔时间;

2.对于boss直聘的数据采集中,你觉得哪些信息字段是比较重要的?