Scrapy爬虫之拉勾网招聘数据分析实训实验心得爬取拉勾网职位信息

转载

岁月如歌甚好 2024-01-04 17:53:52

文章标签 数据 json ajax 文章分类 数据分析人工智能

项目流程

（1）分析职位页面的请求方式与请求数据

1.随便搜索一个职位进入职位界面，然后点击下一页，发现浏览器顶部的网址并未发生变化，因此分析请求方式应该是ajax的发起的post请求

2.点击右键打开浏览器的检查元素，选择network，再点击下面的XHR，此时再次点击下一页，发现出现一个ajax请求，点击进去会出现请求头，响应数据，查询字符串参数与请求数据，根据这些数据可知确实是ajax的post请求

Scrapy爬虫之拉勾网招聘数据分析实训实验心得爬取拉勾网职位信息_数据

Scrapy爬虫之拉勾网招聘数据分析实训实验心得爬取拉勾网职位信息_ajax_02

Scrapy爬虫之拉勾网招聘数据分析实训实验心得爬取拉勾网职位信息_ajax_03

3.再次点击一个界面，然后对比两次请求数据的差异，分析出哪些数据是不变的，哪些是该改变的，以及改变的规律是什么，对比之后你会发现改变的数据只有页数，其他并未改变，而且可以根据字段的意思分析出每个字段携带的数据是什么。

（2）找出需要数据的位置

1.点击预览可以看到返回的响应信息，然后去分析这些响应信息，我们可以看出我们需要的信息在result中（这里可以百度第三方工具json在线编辑器去转换一下，更有助于我们去分析这些json数据）

2.找到位置后就需要我们研究如何去取出我们需要的数据，这里选择使用jsonpath来进行取数据，jsonpath的使用非常简单，根据数据的形式我们可以得出匹配格式为jsonpath(python_obj, “$…result”)[0]，其中python_obj为响应的json数据转换后的python数据类型

3.分析完之后就可以使用代码来实现了，如果代码完成过程中发现有什么缺失的地方没有注意到，就回头继续完善分析