Python 拉勾网数据分析与展示拉勾网址

转载

mob64ca1418736f 2023-11-14 09:53:15

文章标签 Python 拉勾网数据分析与展示 json java 简体中文 文章分类 Python 后端开发

查看网站详细信息

首先进入网站

https://www.lagou.com/jobs/list_java?labelWords=&fromSearch=true&suginput=

注意其带有参数，并且翻页的时候网址并没有发生变化

此时就只能使用F12查看其请求的接口

发现在翻页的时候，其使用了post方式请求了如下网址

（post需要带参数data进行访问，data为一个字典，指定了提交的参数）

Python 拉勾网数据分析与展示拉勾网址_简体中文

该网址返回了职位，薪酬等信息

查看其请求参数

Python 拉勾网数据分析与展示拉勾网址_简体中文_02

first表示其不是第一页

pn表示page number，即页数

kd表示请求职位的关键字

使用requests模块进行测试

def get_data():
    '''
    输入页数，返回一个网页的响应对象
    '''
    url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
    # 请求头
    headers = {
        "referer": "https://www.lagou.com/jobs/list_java?labelWords=&fromSearch=true&suginput=",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36"
    }
    data = {
        'first': 'false',
        'pn': '3',
        'kd': 'java'
    }

    res = requests.post(url=url, headers=headers, data=data)
    print(res.text)
    return res

其返回了如下

{"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"222.178.10.172","state":2402}

其可能需要在post的时候传入cookie参数，也就是动态cookie

获取cookie

通过访问之前的网址可以获得一个返回对象

（虽然其text属性不可用，但是cookies属性可以使用）

通过response.cookies可以获得返回对象对应cookies

使用动态cookiess进行爬取

re_1 = requests.get(url=url_1, headers=headers)
    re_2 = requests.post(url=url_2, headers=headers, data=data, cookies=re_1.cookies)
    print(re_2.text)

第一个请求是用于获得cookies

第二个请求使用第一个请求的cookies，这样在每次请求接口的时候都是用的访问主页时获得的cookies

解析返回结果

直接爬取时获得数据是html文件

可以在浏览器和lxml模块中使用xpath定位到代码块

然后使用正则匹配所需要的内容

此时使用返回的结果是json文件

可以使用json美化在线工具（也可以直接使用vscode来查看）来进行匹配获得结构

然后使用json模块将其转换为字典进行匹配

results = json.loads(re_2.text)

导出文件

for i in range(15):
        results.loc[i,'职位'] = data['content']['positionResult']['result'][i]['positionName']
        results.loc[i,'公司简称'] = data['content']['positionResult']['result'][i]['companyShortName']
        results.loc[i,'公司全称'] = data['content']['positionResult']['result'][i]['companyFullName']
        results.loc[i,'公司规模'] = data['content']['positionResult']['result'][i]['companySize']
        results.loc[i,'业务范围'] = data['content']['positionResult']['result'][i]['industryField']
        results.loc[i,'城市'] = data['content']['positionResult']['result'][i]['city']
        results.loc[i,'地区'] = data['content']['positionResult']['result'][i]['district']
        results.loc[i,'薪酬'] = data['content']['positionResult']['result'][i]['salary']
        results.loc[i,'创建时间'] = data['content']['positionResult']['result'][i]['createTime']

匹配字典，然后导出为dataframe即可

编码错误的解决

在使用pandas保存文件时，encoding使用utf-8时出现了乱码，改用gbk编码

出现了编码错误

'gbk' codec can't encode character '\xae' in position 10: illegal multibyte sequence

常用的编码，出现问题可以逐个尝试

使用了gb18030编码问题得到了解决

编码名称	用途
utf8	所有语言
gbk	简体中文
gb2312	简体中文
gb18030	简体中文
big5	繁体中文
big5hkscs	繁体中文

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：匹配问号 python python中问号?的作用

下一篇：sql server 存储过程比执行sql语句效率存储过程与sql谁快

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

Python 拉勾网数据分析与展示 拉勾网址

Python 拉勾网数据分析与展示 拉勾网址

51CTO博客

Python 拉勾网数据分析与展示拉勾网址

Python 拉勾网数据分析与展示拉勾网址