前言:本文是介绍利用代理IP池以及多线程完成前程无忧网站的是十万条招聘信息的采集工作,已适当控制采集频率,采集数据仅为了学习使用,采集十万条招聘信息大概需要十个小时。起因是在知乎上看到另一个程序猿写的前程无忧的爬虫代码,对于他的一些反反爬虫处理措施抱有一丝怀疑态度,于是在他的代码的基础上进行改造,优化了线程的分配以及页面访问的频率,并加入了代理IP池的处理,优化了爬虫效率。首先,奉上本文依赖的基础
转载 2023-07-06 16:53:00
107阅读
题目登录 http://www.51job.com点击高级搜索输入搜索关键词 python地区选择 杭州职能类别 选 计算机软件 -> 高级软件工程师公司性质选 外资 欧美工作年限选 1-3 年搜索最新发布的职位, 抓取页面信息。 得到如下的格式化信息Python开发工程师 | 杭州纳帕科技有限公司 | 杭州 | 0.8-1.6万/月 | 04-27Python高级开...
原创 2021-06-21 14:20:11
216阅读
Python爬虫51job最近闲的没事来爬个51job,爬取了一千条数据。 结果如图: 暂时只是将里面的职位爬取出来放到了mysql数据库,后续再做其他更改。 方法也很简单,就获取网页,解析网页,存储数据到数据库。 1.获取网页 先引入需要的包:import pymysql import re from bs4 import BeautifulSoup import urllib.request,
转载 2023-09-21 22:41:54
165阅读
项目概览在浏览器上访问51job 官方网站,并在搜索框输入关键词“Python”,地点选在“西安”,单击”搜索“按钮进入搜索页在搜索页中,所有符合条件的职位信息以列表的形式排序设有分页显示。每条职位信息是一个URL 地址,通过URL 地址可以进入该职位的详情页。职位详情页也是数据爬取的页面,爬取的数据信息有:职位名称、企业名称、待遇、福利以及职位要求等等。项目框架项目的开发工具选择 Request
转载 2023-12-06 14:57:25
3阅读
一直听说网上是java的工作职位比C#的多的多,我今天晚上做了一个测试,看看两者的数据。 测试的平台51JOB 我选择上海的区域,关键字选java,出现的结果是 一年以上491 二年以上868 三年以上993 五年以上422 然后我输入C#,出现结果是 一年以上228 二年以上545 三年以上490 五年以上128 两者一对比,吓我一跳,这个对比也太悬殊了吧,但我马上就反应
原创 2008-12-27 22:39:00
698阅读
1点赞
1评论
依据51job网站特点,确定数据采集思路:确定筛选条件,分析链接结构当总页数达到2000时,获取分类链接,分别获取总页数,否则直接进行下一步获取总页数,构建分页链接遍历每一页,获取职位链接遍历每一职位,获取职位信息采集代码:#-*-coding:utf-8-*-importrequestsfromlxmlimportetreeimportcsvimportre#新建csv文件,用于存储数据csvF
转载 2021-06-03 15:50:03
498阅读
51job上岗位爬取及分析综合应用所学的python语言知识,设计完成一个爬虫。 (1)请求网页,先获取所有招聘信息的详情url地址; (2)通过对爬取数据的分析确定要提取的内容(职位,发布日期,工资,工作地点,工作经验,学历要求,招聘人数,公司类别,公司规模); (3)保存数据为csv文件; (4)对csv文件内的数据进行分析 (5)用可视化的图表表现出来。需求分析每到毕业季,找工作就成了一个重
目标,将网页上的内容爬取下来,并实现翻页,存储为csv。 import os from concurrent.futures.thread import ThreadPoolExecutor from threading import Thread import requests from re i ...
转载 2021-08-16 20:41:00
164阅读
2评论
python爬取51job关于python的招聘信息
原创 2022-03-24 15:19:29
685阅读
有源码和lun文词云图
原创 2022-11-07 11:23:32
232阅读
目录xpath简介爬取51job招聘信息xpath简介前面介绍了这么多种解析网页的方式,今天再来介绍一种xpath,XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。它可以确定元素在XML中的位置,同样我们也可以用它来获取dom节点在html中的位置,就可以便利我们爬取数据这是今天大概内容的简介我在这里也就不详细介绍XP...
原创 2021-09-02 11:04:29
1301阅读
1评论
    在上一篇51job职位信息的爬取中,对岗位信息div下各式各样杂乱的标签,简单的Xpath效果不佳,加上string()函数后,也不尽如人意。因此这次我们跳过桌面web端,选择移动端进行爬取。  一、代码结构     按照下图所示的爬虫基本框架结构,我将此份代码分为四个模块——URL管理、HTML下载
from bs4 import BeautifulSoup import requests import csv ''' :param url 爬取页面第一页,页数用{}代替 :param page 爬取页数 :return 返回一个存放每个职位详细信息的链接 列表 ''' def get_urls(url, page): sub_urls = [] # 存放子链接列表 cou
转载 2023-11-29 15:19:10
254阅读
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 PS:如有需要Python学习资料的小伙伴可以点击下方链接自行获取 Python免费学习资料、代码以及交流解答点击即可加入 没有赶上秋招的,今年就要开始春招了,可是该怎么获取想要的求职信息呢, ...
转载 2021-04-28 21:53:30
220阅读
2评论
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。PS:如有需要Python学习资料的小伙伴可以点击下方链接自行获取 没有赶上秋招的,今年就要开始春招了,可是该怎么获取想要的求职信息呢,各种求职网站信息繁多,快速获取数据筛选得到我们想要的工作地点和岗位以及薪资是我们先行的第一步。本次爬虫就以51job为例,爬取51job职业为数据分析的相关所有
转载 2021-03-18 16:08:43
173阅读
2评论
selenium_51job_com.py #!/usr/bin/env python3 # coding=utf-8 # Version:python3.6.1 # File:51job_com.py # Author:LGSP_Harold import pymongo from seleniu ...
转载 2021-08-21 12:51:00
158阅读
2评论
6月北京的天气越来越火热。但是,比天气还火热的问题就是大学生就业问题。因为近10年,我一直奋战在软件开发领域,所以到了每年6月,就格外关心计算机专业的应届毕业生就业问题。 今天我在51job网站搜索了关于.Net招聘岗位情况,下面来简要分析一下,.Net招聘情况。另外,也给在校的大学生学生一些学习方面的建议。 以下数据图是51job搜索的.Net招聘岗位:   从上图的数据
原创 2009-06-12 20:30:00
748阅读
有借鉴有修改"""user:long"""import reimport timefrom bs4 import BeautifulSoup#from pack.DbUtil import DbUtilfrom pack.RequestUtil import RequestUtil# 要查找的关键字print("请输入您需要推荐匹配的关键字:\n")key_ = str...
原创 2022-12-29 15:28:26
358阅读
为了结果直观,做的简单网页地址:https://search.51job.com/list/180200,000000,0000,00,9,99,
原创 2022-11-07 10:31:06
341阅读
爬取前程无忧(一)步骤:1.解析url2.获取url上的内容3.对获取的内容进行解析4.对解析后的内容进行存储 步骤:1.解析url首先,明确我们的目的:爬取51上所有的python岗位的相关职位信息 这是我们的原始url:https://search.51job.com/list/010000,000000,0000,00,9,99,python,2,3.html?lang=c&pos
  • 1
  • 2
  • 3
  • 4
  • 5