目标,将网页上的内容爬取下来,并实现翻页,存储为csv。 import os from concurrent.futures.thread import ThreadPoolExecutor from threading import Thread import requests from re i ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-08-16 20:41:00
                            
                                164阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            from bs4 import BeautifulSoup
import requests
import csv
'''
:param url 爬取页面第一页,页数用{}代替
:param page 爬取页数
:return 返回一个存放每个职位详细信息的链接 列表
'''
def get_urls(url, page):
    sub_urls = []  # 存放子链接列表
    cou            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-29 15:19:10
                            
                                254阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            依据51job网站特点,确定数据采集思路:确定筛选条件,分析链接结构当总页数达到2000时,获取分类链接,分别获取总页数,否则直接进行下一步获取总页数,构建分页链接遍历每一页,获取职位链接遍历每一职位,获取职位信息采集代码:#-*-coding:utf-8-*-importrequestsfromlxmlimportetreeimportcsvimportre#新建csv文件,用于存储数据csvF            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-06-03 15:50:03
                            
                                498阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前言:本文是介绍利用代理IP池以及多线程完成前程无忧网站的是十万条招聘信息的采集工作,已适当控制采集频率,采集数据仅为了学习使用,采集十万条招聘信息大概需要十个小时。起因是在知乎上看到另一个程序猿写的前程无忧的爬虫代码,对于他的一些反反爬虫处理措施抱有一丝怀疑态度,于是在他的代码的基础上进行改造,优化了线程的分配以及页面访问的频率,并加入了代理IP池的处理,优化了爬虫效率。首先,奉上本文依赖的基础            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-06 16:53:00
                            
                                107阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            selenium_51job_com.py #!/usr/bin/env python3 # coding=utf-8 # Version:python3.6.1 # File:51job_com.py # Author:LGSP_Harold import pymongo from seleniu ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-08-21 12:51:00
                            
                                158阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            有源码和lun文词云图            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-11-07 11:23:32
                            
                                232阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            爬取前程无忧(一)步骤:1.解析url2.获取url上的内容3.对获取的内容进行解析4.对解析后的内容进行存储 步骤:1.解析url首先,明确我们的目的:爬取51上所有的python岗位的相关职位信息 这是我们的原始url:https://search.51job.com/list/010000,000000,0000,00,9,99,python,2,3.html?lang=c&pos            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-25 18:01:43
                            
                                1642阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            python爬取51job关于python的招聘信息            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-03-24 15:19:29
                            
                                685阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录xpath简介爬取51job招聘信息xpath简介前面介绍了这么多种解析网页的方式,今天再来介绍一种xpath,XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。它可以确定元素在XML中的位置,同样我们也可以用它来获取dom节点在html中的位置,就可以便利我们爬取数据这是今天大概内容的简介我在这里也就不详细介绍XP...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-09-02 11:04:29
                            
                                1301阅读
                            
                                                                                    
                                1评论
                            
                                                 
                 
                
                             
         
            
            
            
            前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 PS:如有需要Python学习资料的小伙伴可以点击下方链接自行获取 Python免费学习资料、代码以及交流解答点击即可加入 没有赶上秋招的,今年就要开始春招了,可是该怎么获取想要的求职信息呢, ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-04-28 21:53:30
                            
                                220阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。PS:如有需要Python学习资料的小伙伴可以点击下方链接自行获取 没有赶上秋招的,今年就要开始春招了,可是该怎么获取想要的求职信息呢,各种求职网站信息繁多,快速获取数据筛选得到我们想要的工作地点和岗位以及薪资是我们先行的第一步。本次爬虫就以51job为例,爬取51job职业为数据分析的相关所有            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-03-18 16:08:43
                            
                                173阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            题目登录 http://www.51job.com点击高级搜索输入搜索关键词 python地区选择 杭州职能类别 选 计算机软件 -> 高级软件工程师公司性质选 外资 欧美工作年限选 1-3 年搜索最新发布的职位, 抓取页面信息。 得到如下的格式化信息Python开发工程师 | 杭州纳帕科技有限公司 | 杭州 | 0.8-1.6万/月 | 04-27Python高级开...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-06-21 14:20:11
                            
                                216阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            有借鉴有修改"""user:long"""import reimport timefrom bs4 import BeautifulSoup#from pack.DbUtil import DbUtilfrom pack.RequestUtil import RequestUtil# 要查找的关键字print("请输入您需要推荐匹配的关键字:\n")key_ = str...
            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-12-29 15:28:26
                            
                                358阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一直听说网上是java的工作职位比C#的多的多,我今天晚上做了一个测试,看看两者的数据。
测试的平台51JOB
我选择上海的区域,关键字选java,出现的结果是
一年以上491
二年以上868
三年以上993
五年以上422
然后我输入C#,出现结果是
一年以上228
二年以上545
三年以上490
五年以上128
两者一对比,吓我一跳,这个对比也太悬殊了吧,但我马上就反应            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2008-12-27 22:39:00
                            
                                698阅读
                            
                                                        
                                点赞
                            
                                                                                    
                                1评论
                            
                                                 
                 
                
                             
         
            
            
            
            Python爬虫51job最近闲的没事来爬个51job,爬取了一千条数据。 结果如图: 暂时只是将里面的职位爬取出来放到了mysql数据库,后续再做其他更改。 方法也很简单,就获取网页,解析网页,存储数据到数据库。 1.获取网页 先引入需要的包:import pymysql
import re
from bs4 import BeautifulSoup
import urllib.request,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-21 22:41:54
                            
                                165阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            项目概览在浏览器上访问51job 官方网站,并在搜索框输入关键词“Python”,地点选在“西安”,单击”搜索“按钮进入搜索页在搜索页中,所有符合条件的职位信息以列表的形式排序设有分页显示。每条职位信息是一个URL 地址,通过URL 地址可以进入该职位的详情页。职位详情页也是数据爬取的页面,爬取的数据信息有:职位名称、企业名称、待遇、福利以及职位要求等等。项目框架项目的开发工具选择 Request            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-06 14:57:25
                            
                                3阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            在当今数字化时代,网络爬虫技术已成为数据获取的重要手段之一。本文将通过一个实际案例——采集51job招聘信息,详细介绍如何使用Python和Selenium框架实现数据采集。我们将从环境准备、网页结构分析、采集字段说明到爬虫实现步骤等方面展开,帮助读者快速掌握相关技术。            
                
         
            
            
            
            51job上岗位爬取及分析综合应用所学的python语言知识,设计完成一个爬虫。 (1)请求网页,先获取所有招聘信息的详情url地址; (2)通过对爬取数据的分析确定要提取的内容(职位,发布日期,工资,工作地点,工作经验,学历要求,招聘人数,公司类别,公司规模); (3)保存数据为csv文件; (4)对csv文件内的数据进行分析 (5)用可视化的图表表现出来。需求分析每到毕业季,找工作就成了一个重            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-11 21:05:33
                            
                                169阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            准备工作
开发工具:pycharm
python版本:python3
用到的类库 re,requests,xlwt
可以保存在excel和数据库中
安装这些类库我是借助pip,如果不知道如何用pip请移步到
我们这里以搜索“python”职位为例
爬取数据保存到excel完整代码如下,代码里注释讲解的很清楚了
# -*- coding:utf-8 -*-
import re  # 用来做正则匹配用            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-08-07 19:19:07
                            
                                2350阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            准备工作开发工具:pycharm	python版本:python3	用到的类库 re,requests,xlwt	可以保存在excel和数据库中	安装这些类库我是借助pip,如果不知            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-02-13 13:48:38
                            
                                740阅读