按理说这篇随笔上周就要写的,可用 request 一直获取不到详情页信息,这天在网上看到一个说法,说是在 requests.get 后加个 headers 就好了,试了试果然可以实现,于是重新回顾一下,正好对 pyquery 的使用方法理解的差不多了,今天用三种方法分别介绍一下猫眼电影的爬取。一般爬猫眼电影有两种方法,一种就像我前段时间写的豆瓣电影爬取方法一样,可以只获取全部电影所在的详情页内容,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-26 08:19:30
                            
                                295阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            爬去猫眼电影正字热映电影榜单的前五页:  #爬取猫眼电影正在热映前5面的所有电影
import requests
from requests import RequestException
import re
def get_one_page(url):
     header ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)            
                
         
            
            
            
            1.什么是XPathXPATH路径语言, 查找信息的语言, 用来搜寻XML文档, 也适用于HTMLXPath 提供了简洁明了的路径选择表达式超过100个内建函数 2.XPath常用规则nodename : 选取此节点的所有子节点/ : 从当前节点选取直接子节点// : 从当前节点选取子孙节点. : 选取当前节点.. : 选取当前节点的父节点@ : 选取属性3. 使用3.1安装lxml库3            
                
         
            
            
            
            废话不说,代码附上: #encoding:utf-8import requestsimport reimport jsonfrom multiprocessing import Pool #多线程模块 #获取网页源代码def get_one_page(url):    #添加头信息    headers = {'User-Agent':'Mozilla/...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-07-12 10:35:16
                            
                                185阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            通过python3的多线程,获取猫眼电影top100电影清单,并保存信息到本地,使用了requests库和正则表达式#!/usr/bin/envpython#-*-coding:utf-8-*-#@Author:AikerZhao#@Date:2019/4/22:52AM#@File:pamaoyan.py#@Desc:importrequestsfromrequests.exceptionsim            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2019-04-02 16:43:05
                            
                                1645阅读
                            
                                                        
                                点赞
                            
                                                                             
                 
                
                             
         
            
            
            
            废话不说,代码附上: #encoding:utf-8import requestsimport reimport jsonfrom multiprocessing import Pool #多线程模块 #获取网页源代码def get_one_page(url): ...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-09-02 10:57:44
                            
                                429阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            import json import multiprocessing import time import requests from requests.exceptions import RequestException import re def get_one_page(url): try:  ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-10-15 15:10:00
                            
                                196阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 运行结果如下:            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-07-04 17:52:43
                            
                                114阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            本帖最后由 py看考场 于 2019-3-25 20:16 编辑上一篇帖子中介绍了scrapy的安装,以及scrapy的基本配置,本篇介绍流浪地球影评的获取。上一篇帖子传输门scrapy的安装配置下一篇帖子传输门数据可视化一.分析1.首先介绍一下scrapy爬虫的基本流程:在items.py文件中定义需要爬取内容的数据格式----->在spiders中的爬虫文件里发起请求并处理信息-----            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-05 11:09:50
                            
                                78阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            本文演示了如何使用Python爬取猫眼电影Top100的电影名称、主演和上映时间等信息,并将这些信息保存到txt文件中。此本文使用了requests库来发送HTTP请求,使用re库进行正则表达式匹配,并包含详细的代码解释。            
                
         
            
            
            
            抓取首页:http://maoyan.com/board/4?offset=0代码:# -*- coding:utf-8 -*-import requestsfrom requests.exceptions import RequestExceptionimport re   # 正则需要的包import json  # json.dumps需要的包from multiproc...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-07-14 15:41:31
                            
                                311阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            容:先导入import requests库: html=request.get(url...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-09-19 09:48:10
                            
                                204阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            流程框架1.抓取单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果。2.正则表达式分析:根据HTML代码分析得到电影的名称,主演,上映时间,评分,图片链接等信息3.开启循环及多线程:对多页内容遍历,开启多线程提高抓取速度4.保存至文件:通过文件的形式将结果保存,每一部电影一个结果一行Json字符串流程设计1.maoyan_Spider函数是一个整体的爬虫调度器,其中包含            
                
         
            
            
            
            爬取猫眼电影TOP100(http://maoyan.com/board/4?offset=90)1).爬取内容:电影名称,主演,上映时间,图片url地址保存到mariadb数据库中;2).所有的图片保存到本地/mnt/maoyan/电影名.png代码:importreimportpymysqlasmysqlfromurllibimportrequestfromurllib.requestimpo            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2018-10-09 21:27:34
                            
                                5910阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前言如果大家经常阅读Python爬虫相关的公众号,都会是以爬虫+数据分析的形式展现的,这样很有趣,图表也很不错,今天了,            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-09-01 16:30:56
                            
                                910阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                                
                     
                                    
                             
         
            
            
            
            本次主要爬取Top100电影榜单的电影名、主演和上映时间, 同时保存为excel表个形式, 其他相似榜单也都可以依葫芦画瓢首先打开要爬取的网址https://maoyan.com/board/4, 在不断点击下一页的过程中, 我们可以发现网址的变化是有规律的https://maoyan.com/board/4?offset=0
https://maoyan.com/board/4?offset=1            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-17 22:50:11
                            
                                68阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            本文为实战篇,需提前学习[《Python爬虫从入门到精通》基本库requests的使用和正则表达式的内容。我们需要抓取的目标为猫眼电影-榜单-TOP100榜,其地址为:[https://maoyan.com/board/4](https://maoyan.com/board/4)。我们希望爬取各个电影的排名、名称、主演、上映时间、上映地区等信息。最后保存为一张Excel表格。            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-01-24 17:41:25
                            
                                1083阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前言本文主要讲述使用python爬取猫眼TOP100榜的电影名称,评分,以及电影图片等,爬取的URL是:http://maoyan.com/bard/4。安装类库pipinstallrequests分析目标URL打开http://maoyan.com/bard/4,观察页面规律。可以看到页面上链接已经变为http://maoyan.com/board/4?offset=10,可以看的出来第二页链接            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-01-03 23:11:50
                            
                                1331阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            你好,悦创。爬虫网站链接:https://ssr1.scrape.center/page/1,视频回放请联系 AI悦创代码:# title# 地区# score# image# datetimeimport reimport requestsfrom requests.exceptions import RequestExceptionclass MaoYan(object):    def __            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-03-27 10:51:24
                            
                                274阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            首页测试 # -*- coding: utf-8 -*-""" 爬取的相关信息有:电影名次、电影名称、主演、上映时间、评分 """import reimport timeimport requestsfrom multiprocessing import Poolfrom requests.exce            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-07-22 11:32:44
                            
                                149阅读