python模拟浏览器爬虫 python 模拟浏览器操作

转载

云端筑梦者 2024-01-24 20:36:34

文章标签 python模拟浏览器爬虫 Python爬虫赋值 User Chrome 文章分类 Python 后端开发

问题：有时我们无法爬取一些网页，会出现403错误，因为这些网页做了反爬虫设置
解决办法：模拟成浏览器访问，爬取所需要的信息

一、获取获取User-Agent信息

所获得的信息为：”User-Agent:Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Mobile Safari/537.36”。这个信息只需要获取一次，以后爬取其它网站都可以用。

python模拟浏览器爬虫 python 模拟浏览器操作_python模拟浏览器爬虫

二、将爬虫模拟成浏览器访问

方法一:使用build_opener()修改报头

由于urlopen()不支持一些HTTP的高级功能，我们可以采用urllib.request.build_opener()进行修改报头

#使用urllib.request.build_opener()修改报头，模拟成浏览器并爬取文章《01精通Python网络爬虫——快速使用Urllib爬取网页》
import urllib.request #导入模块
url = "" #将要爬取的网址赋值给变量url
headers = ("User-Agent","Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Mobile Safari/537.36")#定义一个变量headers存储对应的User-Agent信息，格式为：("User-Agent",具体信息)
opener = urllib.request.build_opener()#创建自定的opener对象并赋值给变量opener
opener.addheaders = [headers]#设置对应的头信息，格式："opener对象名.addheaders = [头信息],之后就可以通过opener对象的open()方法打开网址
data = opener.open(url).read()#模仿为浏览器去打开、爬取网址并读取赋值给变量data.此时是具有头信息的打开操作
fhandle = open("D:/Python35/myweb/part4/3.html","wb") #用 "wb"二进制的方式用open()函数打开该文件，并赋值给fhandle变量
fhandle.write(data) #用write()函数将data的数据写入变量fhandle
fhandle.close() #用close()函数关闭该文件

方法二:使用add_header()修改报头

除了方法一，我们还可以使用urllib.request.Request()下的add_header()实现浏览器的模拟

#使用urllib.request.Request()下的add_header()修改报头，模拟成浏览器并爬取文章《01精通Python网络爬虫——快速使用Urllib爬取网页》
import urllib.request#导入模块
url = "" #将要爬取的网址赋值给变量url
req = urllib.request.Request(url)#创建一个Request对象并赋值给req变量，格式为：urllib.request.Request(url地址)
req.add_header("User-Agent","Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Mobile Safari/537.36")#使用add_header()函数添加对应的User-Agent信息，格式为：Request对象名.add_header(字段名,字段值)
data = urllib.request.urlopen(req).read()#模仿为浏览器去打开、爬取网址并读取赋值给变量data.此时是具有头信息的打开操作
fhandle = open("D:/Python35/myweb/part4/4.html","wb") #用 "wb"二进制的方式用open()函数打开该文件，并赋值给fhandle变量
fhandle.write(data) #用write()函数将data的数据写入变量fhandle
fhandle.close() #用close()函数关闭该文件

说明：爬取“”不用模拟成浏览器也可以达到目的。
注意：方法一中使用的是addheaders()方法，方法2中使用的是add_header()方法，注意末尾有无s以及有无下划线的区别。

三、超时异常设置

我们访问一个网页，如果长时间未响应，那么系统就会判断该网页超时，即无法打开该网页，格式为：urllib.request.urlopen(要打开的网址,timeout = 时间值)

#超时设置
import urllib.request#导入模块
for i in range(1,10):
    try:
        data = urllib.request.urlopen("",timeout = 10).read()#超时设置为10s
        fhandle = open("D:/Python35/myweb/part4/5.html","wb") #用 "wb"二进制的方式用open()函数打开该文件，并赋值给fhandle变量
        fhandle.write(data) #用write()函数将data的数据写入变量fhandle
        fhandle.close() #用close()函数关闭该文件
    except Exception as e:
        print("打印异常-->"+str(e))

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。