爬虫第二节浏览器模拟
原创
©著作权归作者所有:来自51CTO博客作者一个土豆芽的原创作品,请联系作者获取转载授权,否则将追究法律责任
# 有时候,我们无法爬取一下网页,会出现403错误,应为这些网页为了防止别人恶意采集其信息
# 所以想进行反爬机制可设置一些Header信息,模拟浏览器去进行访问网站
# url = "https://movie.douban.com"
# file = urllib.request.urlopen(url)
#故会出现的错误:urllib.error.HTTPError: HTTP Error 418:
# 接下来我们讲解两种让爬虫模拟成了浏览器访问网页的设置方法
# 方法1:使用build_opener()修改报头
# 由于URLopen()不支持一些http的高级功能所以我们如果要修改报头,
# 可以使用urlib.request.build_opener()进行,
url = "https://movie.douban.com"
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read()
# 对上述代码进行解释:首先进行定义一个变量url存储要爬取的网站,然后在在定义一个变量
# headers存储对应的User-agent信息,定义的格式为("User-Agent",具体信息)
# 然后我们需要使用urllib.request.build_opener()创建自定义的opener对象并赋给变量opener
# 接下来设置opener对象的addheaders 设置对应的头信息,
# 设置格式为“opener对象名.addheaders=[头信息]
# 使用opener对象的.open()方法打开对应的网址了,使用格式是opener对象名.open(url地址)。
# 打开对应网址后,再使用read()方法读取对应数据,并赋给data变量
fhandle=open("G:/百度网盘/精通Python网络爬虫源码/书中源码/2.html", "wb")
# 方法二,使用add_header()添加报头,还有可以使用urllib.request.Request()下的add_header()
req = urllib.request.Request(url)
req.add_header('User-Agent',
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0')
data = urllib.request.urlopen(req).read()
# 设置要爬取的网址,然后使用urllib.request.Request(url)创建一个Request对象并赋给变量req
# 创建对象的格式为:urllib.request.Request(url地址)
# 随后,使用add_header()方法添加对应的报头信息,格式为:Request对象名.add_header(字段名,字段值)
# 设置好报头,然后我们使用urlopen()打开该Request对象即可打开对应网址,所以此时我们使用data=urllib.request.urlopen(req)。read()
# 打开对应网址并读取了网页内容,并赋给了data变量