爬虫学习（2）：request库使用

原创

wx62a0461bcb0eb 2022-07-17 01:04:30 博主文章分类：瞎写点爬虫教程案例 ©著作权

文章标签 python chrome safari 请求头 文章分类 后端开发

©著作权归作者所有：来自51CTO博客作者wx62a0461bcb0eb的原创作品，请联系作者获取转载授权，否则将追究法律责任

hh先强力推荐下python推出的kite神器，安装好后，写代码都有提示，超级帮，解决忘记完整代码

爬虫学习（2）：request库使用_python

步入正题： request，老规矩，不讲原理，讲方法，不喜欢废话

还是以爬取CSDN为例子

import urllib.request
request = urllib.request.Request
response=urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

第一步导入库吧

第二步request来加入了Request类响应网址

第三步urlopen打开request

最后一步就是打印，加上一个编码方式utf-8

其实这就是request一个最基本完整的构建

爬虫学习（2）：request库使用_chrome_02

我主要要讲到request库下的Request类使用，没有它真没法继续爬虫了

from urllib import request,parse
url=
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}
dict={'name':'chuan'}
data=bytes(parse.urlencode(dict),encoding='utf-8')
req=request.Request(url=url,data=data,headers=headers,method='POST')
response=request.urlopen(req)
print(response.read().decode('utf-8'))

这样爬取是个模式吧，不过很明显我被反爬了

爬虫学习（2）：request库使用_chrome_03

HTTP Error 403: Forbidden这个报错就是服务器禁止访问

这不影响，继续讲：因为我们要用到header请求头，所以要用到Request类

算了，换一个网址爬，代码没变，换了个网址

from urllib import request
url='https://zhuanlan.zhihu.com/p/146913886'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}
req=request.Request(url=url,headers=headers,method='POST')
response=request.urlopen(req)
print(response.read().decode('utf-8'))