目录
1、简介
2、urlopen函数
3、urlretrieve函数
4、urlencode函数
5、request类
1、简介
urllib库是python中一个最基本的网络请求库,可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。
urllib是python自带的标准库,无需安装,直接可以用。
2、urlopen函数
函数基本使用:
函数详解:
创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。
url:请求的url
data:请求的data,如果设置了这个值,那么将变成post请求。
返回值:返回值是一个http.client.HTTPResponse对象,这个对象是一个类文件句柄对象。有read(size)、readline、readlines以及getcode等方法。
read(size)如下图:
readline如下图:
readlines:
getcode:输出的不是网页内容,而是发出请求的状态码
3、urlretrieve函数
这个函数可以方便的
将网页上的一个文件保存到本地。
运行代码之后,右侧菜单栏出现文件的名称:
双击之后:
代码名称上面,会有浏览器选择的框浮动,点击一个浏览器选项:
4、urlencode函数
可以把字典数据转换为URL编码的数据。
为什么要把字典转换为URL编码?
我们向浏览器发送请求的时候,如果URL当中包含了中文或者其他字符,浏览器会自动帮我们做一个编码。
parse_qs函数,解码
可以将经过编码后的url参数进行解码。
5、request类
如果想要在请求的时候,增加一些请求头,就必须使用request.Request类来实现。比如要增加一个User-Agent。
Usr-Agent,也叫UA,是特殊的字符串头,让服务器来识别客户所使用的操作系统,系统版本,浏览器类型,CPU版本等内容。
有一些网站往往通过判断UA,来给不同的操作系统,不同的浏览器发送不同的页面,就会造成有些页面,在一些浏览器里面是不能正常的显示的。
可以通过伪造UA来绕过这个检测。