python网路爬虫代码 python的网络爬虫

转载

bugouhen 2023-07-01 13:06:00

文章标签 python网路爬虫代码 python标准库百度 html 文章分类 Python 后端开发

python网络爬虫入门（一）

网络爬虫的定义

1、网络蜘蛛、网络机器人，抓取网络数据的程序。

2、其实就是用Python(其他语言也可以这里介绍python)程序模仿人点击浏览器并访问网站，而且模仿的越逼真越好。

对比几种语言

1、Python ：请求模块、解析模块丰富成熟,强大的Scrapy网络爬虫框架

2、PHP ：对多线程、异步支持不太好

3、JAVA：代码笨重,代码量大

4、C/C++：虽然效率高,但是代码成型慢

爬取数据的一般步骤

1、确定需要爬取的URL地址

2、由请求模块向URL地址发出请求,并得到网站的响应

3、从响应内容中提取所需数据并保存

python标准库中爬虫请求模块及其方法

urllib.request

urllib.request.urlopen()方法

作用:向网站发去请求并获取响应对象

参数:

1.所需要爬取的URL地址

2.timeout:设置等待时间，指定时间内为未响应抛出异常

第一个爬虫程序

打开浏览器，输入百度网址(

1 #导入请求模块(python标准库模块)

2 importurllib.request3 4 #定义url地址

5 url = "http://www.baidu.com/"

6 7 #向百度发请求,得到响应对象

8 res = urllib.request.urlopen(url)

响应对象方法

1 res =urllib.request.urlopen(url)2 3 #获取响应对象的内容（也就是网页源代码）

4 #用decode（）转换为字符串

5 res.read().decode("utf-8")6 7 #返回http响应码

8 res.getcode()9 10 #返回实际数据的URL地址

11 res.geturl()

向百度发起请求，并获取响应对象的内容

1 #导入请求模块(python标准库模块)

2 importurllib.request3 4 #定义url地址

5 url = "http://www.baidu.com/"

6 7 #向百度发请求,得到响应对象

8 res =urllib.request.urlopen(url)9 #获取响应对象的内容（网页源代码）

10 html = res.read().decode("utf-8")11 print(html)

------------恢复内容开始------------

python网络爬虫入门（一）

网络爬虫的定义

1、网络蜘蛛、网络机器人，抓取网络数据的程序。

2、其实就是用Python(其他语言也可以这里介绍python)程序模仿人点击浏览器并访问网站，而且模仿的越逼真越好。

对比几种语言

1、Python ：请求模块、解析模块丰富成熟,强大的Scrapy网络爬虫框架

2、PHP ：对多线程、异步支持不太好

3、JAVA：代码笨重,代码量大

4、C/C++：虽然效率高,但是代码成型慢

爬取数据的一般步骤

1、确定需要爬取的URL地址

2、由请求模块向URL地址发出请求,并得到网站的响应

3、从响应内容中提取所需数据并保存

python标准库中爬虫请求模块及其方法

urllib.request

urllib.request.urlopen()方法

作用:向网站发去请求并获取响应对象

参数:

1.所需要爬取的URL地址

2.timeout:设置等待时间，指定时间内为未响应抛出异常

第一个爬虫程序

打开浏览器，输入百度网址(

1 #导入请求模块(python标准库模块)

2 importurllib.request3 4 #定义url地址

5 url = "http://www.baidu.com/"

6 7 #向百度发请求,得到响应对象

8 res = urllib.request.urlopen(url)

响应对象方法

1 res =urllib.request.urlopen(url)2 3 #获取响应对象的内容（也就是网页源代码）

4 #用decode（）转换为字符串

5 res.read().decode("utf-8")6 7 #返回http响应码

8 res.getcode()9 10 #返回实际数据的URL地址

11 res.geturl()

向百度发起请求，并获取响应对象的内容

1 #导入请求模块(python标准库模块)

2 importurllib.request3 4 #定义url地址

5 url = "http://www.baidu.com/"

6 7 #向百度发请求,得到响应对象

8 res =urllib.request.urlopen(url)9 #获取响应对象的内容（网页源代码）

10 html = res.read().decode("utf-8")11 print(html)

------------恢复内容结束------------

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：android开源 mqtt Android开源播放器

下一篇：mysql 删除失败跳过错误脚本删掉mysql

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python网路爬虫代码 python的网络爬虫

python网路爬虫代码 python的网络爬虫

51CTO博客