网络爬虫及python python网络爬虫程序

转载

mob64ca14040d22 2023-09-12 23:12:01

为自留用，用于在将来的学习中温故而知新

今日内容：爬虫程序的初步认知和简单爬虫程序的编写

1.什么是爬虫程序

网络爬虫又称网络蜘蛛、网络机器人，它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页，并将所需要的数据抓取下来。通过对抓取的数据进行处理，从而提取出有价值的信息。

2.编写爬虫的流程

爬虫程序与其他程序不同，它的的思维逻辑一般都是相似的，所以无需我们在逻辑方面花费大量的时间。下面对 Python 编写爬虫程序的流程做简单地说明：

3.爬虫程序的编写

3.1：获取响应对象并输出响应信息

代码部分：（这里获取的是我的个人bilibili主页）

网络爬虫及python python网络爬虫程序_请求头

输出部分：（内容过多所以折叠）

网络爬虫及python python网络爬虫程序_python_02

4.常用方法总结

1) urlopen()

表示向网站发起请求并获取响应对象，如下所示：

urllib.request.urlopen(url,timeout)

urlopen() 有两个参数，说明如下：

2) Request()

该方法用于创建请求对象、包装请求头，比如重构 User-Agent（即用户代理，指用户使用的浏览器）使程序更像人类的请求，而非机器。重构 User-Agent 是爬虫和反爬虫斗争的第一步。在下一节会做详细介绍。

urllib.request.Request(url,headers)

参数说明如下：

3) html响应对象方法

4) 编码解码操作

#字符串转换为字节码
string.encode("utf-8") 
#字节码转换为字符串
bytes.decode("utf-8")

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客