python 爬虫途牛用python做爬虫

转载

编程梦想翱翔者 2023-06-28 20:34:08

文章标签 python 爬虫途牛 Python爬虫 Python python xml 文章分类 Python 后端开发

作者:IT 小样
爬虫，spider，通过爬虫程序可以爬取到网页你所需要的信息。实现爬虫程序的方法很多，本系列文主要介绍通过Python3+requests+BeautifulSoup来实现代码。
本篇简单介绍一下爬虫流程以及环境搭建

爬虫流程

发起请求——>获取响应数据——>解析数据后获取
发起请求获取响应数据，可以通过requests库来实现，而解析数据可以通过BeautifulSoup库来实现。这两个库使用起来相比其他方法会更简单便捷。

安装python

首先下载Python安装包，建议直接安装python3，最新版本即可。在安装时注意勾选添加路径至系统路径中，这样可以直接在命令行运行python命令而不用切换路径。

安装requests库

可以直接pip安装，pip install requests

安装BeautifulSoup

pip安装，pip install bs4
使用BeautifulSoup时，需要from bs4 import BeautifulSoup
此处还需要pip安装解析器 lxml，pip install lxml
安装lxml解析器的原因是因为其比Python自带的html.parser解析器效率更高,建议安装。

至此，基本上环境已经搭建完毕。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。