作者:IT 小样
爬虫,spider,通过爬虫程序可以爬取到网页你所需要的信息。实现爬虫程序的方法很多,本系列文主要介绍通过Python3+requests+BeautifulSoup来实现代码。
本篇简单介绍一下爬虫流程以及环境搭建

爬虫流程

发起请求——>获取响应数据——>解析数据后获取
发起请求获取响应数据,可以通过requests库来实现,而解析数据可以通过BeautifulSoup库来实现。这两个库使用起来相比其他方法会更简单便捷。

安装python

首先下载Python安装包,建议直接安装python3,最新版本即可。在安装时注意勾选添加路径至系统路径中,这样可以直接在命令行运行python命令而不用切换路径。

安装requests库

可以直接pip安装,pip install requests

安装BeautifulSoup

pip安装,pip install bs4
使用BeautifulSoup时,需要from bs4 import BeautifulSoup
此处还需要pip安装解析器 lxml,pip install lxml
安装lxml解析器的原因是因为其比Python自带的html.parser解析器效率更高,建议安装。

至此,基本上环境已经搭建完毕。