Python程序员爬出百套美女写真集，同样是爬虫，他为何如此突出？

转载

mb6066e57ad74c9 2021-06-16 14:19:36

文章标签 Python 文章分类 Python 后端开发

前言

人生苦短，Python当歌！

python爬虫

Python程序员爬出百套美女写真集，同样是爬虫，他为何如此突出？_Python

用python爬虫是一件非常使人愉快的事情，图片、数据、小视频一切皆可爬取，可是我们会经常发现下载图片的时候会非常慢，难以忍受。

我们都知道一个人做事必然没有十个人做事快，那一个进程速度慢，用十个进程就好了呀。所以今天要跟大家分享一个多进程爬虫的制作。（GIL的存在导致Python的多线程点有坑）

Python程序员爬出百套美女写真集，同样是爬虫，他为何如此突出？_Python_02

大家应该知道在多进程中，进程之间是不能相互通信的，这就有一个问题出现了！多个进程怎么知道哪些需要爬取、哪些已经被爬取了？

这就涉及到队列了，如果需要更为稳定健壮的队列，应该使用Celery这一类的专用消息传递工具，不过为了简便，这次我们使用MongoDB。

Python程序员爬出百套美女写真集，同样是爬虫，他为何如此突出？_Python_03

构建思路

好了！先来理一下思路：每个进程需要知道哪些URL爬取过了、哪些URL需要爬取！我们来给每个URL设置两种状态：

outstanding:等待爬取的URL

complete:爬取完成的URL

那么失败的URL的怎么办呢？我们在增加一种状态：

processing:正在进行的URL

嗯！当一个所有初始的URL状态都为outstanding；当开始爬取的时候状态改为：processing；爬取完成状态改为：complete；失败的URL重置状态为：outstanding。为了能够处理URL进程被终止的情况、我们设置一个计时参数，当超过这个值时；我们则将状态重置为outstanding。

接下来看代码部分

首先我们需要一个模块：datetime(这个模块比内置time模块要好使一点)

下面是队列的代码：

Python程序员爬出百套美女写真集，同样是爬虫，他为何如此突出？_Python_04