Python 下载队列 python中队列

转载

mob64ca1402a190 2023-09-14 18:32:13

文章标签 Python 下载队列 python 开发语言数据线程安全 文章分类 Python 后端开发

一、线程安全队列

python内置的线程安全队列模块叫queue

python的Queue模块中提供了同步的、线程安全的队列类

FIFO（先进先出）队列的Queue（常用）
LIFO（后进先出）lifoQueue

可以使用队列来实现线程间的同步。

二、队列的常用方法

函数	描述
qsize()	返回队列大小
empty()	判断队列是否为空
full()	判断队列是否满了
get()	从队列中获取先插入的数据
put()	将一个数据放到队列中

qsize()返回队列大小

	`from queue import Queue`
	`# 指定队列当中最多可存放5个数据`
	`queue = Queue(5)`
	`for num in range(5):`
	`# put（）将一个数据放到队列中`

	`queue.put(num) # 队列中获取先插入的数据`
	`print("当前队列的大小为：", queue.qsize())`

	`-------------------------`
	`当前队列的大小为： 5`

empty()判断队列是否为空
full() 判断队列是否为满

	`from queue import Queue`
	`# 指定队列当中最多可存放5个数据`
	`queue = Queue(5)`
	`for num in range(5):`
	`# put（）将一个数据放到队列中`

	`queue.put(num) # 队列中获取先插入的数据`

	`# 判断队列是否为空`
	`print(queue.empty())`
	`print(queue.full())`

	`----------------------`
	`False`
	`True`

put() 将一个数据放到队列中
get() 从队列中获取先插入的数据

	`from queue import Queue`
	`# 指定队列当中最多可存放5个数据`
	`queue = Queue(5)`
	`for num in range(5):`
	`# put（）将一个数据放到队列中`

	`queue.put(num) # 队列中获取先插入的数据`
	`print("当前队列的大小为：", queue.qsize())`
	`# get（）从队列中获取先插入的数据`
	`for i in range(1,6):`
	`print(queue.get(i))`

	`-------------------------------------`
	`当前队列的大小为： 5`
	`0`
	`1`
	`2`
	`3`
	`4`

三、在多线程当中使用

Queue是线程安全的队列，在使用时无须加锁，可以再多线程当中直接使用

队列也是实现线程间同步的方式

	`from queue import Queue`
	`import threading`
	`import random`
	`import time`

	`def put_data(queue):`
	`while True:`
	`queue.put(random.randint(10,100))`
	`time.sleep(1)`
	`print(queue.qsize())`
	`def get_data(queue):`
	`while True:`
	`print(f"已经获取到队列当中的--{queue.get()}--元素")`

	`def main():`
	`queue = Queue(10)`
	`t1 = threading.Thread(target=put_data,args=(queue,))`
	`t2 = threading.Thread(target=get_data,args=(queue,))`
	`t1.start()`
	`t2.start()`

	`if __name__ == '__main__':`
	`main()`

四、生产者与消费者模式

产生数据的模块，就形象地称为生产者；而处理数据的模块，就称为消费者。

单单抽象出生产者和消费者，还够不上是生产者／消费者模式。该模式还需要有一个缓冲区处于生产者和消费者之间，作为一个中介。生产者把数据放入缓冲区，而消费者从缓冲区取出数据。

缓冲区

如果制造数据的速度时快时慢，缓冲区的好处就体现出来了。当数据制造快的时候，消费者来不及处理，未处理的数据可以暂时存在缓冲区中。等生产者的制造速度慢下来，消费者再慢慢处理掉。

队列==缓冲区

（一）生产者与消费者模式案例

	`import requests`
	`from bs4 import BeautifulSoup`
	`import os`
	`from threading import Thread`
	`from queue import Queue`


	`headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.26"}`

	`# 生产者类`

	`class Page_Url(Thread):`
	`# page_queue 生产者队列`
	`# img_queue 消费者队列`
	`def __init__(self,page_queue,img_queue):`
	`super().__init__()`
	`self.page_queue = page_queue`
	`self.img_queue = img_queue`

	`def run(self):`
	`while True:`
	`if self.page_queue.empty():`
	`break`
	`url = self.page_queue.get()`
	`self.download_image(url)`

	`def download_image(self,url):`

	`resp = requests.get(url, headers=headers).text`
	`# print(resp)`
	`soup = BeautifulSoup(resp, "lxml")`
	`image_list = soup.find_all("img", class_="ui image lazy")`
	`for img in image_list:`
	`title = img.get("title")`
	`href = img.get("data-original")`
	`self.img_queue.put((title,href))`

	`# 消费者类`
	`class Img_Url(Thread):`
	`# page_queue 生产者队列`
	`# img_queue 消费者队列`
	`def __init__(self, page_queue, img_queue):`
	`super().__init__()`
	`self.page_queue = page_queue`
	`self.img_queue = img_queue`
	`def run(self):`
	`while True:`
	`data = self.img_queue.get()`
	`title,href = data`
	`try:`
	`with open("./image/"+title+os.path.splitext(href)[-1],"wb") as f:`
	`resp =requests.get(href).content`
	`f.write(resp)`
	`print(title,"保存成功！")`
	`except OSError:`
	`pass`
	`# 判断两个队列是否全部清空`
	`if self.page_queue.empty() and self.img_queue.empty():`
	`break`




	`def main():`
	`# 创建两个队列`
	`page_queue = Queue()`
	`img_queue = Queue()`

	`for num in range(1,6):`
	`url = "https://www.fabiaoqing.com/biaoqing/lists/page/{}.html".format(num)`
	`# 将前五页的url添加到生产者队列`
	`page_queue.put(url)`

	`t1 = Page_Url(page_queue,img_queue)`
	`t1.start()`
	`t2 = Img_Url(page_queue,img_queue)`
	`t2.start()`

	`if __name__ == '__main__':`
	`main()`

（二）步骤解析

1、主类main

（1）创建生产者与消费者队列

（2）将前5页的url添加到生产者队列

	`def main():`
	`# 创建两个队列`
	`page_queue = Queue()`
	`img_queue = Queue()`

	`for num in range(1,6):`
	`url = "https://www.fabiaoqing.com/biaoqing/lists/page/{}.html".format(num)`
	`# 将前五页的url添加到生产者队列`
	`page_queue.put(url)`

	`t1 = Page_Url(page_queue,img_queue)`
	`t1.start()`
	`t2 = Img_Url(page_queue,img_queue)`
	`t2.start()`

2、生产者类

（1）生产者队列while循环当中获取的前5页的链接，当队列为空，停止获取。

	`def run(self):`
	`while True:`
	`if self.page_queue.empty():`
	`break`
	`url = self.page_queue.get()`
	`self.download_image(url)`

（2）将获取的链接给到dowl_img

	`def download_image(self,url):`

	`resp = requests.get(url, headers=headers).text`
	`# print(resp)`
	`soup = BeautifulSoup(resp, "lxml")`
	`image_list = soup.find_all("img", class_="ui image lazy")`
	`for img in image_list:`
	`title = img.get("title")`
	`href = img.get("data-original")`

（3）将获取到的名称和链接添加到消费者队列

	`self.img_queue.put((title,href))`

3、消费者类

（1）从队列当中获取图片名称和链接

	`def run(self):`
	`while True:`
	`data = self.img_queue.get()`
	`title,href = data`

（2）保存图片

	`try:`
	`with open("./image/"+title+os.path.splitext(href)[-1],"wb") as f:`
	`resp =requests.get(href).content`
	`f.write(resp)`
	`print(title,"保存成功！")`
	`except OSError:`
	`pass`
	`# 判断两个队列是否全部清空`
	`if self.page_queue.empty() and self.img_queue.empty():`
	`break`