python3 多线程 queue python3 多线程处理数据

转载

风之谷启航 2023-07-06 19:14:13

文章标签 python3 多线程 queue Python3 多进程多协程并发 文章分类 Python 后端开发

上一篇文章《基于Python3单进程+多线程+多协程的生产者-消费者模型示例代码》介绍了如何使用Python在单进程的情况下利用协程并发地处理数据，由于Python的GIL，所有代码只利用到了一个CPU核心，无法发挥多核心优势，所以我又做了一个多进程+多协程的模板，这里的代码不涉及具体业务。
代码地址：https://github.com/MacwinWin/multiprocessing_asyncio_data_processing

现状与挑战

以Cpython作为Python解释器时，由于GIL的存在导致：

多线程实际上始终在单核上进行运行，因而不适合进行计算密集型任务；而多线程之间可以共享数据，所以适合进行IO密集型任务；单线程间切换存在性能损耗，大规模并发并不适合多线程；
多进程能有效利用多核的计算优势，因而适合计算密集型任务；但由于Python的多进程是通过启动多个解释器实现的，之间存在数据隔离，因而不适合进行IO密集型任务；
协程是用户态的线程，用户可灵活操作其生命周期，且协程间切换及乎没有性能损耗，更适合大规模并发，但由于GIL限制，所以不适合进行计算密集型任务。

因而，使用Python进行实时大数据规模处理存在挑战。

总览

这里用到的库包括Python3自己的multiprocessing、threading、asyncio以及第三方库aioprocessing¹。

整体架构如下图所示：

python3 多线程 queue python3 多线程处理数据_并发_02

详细说明

为了方便介绍代码逻辑，我将项目抽象成了现实世界中的装配工厂。
组织架构如下图所示：

python3 多线程 queue python3 多线程处理数据_python3 多线程 queue_03

其中四部门为单独的进程，采购员、车间主任、调度员、运维员、副车间主任为线程，主任助理、工人、监工、搬运工、司机为协程。

各部门、岗位职责：

CEO：

根据公司资源合理分配给各部门，尤其是产品部，更多的车间意味着更大的产量，但也会消耗更多的资源（CPU 核心）；
创建车间，为车间分配生产所需的资源；为每一个车间创建一条生产流水线（线程安全的同步队列）；创建一条各车间共享的运输传送带（线程安全的异步队列）
管理四部门的正常运作

采购部：

采购员（一名）：

购买原材料，并为原材料贴上所属的产品ID标签（一条生产流水线负责多个产品，一个产品可能由多种原材料组成）
将原材料放在对应的生产流水线上

生产部：

0车间：

车间主任（一名）：

管理主任助理和副主任；
从生产流水线上取出原材料，根据上面的产品ID标签，在员工花名册上找到所属的员工，与该员工重新续签合同，并登记后交给副主任；
如果在员工花名册上没有找到所属员工则新招聘一名工人，并与其签订合同；
（关于合同机制²）

副主任（一名）：

占有车间一半资源以供其安排生产；
从主任处获得原材料，放置在对应工人的传送带上；
仅将资源分配给手中有原材料的工人；

工人（n名）：

每名工人配有一条传送带，工人从传送带上获取原材料；
根据产品装配图，对原材料进行处理；
完成后给产品贴上产品类标签，然后放入运输传送带上；
每名工人受合同约束；

监工（n名）：

监工属于公司编制内，没有合同约束，每名监工定时监督一名工人；

主任助理（一名）：

接受主任的管理，对主任负责；
定时检查员工花名册

1车间
…
n车间

运输部：

调度员（一名）：

管理搬运工和司机；
管理仓库；

搬运工（一名）：

从运输传送带上获取产品；
对产品做一些处理，例如包装；
将产品根据产品类型放在仓库中；

司机（一名）：

每隔一段时间清空仓库中的产品

运维部：

运维员（一名）：

每隔一段时间巡检一遍生产流水线

使用方式

# build image
>>> docker build -t test:1.0
# run the image as a container
>>> docker run -i -t -d -v $(pwd):/app --name test test:1.0
>>> docker exec -i -t test /bin/bash
>>> python3 ceo.py