python 并行库 python并行程序

转载

daleiwang 2023-07-28 14:09:41

文章标签 python 并行库 python中的多线程求值串行和并行多线程多进程 python 文章分类 Python 后端开发

工作中经常涉及到加速程序的运行，除了代码逻辑的优化，算法的优化之外，还经常使用的一招就是并发编程。至于python的并型编程这一块。说到并行编程，我们不得不谈线程和进程这两个概念： + 进程：对于操作系统来说，一个任务就是一个进程(Process)，熟悉linux的朋友敲命令ps -aux 就可以看到本机正在启动的任务——进程。 + 线程：在一个进程内部(一个任务)，要同时干多件事，就需要同时运行多个“子任务”，我们把进程内的这些“子任务”称为线程(Thread)。

这里要注意的是每个进程至少要干一个任务，每个进程至少有一个线程。

正常的程序都是顺序执行，你完成干完一件事后再接着干下一件事。这样就会出现一个问题，无法同时干多件事。而并行编程就是希望程序能够同时干多件事情，起到程序加速运行的效果。

并行编程的三种模式1.多进程：开启多个进程，每个进程中都有一个线程，并行去执行多个任务。

2.多线程：只开启一个进程，在进程中采取多线程编程模式，真正的多线程是将任务分发到不同的CPU，充分利用多核CPU。

3.多进程加多线程：这个就是上面两种的组合，开启多个进程，每个进程中都采用多个进程去合力完成多个任务。

这里我们就来好好解释一下，python的GIL机制：python的GIL本质是一把互斥锁，保证同一时间只有一条线程访问解释器级别的数据，这样就避免了数据竞争带来的混乱，但是这个机制使得原本希望多线程带来的并行执行，变成了串行执行。

如果是I/O密集型操作，比如访问web服务，访问数据库等时，由于这些操作不涉及到CPU的运算，所以此时多线程就能够发挥优势，多线程可以同时进行多个I/O操作，加速程序运行。

而CPU密集型操作，要频繁使用CPU计算的场景，python中的多线程则几乎完全变成了串行，加之还要在不同线程中间切换，有时效果还不如顺序执行。此时就需要使用多进程来加速程序运行。

实验部分

导入multiprocessing.dummy ——python中多线程模块，threading拥有同样功能；multiprocessing——python中多进程模块。

import requests
import time
from multiprocessing.dummy import Pool as ThreadPool
from multiprocessing import Pool
tpool = ThreadPool()
ppool = Pool()

I/O密集型任务测试

在I/O密集型任务上分布测试顺序执行，多线程，多进程的速度如何：

urls = ["https://www.baidu.com/"]*100
time_1 = time.time()
for i in urls:
requests.get("https://www.baidu.com/")
time_2 = time.time()
print("I/O密集型：for 循环使用时间",time_2-time_1)
time_3 = time.time()
tpool.map(requests.get,urls)
time_4 = time.time()
print("I/O密集型：多线程使用时间",time_4-time_3)
time_5 = time.time()
ppool.map(requests.get,urls)
time_6 = time.time()
print("I/O密集型：多进程使用时间",time_6-time_5)

结果如下： I/O密集型：for 循环使用时间 14.102440595626831 I/O密集型：多线程使用时间 2.5032284259796143 I/O密集型：多进程使用时间 2.267827272415161

多线程和多进程确实比顺序执行快了将近6倍，而多进程和多线程的速度差不多。

CPU(计算)密集型任务测试

在CPU(计算)密集型任务上分布测试顺序执行，多线程，多进程的速度如何：

data = [10000]*10
def get_jiecheng(num):
res = 1
for i in range(num):
res *= (i+1)
time_7 = time.time()
for i in data:
get_jiecheng(i)
time_8 = time.time()
print("计算密集型：for 循环使用时间",time_8-time_7)
time_9 = time.time()
tpool.map(get_jiecheng,data)
time_10 = time.time()
print("计算密集型：多线程使用时间",time_10 - time_9)
time_11 = time.time()
ppool.map(get_jiecheng,data)
time_12 = time.time()
print("计算密集型：多进程使用时间",time_12-time_11)
time_13 = time.time()
ppool.map_async(get_jiecheng,data)
time_14 = time.time()
print("计算密集型：多进程异步使用时间",time_14-time_13)

计算密集型：for 循环使用时间 0.5359704494476318 计算密集型：多线程使用时间 0.5580940246582031 计算密集型：多进程使用时间 0.10313701629638672 计算密集型：多进程异步使用时间 0.00018835067749023438

此时多线程反而变成慢了，多进程比多线程和顺序执行快了大概5倍左右，同时，异步的多进程最快，加速5000多倍。但是异步的缺点也显而易见，就是无法实现进程之间的通信。

python的多进程在linux服务器上存在在一个内存复制机制——子进程会复制父进程的状态(内存空间数据等),所以如果主进程耗的资源较多时，就会造成大量的不必要的内存复制，从而导致内存爆掉。

总结

综上python 多进程和多线程总结如下： + 多线程的缺点：CPU密集型计算速度变慢。 + 多线程的优点：I/O密集型计算加速效果明显，不是特别消耗CPU和内存资源。 + 多进程的缺点：特别消耗耗CPU和内存资源 + 多进程的优点：I/O密集型和CPU密集型计算加速效果明显。

所以笔者建议以后碰到I/O密集型计算建议使用 python多线程，而CPU密集型计算建议使用python多进程。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：B站上的狂神说java怎么样狂神说springmvc笔记

下一篇：mysql存储过程参数化 mysql存储过程参数约束

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python 并行库 python并行程序

python 并行库 python并行程序

51CTO博客