工作中经常涉及到加速程序的运行,除了代码逻辑的优化,算法的优化之外,还经常使用的一招就是并发编程。至于python的并型编程这一块。说到并行编程,我们不得不谈线程和进程这两个概念: + 进程:对于操作系统来说,一个任务就是一个进程(Process),熟悉linux的朋友敲命令ps -aux 就可以看到本机正在启动的任务——进程 。 + 线程:在一个进程内部(一个任务),要同时干多件事,就需要同时运行多个“子任务”,我们把进程内的这些“子任务”称为线程(Thread)。

这里要注意的是每个进程至少要干一个任务,每个进程至少有一个线程。

正常的程序都是顺序执行,你完成干完一件事后再接着干下一件事。这样就会出现一个问题,无法同时干多件事。而并行编程就是希望程序能够同时干多件事情,起到程序加速运行的效果。

并行编程的三种模式1.多进程: 开启多个进程,每个进程中都有一个线程,并行去执行多个任务。

2.多线程 :只开启一个进程,在进程中采取多线程编程模式,真正的多线程是将任务分发到不同的CPU,充分利用多核CPU。

3.多进程加多线程:这个就是上面两种的组合,开启多个进程,每个进程中都采用多个进程去合力完成多个任务。

这里我们就来好好解释一下,python的GIL机制:python的GIL本质是一把互斥锁,保证同一时间只有一条线程访问解释器级别的数据,这样就避免了数据竞争带来的混乱,但是这个机制使得原本希望多线程带来的并行执行,变成了串行执行。

如果是I/O密集型操作,比如访问web服务,访问数据库等时,由于这些操作不涉及到CPU的运算,所以此时多线程就能够发挥优势,多线程可以同时进行多个I/O操作,加速程序运行。

而CPU密集型操作,要频繁使用CPU计算的场景,python中的多线程则几乎完全变成了串行,加之还要在不同线程中间切换,有时效果还不如顺序执行。此时就需要使用多进程来加速程序运行。

实验部分

导入multiprocessing.dummy ——python中多线程模块,threading拥有同样功能;multiprocessing——python中多进程模块。

import requests
import time
from multiprocessing.dummy import Pool as ThreadPool
from multiprocessing import Pool
tpool = ThreadPool()
ppool = Pool()

I/O密集型任务测试

在I/O密集型任务上分布测试 顺序执行,多线程,多进程的速度如何:

urls = ["https://www.baidu.com/"]*100
time_1 = time.time()
for i in urls:
requests.get("https://www.baidu.com/")
time_2 = time.time()
print("I/O密集型:for 循环使用时间",time_2-time_1)
time_3 = time.time()
tpool.map(requests.get,urls)
time_4 = time.time()
print("I/O密集型:多线程使用时间",time_4-time_3)
time_5 = time.time()
ppool.map(requests.get,urls)
time_6 = time.time()
print("I/O密集型:多进程使用时间",time_6-time_5)

结果如下: I/O密集型:for 循环使用时间 14.102440595626831 I/O密集型:多线程使用时间 2.5032284259796143 I/O密集型:多进程使用时间 2.267827272415161

多线程和多进程确实比顺序执行快了将近6倍,而多进程和多线程的速度差不多。

CPU(计算)密集型任务测试

在CPU(计算)密集型任务上分布测试 顺序执行,多线程,多进程的速度如何:

data = [10000]*10
def get_jiecheng(num):
res = 1
for i in range(num):
res *= (i+1)
time_7 = time.time()
for i in data:
get_jiecheng(i)
time_8 = time.time()
print("计算密集型:for 循环使用时间",time_8-time_7)
time_9 = time.time()
tpool.map(get_jiecheng,data)
time_10 = time.time()
print("计算密集型:多线程使用时间",time_10 - time_9)
time_11 = time.time()
ppool.map(get_jiecheng,data)
time_12 = time.time()
print("计算密集型:多进程使用时间",time_12-time_11)
time_13 = time.time()
ppool.map_async(get_jiecheng,data)
time_14 = time.time()
print("计算密集型:多进程异步使用时间",time_14-time_13)

计算密集型:for 循环使用时间 0.5359704494476318 计算密集型:多线程使用时间 0.5580940246582031 计算密集型:多进程使用时间 0.10313701629638672 计算密集型:多进程异步使用时间 0.00018835067749023438

此时多线程反而变成慢了,多进程比多线程和顺序执行快了大概5倍左右,同时,异步的多进程最快,加速5000多倍。但是异步的缺点也显而易见,就是无法实现进程之间的通信。

python的多进程在linux服务器上存在在一个内存复制机制——子进程会复制父进程的状态(内存空间数据等),所以如果主进程耗的资源较多时,就会造成大量的不必要的内存复制,从而导致内存爆掉。

总结

综上python 多进程和多线程总结如下: + 多线程的缺点:CPU密集型计算速度变慢。 + 多线程的优点:I/O密集型计算加速效果明显,不是特别消耗CPU和内存资源。 + 多进程的缺点:特别消耗耗CPU和内存资源 + 多进程的优点:I/O密集型和CPU密集型计算加速效果明显。

所以笔者建议以后碰到I/O密集型计算建议使用 python多线程,而CPU密集型计算建议使用python多进程。