由于python相当易学易用,现在python也较多地用于有大量的计算需求的任务。本文介绍几个并行模块,以及实现程序并行的入门技术。本文比较枯燥,主要是为后面上工程实例做铺垫。完结篇对前期介绍的所有模块及实例进行总结,比较各并行方法的特点和异同。
所有比较都以文字形式呈现了,欢迎指正或完善,做成表格可能效果更好。
模块介绍:
爱coding:python并行计算(上):multiprocessing、multiprocess模块zhuanlan.zhihu.com爱coding:python并行计算(上):pathos模块zhuanlan.zhihu.com爱coding:python并行计算(上):concurrent.futures、pp模块zhuanlan.zhihu.com
实例:
爱coding:python并行计算(下):multiprocessing模块实例zhuanlan.zhihu.com爱coding:python并行计算(下):pathos模块实例zhuanlan.zhihu.com爱coding:python并行计算(下):concurrent.futures、pp模块实例zhuanlan.zhihu.com
注:以下模块、类与其他内容相同或接近,不重复介绍和比较:
multiprocess模块:与multiprocessing模块接口基本一致。
pathos.pp.pp模块:实质也即pp模块,与独立的pp模块完全相同。
pathos.multiprocessing.Pool():与multiprocess.Pool()完全相同。
pathos.multiprocessing.ProcessingPool()、pathos.pools.ProcessPool():与pathos.multiprocessing.ProcessPool()完全相同。
pathos.pp.ParallelPythonPool()、pathos.parallel.ParallelPool()、pathos.parallel.ParallelPythonPool()、pathos.pools.ParallelPool():与pathos.pp.ParallelPool()完全相同。
pathos.serial.SerialPool():实际是串行(非并行),不参与比较。
1、按并行分类
(1)阻塞(非并行):
非并行方式下,子进程串行执行(完成一个,然后开始下一个),实际不是并行。包括:
multiprocessing.Pool(),apply方法
pathos.multiprocessing.ProcessPool(),pipe方法
pathos.pp.ParallelPool(),pipe方法
pathos.pp.ParallelPool(),map方法
pathos.pp.ParallelPool(),imap方法
(2)批次并行:
批次并行指一批子进程并行执行,且直到该批次所有子进程完成后,才开始下一批次。包括:
multiprocessing.Process() #只能一批一批地添加进程,同一批次内并行
(3)异步:
异步执行指的是一批子进程并行执行,且子进程完成一个,就新开始一个,而不必等待同一批其他进程完成。包括:
multiprocessing.Pool(),apply_async方法
multiprocessing.Pool(),map方法
multiprocessing.Pool(),map_async方法
multiprocessing.Pool(),imap方法
multiprocessing.Pool(),imap_unordered方法
multiprocessing.Pool(),starmap方法
multiprocessing.Pool(),starmap_async方法
concurrent.futures.ProcessPoolExecutor(),submit方法
concurrent.futures.ProcessPoolExecutor(),map方法
pathos.multiprocessing.ProcessPool(),map方法
pathos.multiprocessing.ProcessPool(),imap方法
pathos.multiprocessing.ProcessPool(),uimap方法
pathos.multiprocessing.ProcessPool(),amap方法
pathos.multiprocessing.ProcessPool(),apipe方法
pp.Server(),submit方法
pathos.pp.ParallelPool(),apipe方法
pathos.pp.ParallelPool(),amap方法
pathos.pp.ParallelPool(),uimap方法
2、按传参分类
(1)单个任务,任务多参数:
multiprocessing.Process()
concurrent.futures.ProcessPoolExecutor(),submit方法
multiprocessing.Pool(),apply方法
multiprocessing.Pool(),apply_async方法
pathos.multiprocessing.ProcessPool(),pipe方法
pathos.multiprocessing.ProcessPool(),apipe方法
pp.Server(),submit方法
pathos.pp.ParallelPool(),pipe方法
pathos.pp.ParallelPool(),apipe方法
(2)多个任务,任务单参数:
multiprocessing.Pool(),map方法
multiprocessing.Pool(),map_async方法
multiprocessing.Pool(),imap方法
multiprocessing.Pool(),imap_unordered方法
(3)多个任务,任务多参数:
(a)func(iterable[i])形式:iterable的每个元素(元素本身也是iterable)对应func的多个参数。
multiprocessing.Pool(),starmap方法
multiprocessing.Pool(),starmap_async方法
(b)func(iterable1[i], iterable2[i], ...)形式:每个iterable对应func的一个参数。
concurrent.futures.ProcessPoolExecutor(),map方法
pathos.multiprocessing.ProcessPool(),map方法
pathos.multiprocessing.ProcessPool(),imap方法
pathos.multiprocessing.ProcessPool(),uimap方法
pathos.multiprocessing.ProcessPool(),amap方法
pathos.pp.ParallelPool(),map方法
pathos.pp.ParallelPool(),amap方法
pathos.pp.ParallelPool(),imap方法
pathos.pp.ParallelPool(),uimap方法
3、按返回分类
(1)返回任务返回值
multiprocessing.Pool(),apply方法
pathos.multiprocessing.ProcessPool(),pipe方法
pathos.pp.ParallelPool(),pipe方法
(2)返回list
multiprocessing.Pool(),map方法
multiprocessing.Pool(),starmap方法
pathos.multiprocessing.ProcessPool(),map方法
pathos.pp.ParallelPool(),map方法
(3)返回ApplyResult
返回MapResult或ApplyResult实例,通过get方法获取返回值。需要注意的是:
由于每个ApplyResult实例对应单个子进程,其get方法本身是阻塞的,因此,在进程添加过程中不可包含get方法,而应在所有进程完成后,再一起调用get方法。
对于MapResult不存在该问题,因为所有子进程只会一起返回一个MapResult实例。
包括:
multiprocessing.Pool(),apply_async方法
pathos.multiprocessing.ProcessPool(),apipe方法
pathos.pp.ParallelPool(),apipe方法
(4)返回MapResult
multiprocessing.Pool(),map_async方法
multiprocessing.Pool(),starmap_async方法
pathos.multiprocessing.ProcessPool(),amap方法
pathos.pp.ParallelPool(),amap方法
(5)返回迭代器或生成器
迭代器/生成器对内存的需求会小得多,但速度比普通方法要慢很多(未验证)。不过,对于本文的小型任务,看不出差别。
(a)按顺序:即按任务添加顺利返回。
multiprocessing.Pool(),imap方法
concurrent.futures.ProcessPoolExecutor(),map方法
pathos.multiprocessing.ProcessPool(),imap方法
pathos.pp.ParallelPool(),imap方法
(b)不按顺序:实际按任务完成顺序返回。
multiprocessing.Pool(),imap_unordered方法
pathos.multiprocessing.ProcessPool(),uimap方法
pathos.pp.ParallelPool(),uimap方法
(6)无直接返回值
multiprocessing.Process() #无直接返回值,可通过进程间通信的方式返回任务返回值。
concurrent.futures.ProcessPoolExecutor(),submit方法 #future对象可以通过result方法获取子进程任务返回值。但该方法是阻塞的,因此,应在所有子进程完成后再调用。
pp.Server(),submit方法 #Task对象可调用(即Task()),调用可返回任务返回值。但调用是阻塞的,因此,应在所有子进程完成后再调用。