python并行计算进程间数组共享 python并行计算库

转载

mob6454cc66e0d5 2023-11-02 13:43:55

文章标签 python并行计算进程间数组共享 python pathos 进程池子进程多进程 文章分类 Python 后端开发

由于python相当易学易用，现在python也较多地用于有大量的计算需求的任务。本文介绍几个并行模块，以及实现程序并行的入门技术。本文比较枯燥，主要是为后面上工程实例做铺垫。本期介绍pathos模块。

pathos模块

pathos是一个较为综合性的模块，既能多进程，也能多线程。其主要采用进程池/线程池方法。

pathos本身有一套进程池方法，同时也集成了multiprocess、pp模块的进程池方法。

1、pathos自身的多进程方法(pathos.multiprocessing.ProcessPool、pathos.multiprocessing.ProcessingPool、pathos.pools.ProcessPool)

(1)建立进程池

pathos.multiprocessing.ProcessPool(*args, **kwds) #建立pathos的进程池(pathos.multiprocessing.ProcessPool实例)。
pathos.multiprocessing.ProcessingPool(*args, **kwds) #同上。
pathos.pools.ProcessPool(*args, **kwds) #同上。
nodes：workers的数量。如果不指定nodes，则自动检测processors的数量(即ncpus)。
ncpus：worker processors的数量。
servers：worker servers的列表。
scheduler：相应的scheduler。
workdir：用于scratch calculations/files的$WORKDIR。
scatter：如为True，表示采用scatter-gatter(默认为worker-pool)。
source：如为False，表示尽可能少使用TemporaryFiles。
timeout：等待scheduler返回值的时间。

同样也有几个进程池通用的方法：

XXX.close() #关闭进程池，关闭后不能往pool中增加新的子进程，然后可以调用join()函数等待已有子进程执行完毕。XXX为进程池。

XXX.join() #等待进程池中的子进程执行完毕。需在close()函数后调用。XXX为进程池。

def f(a, b = value):
pass
pool = pathos.multiprocessing.Pool()
pool.map(f, a_seq, b_seq)
pool.close()
pool.join()

(2)创建子进程

(a)单个子进程可通过pipe方法创建：

XXX.pipe(f, *args, **kwds) #采用阻塞方式(非并行)提交一个任务，阻塞直到返回结果为止。XXX为进程池实例。

XXX.apipe(f, *args, **kwds) #异步(并行)提交一个任务到队列(queue)中，返回ApplyResult实例(其get方法可获得任务返回值，但get方法是阻塞的，应在所有子进程添加完后再调用)。XXX为进程池实例。

f(*args,**kwds)为子进程对应的活动。

(b)如果子进程有返回值，且返回值需要集中处理，则建议采用map方式(子进程活动允许多个参数)：

XXX.map(f, *args, **kwds) #采用阻塞方式按顺序运行一批任务，返回结果组成的list。func(iterable1[i], iterable2[i], ...)为子进程对应的活动。XXX为进程池实例。

XXX.amap(f, *args, **kwds) #XXX.map()的异步(并行)版本，返回MapResult实例(其具有get()方法，获取结果组成的list)。XXX为进程池实例。

def f(a, b): #map方法允许多个参数
pass
pool = pathos.multiprocessing.Pool()
result = pool.map_async(f, (a0, a1, ...), (b0, b1, ...)).get()
pool.close()
pool.join()

(c)如果内存不够用，也可采用imap迭代器方式：

XXX.imap(f, *args, **kwds) #XXX.map()的非阻塞、按顺序迭代器版本，返回迭代器实例。XXX为进程池实例。

XXX.uimap(f, *args, **kwds) #XXX.imap()的无序版本(不会按照调用顺序返回，而是按照结束顺序返回)，返回迭代器实例。XXX为进程池实例。

def f(a, b):
pass
pool = pathos.multiprocessing.Pool()
result = pool.uimap(f, a_seq, b_seq)
pool.close()
pool.join()
for item in result:
pass

2、映射multiprocess模块的多进程方法(pathos.multiprocessing.Pool)

(1)建立进程池

pathos.multiprocessing.Pool(processes=None, initializer=None, initargs=(), maxtasksperchild=None, context=None) #建立multiprocess的进程池。

processes ：使用的工作进程的数量，如果processes是None那么使用 os.cpu_count()返回的数量。

initializer：如果initializer不是None，那么每一个工作进程在开始的时候会调用initializer(*initargs)。

maxtasksperchild：工作进程退出之前可以完成的任务数，完成后用一个新的工作进程来替代原进程，来让闲置的资源被释放。maxtasksperchild默认是None，意味着只要Pool存在工作进程就会一直存活。

context: 用在制定工作进程启动时的上下文，一般使用 multiprocess.Pool() 或者一个context对象的Pool()方法来创建一个池，两种方法都适当的设置了context。

(2)创建子进程

该进程池对应的创建子进程方法与multiprocess.Pool()(也即multiprocessing.Pool())完全相同。

3、映射pp模块的多进程方法1(pathos.pools.ParallelPool、pathos.pp.ParallelPool、pathos.pp.ParallelPythonPool、pathos.parallel.ParallelPythonPool、pathos.parallel.ParallelPool)

(1)建立进程池
pathos.pp.ParallelPool(*args, **kwds) #建立映射pp模块方法的进程池，返回pathos.parallel.ParallelPool实例。注意，建立的进程池的方法与pp模块完全不同。
pathos.pp.ParallelPythonPool(*args, **kwds) #等价pathos.pp.ParallelPool()。
pathos.pools.ParallelPool(*args, **kwds) #等价pathos.pp.ParallelPool()。
pathos.parallel.ParallelPool(*args, **kwds) #等价pathos.pp.ParallelPool()。
pathos.parallel.ParallelPythonPool(*args, **kwds) #等价pathos.pp.ParallelPool()。
nodes：workers的数量。如果不指定nodes，则自动检测processors的数量(即ncpus)。
ncpus：worker processors的数量。
servers：worker servers的列表。
scheduler：相应的scheduler。
workdir：用于scratch calculations/files的$WORKDIR。
scatter：如为True，表示采用scatter-gatter(默认为worker-pool)。
source：如为False，表示尽可能少使用TemporaryFiles。
timeout：等待scheduler返回值的时间。

(2)创建子进程

该进程池对应的创建子进程方法与pathos.multiprocessing.ProcessPool()完全相同(与pp模块完全不同)。

注意，multiprocessing.Pipe()或multiprocess.Pipe()建立的管道对象无法传入子进程(可能是pickle错误)。但是，ParallelPool进程池中，子进程print函数可以直接输出到标准输出，因此也不必通过管道将信息传递到主进程了。但是，子进程print输出的格式经常出现异常，最好还是通过返回值在主进程输出。

而且，amap方法是个特例。amap方法中，如果子进程有print语句，会导致返回结果不对，只包含最后一个子进程返回值的tuple，而不是所有子进程的返回值组成完整list，原因暂不清楚。因此，amap方法中，子进程需要输出的内容只能通过返回值在主进程输出。

4、映射pp模块的多进程方法2(pathos.pp.pp模块)

该方法实质就是pp模块。

5、映射python内置map函数的方法(pathos.serial.SerialPool、pathos.pools.SerialPool)

该类方法实际是串行(非并行)，不做具体介绍。

SerialPool建立的进程池实际只能用pipe、map、imap方法(均是阻塞的)，不能使用apipe、amap、uimap方法。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。