python自2.6开始提供了多进程模块multiprocessing,进程池使用multiprocessing.pool,pool的构造如下:

multiprocessing.Pool([processes[, initializer[, initargs[, maxtasksperchild]]]]) 

 


processes表示pool中进程的数目,默认地为当前CPU的核数。



initializer表示新进程的初始化函数。

initargs表示新进程的初始化函数的参数。


maxtasksperchild表示每个进程执行task的最大数目(该参数解释见python 进程池1 - Pool使用简介)。

 

Pool相关函数

1、apply(func[, args[, kwds]]) 
apply用于传递不定参数,同python中的apply函数一致(不过内置的apply函数从2.3以后就不建议使用了),主进程会阻塞于函数。

主进程的执行流程同单进程一致。

 

2、apply_async(func[, args[, kwds[, callback]]]) 
与apply用法一致,但它是非阻塞的且支持结果返回后进行回调。

result.get()会阻塞主进程。
如果我们对返回结果不感兴趣, 那么可以在主进程中使用pool.close与pool.join来防止主进程退出。注意join方法一定要在close或terminate之后调用。


3、map(func, iterable[, chunksize]) 
map方法与在功能上等价与内置的map(),只不过单个任务会并行运行。它会使进程阻塞直到结果返回。
但需注意的是其第二个参数虽然描述的为iterable, 但在实际使用中发现只有在整个队列全部就绪后,程序才会运行子进程。 


4、map_async(func, iterable[, chunksize[, callback]]) 
与map用法一致,但是它是非阻塞的。其有关事项见apply_async。


5、imap(func, iterable[, chunksize]) 
与map不同的是, imap的返回结果为iter,需要在主进程中主动使用next来驱动子进程的调用。即使子进程没有返回结果,主进程对于gen_list(l)的 iter还是会继续进行, 另外根据python2.6文档的描述,对于大数据量的iterable而言,将chunksize设置大一些比默认的1要好。
   for x in pool.imap(pool_test, gen_list(l)):
       pass


6、imap_unordered(func, iterable[, chunksize]) 
同imap一致,只不过其并不保证返回结果与迭代传入的顺序一致。


7、close() 
关闭pool,使其不再接受新的任务。


8、terminate() 
结束工作进程,不再处理未处理的任务。


9、join() 
主进程阻塞等待子进程的退出, join方法要在close或terminate之后使用。