Python 进程与进程池

转载

mb5fe18f0f5c8c6 2019-12-26 14:26:00

1、进程池介绍

　　开多进程的目的是为了并发，如果有多核，通常有几个核就开几个进程，进程开启过多，效率反而会下降（开启进程是需要占用系统资源的，而且开启多余核数目的进程也无法做到并行），但很明显需要并发执行的任务要远大于核数，这时我们就可以通过维护一个进程池来控制进程数目，比如httpd的进程模式，规定最小进程数和最大进程数。

　　当被操作对象数目不大时，可以直接利用multiprocessing中的Process动态成生多个进程，十几个还好，但如果是上百个，上千个目标，手动的去限制进程数量却又太过繁琐，此时可以发挥进程池的功效。而且对于远程过程调用的高级应用程序而言，应该使用进程池，Pool可以提供指定数量的进程，供用户调用，当有新的请求提交到pool中时，如果池还没有满，那么就会创建一个新的进程用来执行该请求；但如果池中的进程数已经达到规定最大值，那么该请求就会等待，直到池中有进程结束，就重用进程池中的进程。在利用Python进行系统管理的时候，特别是同时操作多个文件目录，或者远程控制多台主机，并行操作可以节约大量的时间。

2、进程池使用

2.1 进程池方式一：

　　　　 同步调用：

Python 进程与进程池_子进程

from multiprocessing import Pool
import os,time

def work(n):
    print('{} run'.format(os.getpid()))
    time.sleep(1)
    return n ** 2   # ret

if __name__ == '__main__':
    p = Pool(3) # 创建3个进程
    res_1 = []
    for i in range(20):
        res = p.apply(work,args=(i,))
        '''同步调用，直到本次任务执行完毕拿到res，等待任务work执行的过程中可能有阻塞也可能没有阻塞，
        但不管该任务是否存在阻塞，同步调用都会在原地等着，只是等的过程中若是任务发生了阻塞就会被夺走cpu的执行权限;
        个人理解：程序判断两个子程序执行的间隔时间，过长则判断存在阻塞，届时夺走上次进程ID的使用权限，从进程池分配新的进程ID'''
        res_1.append(res)
    print(res_1)

Python 进程与进程池_子进程

　　　　异步调用：

Python 进程与进程池_子进程

from multiprocessing import Pool
import os,time
def work(n):
    print('%s run' %os.getpid())
    time.sleep(3)
    return n**2

if __name__ == '__main__':
    p=Pool(3) #进程池中从无到有创建三个进程,以后一直是这三个进程在执行任务
    res_l=[]
    for i in range(10):
        print(i)  # for循环会提前运行完毕，进程池内的任务还未执行。
        res=p.apply_async(work,args=(i,)) #同步运行,阻塞、直到本次任务执行完毕拿到res
        res_l.append(res)   #将调用apply_async方法，得到返回进程内存地址结果

    #异步apply_async用法：如果使用异步提交的任务，主进程需要使用join，等待进程池内任务都处理完，然后可以用get收集结果，
    # 否则，主进程结束，进程池可能还没来得及执行，也就跟着一起结束了
    p.close()
    p.join()
    for res in res_l:
        print(res.get()) #使用get来获取apply_aync的结果,如果是apply,则没有get方法,因为apply是同步执行,立刻获取结果,也根本无需get

Python 进程与进程池_子进程

　　　　apply_sync和apply方法

Python 进程与进程池_子进程

# apply_async方法
from multiprocessing import Process,Pool
import time

def func(msg):
    print( "msg:", msg)
    time.sleep(1)
    return msg

if __name__ == "__main__":
    pool = Pool(processes = 3)
    res_l=[]
    for i in range(10):
        print(i)
        msg = "hello %d" %(i)
        res=pool.apply_async(func, (msg, ))   #维持执行的进程总数为processes，当一个进程执行完毕后会添加新的进程进去
        res_l.append(res)   # 将apply_async方法得到的内存地址结果加入列表
    print("==============================>") #没有后面的join，或get，则程序整体结束，进程池中的任务还没来得及全部执行完
    # 也都跟着主进程一起结束了

    pool.close() #关闭进程池，防止进一步操作。如果所有操作持续挂起，它们将在工作进程终止前完成
    pool.join()   #调用join之前，先调用close函数，否则会出错。执行完close后不会有新的进程加入到pool,join函数等待所有子进程结束

    print(res_l) #看到的是<multiprocessing.pool.ApplyResult object at 0x10357c4e0>对象组成的列表,而非最终的结果,但这一步
    # 是在join后执行的,证明结果已经计算完毕,剩下的事情就是调用每个对象下的get方法去获取结果
    for i in res_l:
        print(i.get()) #使用get来获取apply_aync的结果,如果是apply,则没有get方法,因为apply是同步执行,立刻获取结果,也根本无需get


#apply方法
from multiprocessing import Process,Pool
import time

def func(msg):
    print( "msg:", msg)
    time.sleep(0.1)
    return msg

if __name__ == "__main__":
    pool = Pool(processes = 3)
    res_l=[]
    for i in range(10):
        msg = "hello %d" %(i)
        res=pool.apply(func, (msg, ))   #维持执行的进程总数为processes，当一个进程执行完毕后会添加新的进程进去
        res_l.append(res) #同步执行，即执行完一个拿到结果，再去执行另外一个
    print("==============================>")
    pool.close()
    pool.join()   #调用join之前，先调用close函数，否则会出错。执行完close后不会有新的进程加入到pool,join函数等待所有子进程结束

    print(res_l) #看到的就是最终的结果组成的列表
    for i in res_l: #apply是同步的，所以直接得到结果，没有get()方法
        print(i)

Python 进程与进程池_子进程

　　　　map方法

Python 进程与进程池_子进程

#map
import os,time
from multiprocessing import Pool

def func(i):
    time.sleep(1)
    print('子进程{}'.format(os.getpid()))
    return i

if __name__ == '__main__':
    p = Pool(5)
    ret = p.map(func,range(10)) # func(next(range(10)))
    print(ret)

Python 进程与进程池_子进程

2.2 concurrent.futures 模块实现‘池’

　　　　同步调用：

Python 进程与进程池_子进程

# #同步调用：提交/调用一个任务，然后就在原地等着，等到该任务执行完毕拿到结果，再执行下一行代码
from concurrent.futures import ProcessPoolExecutor
import time

def save_test(name,n):
    n = n+1
    time.sleep(n)
    print("{}的名字次数为{}".format(name,n))
    return n


if __name__ == '__main__':
    start = time.time()
    ex = ProcessPoolExecutor(max_workers=3)
    lista = ["Tom","Jerry","XiaoHua","Ming"]

    for i,j in enumerate(lista):
        #存在两个以上的参数时，直接用逗号隔开，不需要用括号
        task = ex.submit(save_test,j,i).result()
        print(task)
    #ex.shutdown(wait=True)是进程池内部的进程都执行完毕，才会关闭，然后执行后续代码
    ex.shutdown(wait=True)
    print("主进程直接运行")
    stop = time.time()
    print(stop-start)

Python 进程与进程池_子进程

　　　　异步调用：

Python 进程与进程池_子进程

#异步调用: 提交/调用一个任务，不在原地等着，直接执行下一行代码
from concurrent.futures import ProcessPoolExecutor
import time

def save_test(name,n):
    n = n+1
    time.sleep(n)
    print("{}的名字次数为{}".format(name,n))
    return n


if __name__ == '__main__':
    obj = list()
    start = time.time()
    ex = ProcessPoolExecutor(max_workers=3)
    lista = ["letme","Mlxg","XiaoHu","Ming"]

    for i,j in enumerate(lista):
        #存在两个以上的参数时，直接用逗号隔开，不需要用括号
        task = ex.submit(save_test,j,i)
        obj.append(task)
    #ex.shutdown(wait=True)是进程池内部的进程都执行完毕，才会关闭，然后执行后续代码
    ex.shutdown(wait=True)
    print("主进程直接运行")
    for i in obj:
        print(i.result())
    stop = time.time()
    print(stop-start)

Python 进程与进程池_子进程

　　　　map方法使用

Python 进程与进程池_子进程

from concurrent.futures import ProcessPoolExecutor

import urllib.request
URLS = ['http://www.163.com', 'https://www.baidu.com/', 'https:///']


def load_url(url):
    with urllib.request.urlopen(url, timeout=60) as conn:
        print('%r page is %d bytes' % (url, len(conn.read())))


if __name__ == '__main__':
    executor = ProcessPoolExecutor(max_workers=3)
    executor.map(load_url,URLS)
    print('主进程')

Python 进程与进程池_子进程

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。