python 多线程批量 python 多线程 gil

转载

mob6454cc749e02 2024-01-25 21:56:53

文章标签 python 多线程批量 python多线程原理 Python 多线程构造函数 文章分类 Python 后端开发

Python多线程与多进程

Python

一句话概括本文：

引言：

关于Python中的GIL锁

概念：

全局解释器锁，用于同步线程的一种机制，使得任何时候仅有一个线程在执行。

GIL 并不是Python的特性，只是在实现Python解析器(CPython)时引入的

一个概念。换句话说，Python完全可以不依赖于GIL。

Python解释器进程内的多线程是以协作多任务方式执行的，当一个线程遇到

I/O操作时会释放GIL。而依赖CPU计算的线程则是执行代码量到一定的阀值，

才会释放GIL。而在Python 3.2开始使用新的GIL，使用固定的超时时间来指示

当前线程放弃全局锁，就是：当前线程持有这个锁，且其他线程请求这个锁时，

当前线程就会再5毫秒后被强制释放掉该锁。

多线程在处理CPU密集型操作因为各种循环处理计数等，会很快达到阀值，

而多个线程来回切换是会消耗资源的，所以多线程的效率往往可能还比不上

单线程！而在多核CPU上效率会更低，因为多核环境下，持有锁的CPU释放锁后，

其他CPU上的线程都会进行竞争，但GIL可能马上又会被之前的CPU拿到拿到，

导致其他几个CPU上被唤醒后的线程会醒着等待到切换时间后又进入待调度

状态，从而造成线程颠簸(thrashing)，导致效率更低。

问题：因为GIL锁的原因，对于CPU密集型操作，Python多线程就是鸡肋了？

答：是的！尽管多线程开销小，但却无法利用多核优势！可以使用

多进程来规避这个问题，Python提供了multiprocessing

这个跨平台的模块来帮助我们实现多进程代码的编写。

每个线程都有自己独立的GIL，因此不会出现进程间GIL

锁抢夺的问题，但是也增加程序实现线程间数据通讯和同步

是的成本，这个需要自行进行权衡。

另外还是得强调下，GIL只会影响到那些严重依赖CPU的程序，

对于网络交互这种涉及到IO的，使用多线程就很合适，写爬虫用到

多进程，一般是在部署分布式爬虫的时候才会用到。

threading模块

1.threaing模块提供的可直接调用函数active_count()：获取当前活跃(alive)线程的个数；

current_thread()：获取当前的线程对象；

get_ident()：返回当前线程的索引，一个非零的整数；(3.3新增)

enumerate()：获取当前所有活跃线程的列表；

main_thread()：返回主线程对象，(3.4新增)；

settrace(func)：设置一个回调函数，在run()执行之前被调用；

setprofile(func)：设置一个回调函数，在run()执行完毕之后调用；

stack_size()：返回创建新线程时使用的线程堆栈大小；

threading.TIMEOUT_MAX：堵塞线程时间最大值，超过这个值会栈溢出！

2.线程局部变量(Thread-Local Data)

threading.local()实例化一个全局对象，不同线程可以往里面保存数据，

互不干扰。实现原理是该对象内部用一个大字典，保存键值为两个

弱引用对象，{线程对象，字典对象}，通过current_thread()获得当前

的线程对象，作为key以此拿到对应的字典对象。

# 线程局部变量使用示例
importthreading
importrandom
data=threading.local()
defshow(d):
try:
num=d.num
exceptAttributeError:
print("线程 %s 还未设置该属性！"%threading.current_thread().getName())
else:
print("线程 %s 中该属性的值为 = %s"%(threading.current_thread().getName(),num))
defthread_call(d):
show(d)
d.num=random.randint(1,100)
show(d)
if__name__=='__main__':
show(data)
data.num=666
show(data)
foriinrange(2):
t=threading.Thread(target=thread_call,args=(data,),name='Thread '+str(i))
t.start()

运行结果：

python 多线程批量 python 多线程 gil_构造函数

3.线程对象(threading.Thread)

使用threading.Thread创建线程，可以通过下面两种方法创建新线程：1.直接创建threading.Thread对象，并把调用对象作为参数传入；

2.继承threading.Thread类，重写run() 方法；

Thread类构造函数

python 多线程批量 python 多线程 gil_构造函数_02

参数依次是：group：线程组

target：要执行的函数

name：线程名字

args/kwargs：要传入的函数的参数

daemon：是否为守护线程

相关的属性与函数：start()：启动线程，只能调用一次；

run()：线程执行的操作，可继承Thread重写，参数可从args和kwargs获取；

join([timeout])：堵塞调用线程，直到被调用线程运行结束或超时；如果

没设置超时时间会一直堵塞到被调用线程结束。

name/getName()：获得线程名；

setName()：设置线程名；

ident：线程是已经启动，未启动会返回一个非零整数；

is_alive()：判断是否在运行，启动后，终止前；

daemon/isDaemon()：线程是否为守护线程；

setDaemon()：设置线程为守护线程；

4.Lock(指令锁)与RLock(可重入锁)

threading模块中提供了两个类来确保多线程共享资源的访问：Lock 和 RLock

用法一样，后者和前者的区别是可重入，即：RLock可被同一个线程请求多次。

锁分为两种状态(锁定与非锁定)，两个常用函数：acquire()加锁，release()解锁，

acquire()函数有两个可选参数，blocking=True[是否堵塞当前当前线程等待]，

timeout=None[堵塞等待时间]，如果成功获得锁acquire返回True，否则返回False，

超时也是返回False。

锁使用起来很简单，在访问共享资源的地方acquire一下，用完release下就好。

要注意，acquire与release需要成对出现，有多少个acquire，就要有多少个

release，才能真正释放锁！锁处于unlocked状态，调用release函数是会抛

RuntimeError异常的。

使用示例如下：

# Lock指令锁的使用示例
importthreading
importtime
importconfigasc
out_file_name=c.outputs_logs_path+'lockTest.txt'
lock=threading.Lock()
classMyThread(threading.Thread):
def__init__(self,string):
super().__init__()
self.string=string
defrun(self):
write_to_file(self.name+'~'+self.string)
time.sleep(1)
defwrite_to_file(string):
iflock.acquire():
try:
withopen(out_file_name,"a+",encoding='utf-8')asf:
f.write(string+'\n')
exceptOSErrorasreason:
print(str(reason))
finally:
lock.release()
if__name__=='__main__':
foriinrange(1,100):
t=MyThread(str(i)).start()

运行结果

写入文件结果不会出现这种乱序的情况：

python 多线程批量 python 多线程 gil_python 多线程批量_03

5.条件变量(Condition)

用于处理复杂线程同步问题，比如最经典的生产者与消费者问题

Condition除了提供与Lock类似的 acquire() 与 release()函数外，

还提供了 wait() 与 notify() 函数，使用流程如下：1.调用threading.Condition获得一个条件变量对象；

2.线程调用acquire获得Condition对象

3.条件判断，不满足条件调用wait函数；满足条件，进行一些处理改变条件后，

调用notify函数通知处于wait 状态的线程，重新进行条件判断。

Condition维护着一个互斥锁对象(默认是RLock)，也可以自己实例化一个

在Condition实例化的时候通过构造函数传入，so，调用的Condition的

acquire与release函数，其实调用就是这个锁对象的acquire与release函数。

除了这四个函数外还有其他函数，不过下述函数需要在acquire后才能

调用，否则会抛RuntimeError异常！！！wait(timeout=None)：释放锁，同时线程被挂起，直到收到通知被唤醒

或超时(如果设置了timeout)，当线程被唤醒并重新占有锁时，程序才继续执行；

wait_for(predicate, timeout=None)：等待知道条件为True，predicate应该是

一个回调函数，返回布尔值，timeout用于指定超时时间，返回值为回调函数

返回的布尔值，或者超时，返回False(3.2新增)；

notify(n=1)：默认唤醒一个正在的等待线程，notify并不释放锁！！！

notify_all()：唤醒所有等待线程，进入就绪状态，等待获得锁，notify_all 同样不释放锁！！！

使用示例如下：

# Condition条件变量使用示例(简单的生产者与消费者)
importthreading
importtime
condition=threading.Condition()
products=0# 商品数量
# 定义生产者线程类
classProducer(threading.Thread):
defrun(self):
globalproducts
whileTrue:
ifcondition.acquire():
ifproducts>=99:
condition.wait()
else:
products+=2
print(self.name+"生产了2个产品，当前剩余产品数为："+str(products))
condition.notify()
condition.release()
time.sleep(2)
# 定义消费者线程类
classConsumer(threading.Thread):
defrun(self):
globalproducts
whileTrue:
ifcondition.acquire():
ifproducts<3:
condition.wait()
else:
products-=3
print(self.name+"消耗了3个产品，当前剩余产品数为："+str(products))
condition.notify()
condition.release()
time.sleep(2)
if__name__=='__main__':
# 创建五个生产者线程
foriinrange(5):
p=Producer()
p.start()
# 创建两个消费者线程
forjinrange(2):
c=Consumer()
c.start()

运行结果：

python 多线程批量 python 多线程 gil_多线程_04

6.信号量(Semaphore)

定义一个值，即允许多少个线程同时访问，超过堵塞等待，

使用示例如下：

# 信号量Semaphore的使用示例
importthreading
importtime
importrandom
s=threading.Semaphore(5)# 粪坑
classHuman(threading.Thread):
defrun(self):
s.acquire()# 占坑
print("拉屎拉屎 - "+self.name+" - "+str(time.ctime()))
time.sleep(random.randrange(1,3))
print("拉完走人 - "+self.name+" - "+str(time.ctime()))
s.release()# 走人
if__name__=='__main__':
foriinrange(10):
human=Human()
human.start()

运行结果：

python 多线程批量 python 多线程 gil_构造函数_05

7.通用的条件变量(Event)

Python提供的用于线程间通信的信号标志，一个线程标识了一个事件，

其他线程处于等待状态，直到事件发生后，所有线程都会被激活。

Event对象实现了简单的线程通信机制，提供了设置信号，清除信号，

等待等用于线程间通信，有下述四个可供调用的方法：is_set()：判断内部标志是否为真

set()：设置信号标志为真

clear()：清除Event对象内部的信号标志(设置为false)

wait(timeout=None)：使线程一直处于堵塞，知道标识符变为True

使用示例如下：

# 通用的条件变量Event 使用示例
importthreading
importtime
importrandom
classCarThread(threading.Thread):
def__init__(self,event):
threading.Thread.__init__(self)
self.threadEvent=event
defrun(self):
# 休眠模拟汽车先后到达路口时间
time.sleep(random.randrange(1,10))
print("汽车 - "+self.name+" - 到达路口...")
self.threadEvent.wait()
print("汽车 - "+self.name+" - 通过路口...")
if__name__=='__main__':
light_event=threading.Event()
# 假设有20台车子
foriinrange(20):
car=CarThread(event=light_event)
car.start()
whilethreading.active_count()>1:
light_event.clear()
print("红灯等待...")
time.sleep(3)
print("绿灯通行...")
light_event.set()
time.sleep(2)

运行结果：

python 多线程批量 python 多线程 gil_Python_06

8.定时器Timer

与Thread类似，只是要等待一段时间后才会开始运行，单位秒。

使用示例如下：

# 定时器Timer使用示例
importthreading
importtime
defskill_ready():
print("!!!!!!大招已经准备好了!!!!!!")
if__name__=='__main__':
t=threading.Timer(5,skill_ready)
t.start()
whilethreading.active_count()>1:
print("======大招蓄力中======")
time.sleep(1)

运行结果：

python 多线程批量 python 多线程 gil_多线程_07

9.栅栏(Barrier)

多个线程间相互等待，调用了wait()方法的线程进入堵塞，

直到所有线程都调用了wait()方法，然后所有线程同时

进入就绪状态，等待调度运行。

构造函数：Barrier(parties,action=None,timeout=None)parties：创建一个可容纳parties条线程的栅栏；

action：全部线程被释放时可被其中一条线程调用的可调用对象；

timeout：线程调用wait()方法时没有显式设定timeout，就用的这个作为默认值；

相关函数：wait(timeout=None)：表示线程就位，返回值是一个0到parties-1之间的整数，

每条线程都不一样，这个值可以用作挑选一条线程做些清扫工作，另外如果你在

构造函数里设置了action的话，其中一个线程在释放之前将会调用它。如果调用

出错的话，会让栅栏进入broken状态，超时同样也会进入broken状态，如果栅栏

在处于broke状态的时候调用reset函数，会抛出一个BrokenBarrierError异常。

reset()：本方法将栅栏置为初始状态，即empty状态。所有已经在等待的线程

都会接收到BrokenBarrierError异常，注意当有其他处于unknown状态的线程时，

调用此方法将可能获取到额外的访问。因此如果一个栅栏进入了broken状态，

最好是放弃他并新建一个栅栏，而不是调用reset方法。

abort()：将栅栏置为broken状态。本方法将使所有正在等待或将要调用

wait()方法的线程收到BrokenBarrierError异常。本方法的使用情景为，比如：

有一条线程需要abort()，又不想给其他线程造成死锁的状态，或许设定

timeout参数要比使用本方法更可靠。

parites：将要使用本 barrier 的线程的数量

n_waiting：正在等待本 barrier 的线程的数量

broken：栅栏是否为broken状态，返回一个布尔值

BrokenBarrierError：RuntimeError的子类，当栅栏被reset()或broken时引发；

使用示例如下：

# 栅栏Barrier使用示例
importrandom
importthreading
importtime
classStaff(threading.Thread):
def__init__(self,barriers):
threading.Thread.__init__(self)
self.barriers=barriers
defrun(self):
print("员工 【"+self.name+"】"+"出门")
time.sleep(random.randrange(1,10))
print("员工 【"+self.name+"】"+"已签到")
self.barriers.wait()
defready():
print(threading.current_thread().name+"：人齐，出发，出发～～～")
if__name__=='__main__':
print("要出去旅游啦，大家快集合～")
b=threading.Barrier(10,action=ready,timeout=20)
foriinrange(10):
staff=Staff(b)
staff.start()

运行结果：

python 多线程批量 python 多线程 gil_多线程_08

queue模块

Python提供的一个线程安全的多生产者，多消费者队列，自带锁，

多线程并发数据交换必备。

1.内置三种类型的队列Queue：FIFO(先进先出)；

LifoQueue：LIFO(后进先出)；

PriorityQueue：优先级最小的先出；

构造函数一样，都是只有一个maxsize=0，用于设置队列的容量，

如果设置的maxsize小于1，则表示队列的长度无限长。

2.两个异常：Queue.Empty：当调用非堵塞的get()获取空队列元素时会引发；

Queue.Full：当调用非堵塞的put()满队列里添加元素时会引发；

3.相关函数qsize()：返回队列的近似大小，注意：qsize()> 0不保证随后的get()不会

阻塞也不保证qsize() < maxsize后的put()不会堵塞；

empty()：判断队列是否为空，返回布尔值，如果返回True，不保证后续

调用put()不会阻塞，同理，返回False也不保证get()调用不会被阻塞；

full()：判断队列是否满，返回布尔值如果返回True，不保证后续

调用get()不会阻塞，同理，返回False也不保证put()调用不会被阻塞；

put(item, block=True, timeout=None)：往队列中放入元素，如果block

为True且timeout参数为None(默认)，为堵塞型put()，如果timeout是

正数，会堵塞timeout时间并引发Queue.Full异常，如果block为False则

为非堵塞put()

put_nowait(item)：等价于put(item, False)，非堵塞put()

get(block=True, timeout=None)：移除一个队列元素，并返回该元素，

如果block为True表示堵塞函数，block = False为非堵塞函数，如果设置

了timeout，堵塞时最多堵塞超过多少秒，如果这段时间内没有可用的

项，会引发Queue.Empty异常，如果为非堵塞状态，有数据可用返回数据

无数据立即抛出Queue.Empty异常；

get_nowait()：等价于get(False)，非堵塞get()

task_done()：完成一项工作后，调用该方法向队列发送一个完成信号，任务-1；

join()：等队列为空，再执行别的操作；

代码示例如下：

# 队列queue使用示例
importthreading
importqueue
importtime
classWorker(threading.Thread):
def__init__(self,t_name):
threading.Thread.__init__(self,name=t_name)
defrun(self):
globalm_queue
whilenotm_queue.empty():
d=m_queue.get()
print("处理任务%d"%d)
time.sleep(2)
m_queue.task_done()
if__name__=='__main__':
m_queue=queue.Queue()
threads=[]
data_list=[iforiinrange(0,100)]
fordataindata_list:
m_queue.put(data)
foriinrange(0,len(data_list)):
t=Worker(t_name='线程'+str(i))
t.daemon=True
t.start()
threads.append(t)
m_queue.join()
fortinthreads:
t.join()
print("所有任务完成")

运行结果：(每个线程休眠2s模拟做网络操作，100个任务多线程并发一会儿就完成了～)

python 多线程批量 python 多线程 gil_构造函数_09