1. 简介

在多线程应用中,某个资源被多个线程共享访问,线程通过使用锁独占该资源。需要独占访问的资源可能是:

  • 打印机,线程在使用打印机时,不允许其它线程向打印机输出
  • 共享变量,线程对这个变量进行读取访问时,不允许其它线程同时对这个变量进行读取访问

python 的 threading 模块提供了类 Lock 用于独占访问某个共享资源,类 Lock 提供了如下方法:

方法

功能

acquire()

获得锁,如果锁是空闲的,则立即返回;如果锁已经被其它线程占用了,则阻塞等待。

release()

释放锁,唤醒等待该锁的线程。

线程在独占使用某个资源前,需要调用 lock.acquire() 方法,使用完毕后,需要调用 lock.release() 方法,如下所示:

lock = threading.Lock()

lock.acquire()
独占访问某个资源
lock.release()

2. 数据竞争

当多个线程在读写某个共享变量时,其最终的结果依赖于线程的执行顺序,这种现象被称为数据竞争,示例如下:

import threading

sum = 0
tmp = 0
  • 引入模块 threading
  • 设定全局变量 sum 和 tmp 的初值为 0,它们被线程共享访问
def thread_entry():
    global sum, tmp

    for i in range(1000 * 1000):
        tmp = sum + 1
        sum = tmp
  • 在第 1 行,定义线程入口 thread_entry
  • 在第 2 行,声明共享变量 sum 和 tmp
  • 在第 4 行,for 循环 1000* 1000 次,递增变量 sum
t0 = threading.Thread(target = thread_entry, args = ())
t1 = threading.Thread(target = thread_entry, args = ())
t0.start()
t1.start()
t0.join()
t1.join()
print('sum =', sum)
  • 创建线程 t0,线程入口为 thread_entry
  • 线程 t0 对变量 sum 递增 1000 * 1000 次
  • 创建线程 t1,线程入口为 thread_entry
  • 线程 t1 对变量 sum 递增 1000 * 1000 次
  • 等待两个线程结束后,打印 sum 的值
  • 线程 t0 对变量 sum 递增 1000 * 1000 次
  • 线程 t1 对变量 sum 递增 1000 * 1000 次

第一次运行程序,输出结果如下:

sum = 1464661

再次运行程序,输出结果如下:

sum = 1415592

线程 t0 和 t1 对 sum 各自递增 1000 * 1000 次,期望最终的 sum 为 2 * 1000 * 1000。然而,线程 t0 和 线程 t1 共享访问变量 sum 和 tmp,存在数据竞争,导致:

  • 实际结果依赖于线程的执行顺序,每次执行程序的输出结果都不一样
  • 实际结果和预期不一致

3. 使用 lock 防止数据竞争

可以使用 threading 模块的类 Lock 防止数据竞争,示例如下:

import threading

sum = 0
tmp = 0

def thread_entry():
    global sum, tmp

    for i in range(1000 * 1000):
        lock.acquire()  # 获取锁
        tmp = sum + 1
        sum = tmp
        lock.release()  # 释放锁

lock = threading.Lock() # 初始化锁
t0 = threading.Thread(target = thread_entry, args = ())
t1 = threading.Thread(target = thread_entry, args = ())
t0.start()
t1.start()
t0.join()
t1.join()
print('sum =', sum)

和上个小节的例子相比,增加了 3 行代码 (使用注释标记):

  • lock.acquire(),访问共享变量 sum 和 tmp 前,需要获取锁
  • lock.release(),访问共享变量 sum 和 tmp 后,需要释放锁
  • lock = thread.Lock(),初始化锁

第一次运行程序,输出结果如下:

sum = 200000

再次运行程序,输出结果如下:

sum = 200000

线程 t0 和 t1 对 sum 各自递增 1000 * 1000 次,期望最终的 sum 为 2 * 1000 * 1000。使用了 lock 防止了数据竞争:

  • 每次执行程序的输出结果都是相同的
  • 实际结果和期望结果相符合