Python并发及网络编程进阶

精选原创

临渊_韩志超 2023-11-17 11:05:49 ©著作权

文章标签 多线程多进程系统资源 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者临渊_韩志超的原创作品，请联系作者获取转载授权，否则将追究法律责任

案例引入

假如你们一家已上市的电商公司，在元旦来临前夕，领导需要你模拟用户，通过接口生成10万笔新订单。你该如何处理?

方案探索

串行: 多个任务逐个执行的过程，上个任务执行完成前，阻塞下一个任务执行。
并发:多个任务交替执行的过程，这些任务可能在同一时间段内执行，但是它们的执行时间可能会重叠。
并行：多个任务同时执行的过程，这些任务在同一时间段内执行，它们的执行时间不会重叠。

Python并发及网络编程进阶_系统资源

Python中的多任务处理

串行
多线程 / 线程池
多进程 / 进程池
协程

Python并发及网络编程进阶_多进程_02

多线程

多线程是指在一个进程中并发运行多个独立的任务，每个任务称为一个线程，线程之间共享该进程中的变量、内存等资源。
多线程可以充分利用单个CPU的处理能力，提高程序的并发性和响应速度，同时也可以避免阻塞和等待的问题。

如何使用多线程

编写任务函数：def get(url): pass
创建线程对象：t = Thread(target=get)
启动线程：t.start()
连接到主线程：t.join()

from threading import Thread
import requests

def get(url):
    res = requests.get(url)
    print(res.text)
    return res

t = Thread(target=task, args=('https://postman-echo.com/get',))
t.start()
t.join()     # 阻塞当前线程(主线程)，等待t线程执行结束

threads = []

for i in range(10):
    t = threading.Thread(target=task, args=(('https://postman-echo.com/get',))
    threads.append(t)
    t.start()

for i in range(10):
    t.join()

Thread对象属性及方法

初始化参数

group：线程组（暂无功能）。
target：目标函数（必填）。
name：线程名。
args: 目标函数位置参数（元祖类型）。
kwargs：目标函数关键字参数（字典类型）。
daemon：是否作作为守护线程（如果主线程结束，守护线程将立即结束，布尔类型）。

线程相关方法

start()：启动一个独立的线程运行自身的run方法。
run()：根据target、args及kwargs调用目标函数。
join()：阻塞当前(主)线程，等待自身执行结束。
is_alive()：线程是否Ready状态。

Python并发及网络编程进阶_多线程_03

线程状态

新建（New）：当线程对象被创建时，线程处于新建状态。
就绪（Ready）：当线程调用start()方法后，线程处于就绪状态，等待CPU调度执行。
运行（Running）：当线程被CPU调度执行时，线程处于运行状态。
阻塞（Blocked）：当线程等待某个事件（如I/O操作）完成时，线程处于阻塞状态。
死亡（Dead）：当线程执行完毕或者出现异常时，线程处于死亡状态。

Python并发及网络编程进阶_多进程_04

线程状态

可以通过is_alive()方法来获取线程的状态，如果线程处于就绪、运行或阻塞状态，is_alive()方法返回True，否则返回False。

import time
from threading import Thread
import requests

def get(url):
    res = requests.get(url)
    print(res.text)
    return res


thread = Thread(target=get, args=('https://postman-echo.com/get',))
print('未启动时:', thread.is_alive())

thread.start()
print('启动后:', thread.is_alive())

thread.join()
print('运行结束后:', thread.is_alive())

获取线程执行结果

from threading import Thread

class MyThread(Thread):
    def __init__(self, group=None, target=None, name=None,
                 args=(), kwargs=None, *, daemon=None):
        super(MyThread, self).__init__(group, target, name, args, kwargs, daemon=daemon)
        self.result = None  # 新增一个属性用于记录函数调用结果

    def run(self):
        try:
            if self._target:
                self.result = self._target(*self._args, **self._kwargs)  # 记录函数调用结果
        finally:
            del self._target, self._args, self._kwargs

def get(url): ...

threads = [MyThread(target=get, args=('...',)) for i in range(10)]
[t.start() for t in threads]
[t.join() for t in threads]
results = [t.result for t in threads]  # 获取所有线程结果

线程池

在Python中，使用线程池可以预先创建一定数量的线程，并将任务分配给这些线程执行，从而避免了线程创建和销毁的开销，提高了程序的响应速度。

from concurrent.futures import ThreadPoolExecutor, as_completed


pool = ThreadPoolExecutor(max_workers=5)  # 新建线程池执行器

tasks = []
for i in range(10):
    task = pool.submit(task)  # 提交任务
    tasks.append(task)

for task in as_completed(tasks):  # 等待全部结束
    print(task.result())

pool.shutdown()  # 关闭线程池

Python并发及网络编程进阶_系统资源_05

线程锁

不带锁

在使用多线程并发修改共享资源时，可能存在数据被覆盖或丢失的问题。

from threading import Thread

class Counter:
    def __init__(self):
        self.value = 0

    def increase(self):
        self.value += 1

def worker(counter):
    for i in range(100000):
        counter.increase()

counter = Counter()
threads = []
for i in range(10):
    t = Thread(target=worker, args=(counter,))
    threads.append(t)
    t.start()
for t in threads:
    t.join()
print(counter.value)

带锁
在涉及并发修改的多线程编程中，一般需要使用锁等机制来保护共享资源，以避免并发访问导致的问题。

from threading import Thread, Lock

class Counter:
    def __init__(self):
        self.value = 0
        self.lock = Lock()  # 新建一个同步锁

    def increase(self):
        self.lock.acquire()  # 请求锁
        self.value += 1
        self.lock.release()  # 释放锁

常用线程锁

在Python的threading模块中，有多种线程锁可以用来保证线程安全。

Lock：同步锁，可以用来保证同一时间只有一个线程可以访问共享资源。当一个线程获取到锁时，其他线程必须等待该线程释放锁后才能获取锁。
RLock：可重入锁（递归锁），可以被同一个线程多次获取，避免死锁。当一个线程获取到锁时，可以多次获取锁，但必须释放相同次数的锁才能释放锁。
vSemaphore**：信号量，可以用来控制同时访问共享资源的线程数量。当信号量的值为1时，只有一个线程可以访问共享资源，当信号量的值大于1时，多个线程可以同时访问共享资源。
Event：事件锁，可以用来实现线程间的通信。当一个线程等待事件时，它会被阻塞，直到另一个线程设置了该事件。
Condition：条件锁，可以用来实现线程间的协调。当一个线程等待条件变量时，它会被阻塞，直到另一个线程通知了该条件变量。

重入锁

当同一线程需要多次操作不同的修改时，使用RLock可以避免重复获取锁。

from threading import Thread, RLock

class Counter:
    def __init__(self):
        self.value = 0
        self.lock = RLock()  # 新建一个同步锁
    def increase(self):
        with self.lock:
            self.value += 1
    def decrease(self):
        with self.lock:
            self.value -= 1
def worker(counter):
    for i in range(100000):
        counter.increase()
        counter.decrease()
       
counter = Counter()
threads = []
for i in range(10):
    t = Thread(target=worker, args=(counter,))
    threads.append(t)
    t.start()

for t in threads:
    t.join()
print(counter.value)

信号量

信号量Semaphore的常见作用是控制并发量（同时运行的线程数）。

from threading import Thread, Semaphore
import requests

def get(url, semaphore):
    semaphore.acquire()
    res = requests.get(url)
    print(res.text)
    semaphore.release()
    return res

semaphore = Semaphore(5)  # 创建Semaphore对象，初始并发5
threads = []
for i in range(10):
    t = Thread(target=get, args=('https://postman-echo.com/get', semaphore))
    threads.append(t)
    t.start()
for t in threads:
    t.join()

事件锁

当线程中需要等待一些资源，或者需要设置集合点时，可以用Event进行触发。

import threading
import requests

def get(url, event):
    event.wait()  # 等待事件
    res = requests.get(url)
    print(res.text)
    return res

event = threading.Event()
threads = []
for i in range(10):
    t = threading.Thread(target=get, args=('https://postman-echo.com/get', event))
    threads.append(t)
    t.start()
print('现在开始')
event.set()  # 发送事件
for t in threads:
    t.join()

条件锁

当线程中需要更加复杂的一些条件时，可以使用Condition条件锁。在线程的操作影响到条件时，可以使用notify()来通知等待该条件的线程，来检查是否条件已达到。

from threading import Thread, Lock, Condition, current_thread

class Counter:
    def __init__(self):
        self._value = 0
        self._lock = Lock()
        self._condition = Condition(self._lock)
    def increment(self):
        with self._lock:
            self._value += 1
            self._condition.notify()

    def wait_until(self, target):
        with self._condition:
            while self._value < target:
                self._condition.wait()

    def value(self):
        with self._lock:
            return self._value

def worker(counter):
    for i in range(10):
        counter.increment()
        print(f"Worker {current_thread().name} incremented counter to {counter.value()}")
    counter.wait_until(20)
    print(f"Worker {current_thread().name} reached target")

counter = Counter()
threads = []
for i in range(2):
    t = Thread(target=worker, args=(counter,))
    threads.append(t)
    t.start()

for t in threads:
    t.join()

print(counter.value())

Python全局GIL锁

GIL（全局解释器锁）是Python解释器中的一种机制，它可以保证同一时间只有一个线程可以执行Python字节码。
GIL锁的存在是为了保证Python解释器的线程安全，避免多个线程同时访问共享资源导致的数据竞争和锁竞争。

Python并发及网络编程进阶_多进程_06

生产者/消费者模式

生产者-消费者模式是一种常用的并发编程模式，它可以将一个程序分成多个生产者和消费者，并通过一个共享的缓冲区来实现它们之间的通信。

queue.Queue()，可以用来创建一个线程安全的队列，多个线程可以同时访问这个队列。
put()方法：添加元素，当队列已满时，put方法会阻塞线程，直到队列中有空间可供添加元素。
get()方法，获取元素。当队列为空时，get方法会阻塞线程，直到队列中有元素可供获取。

Python并发及网络编程进阶_多进程_07

生产者-消费者模式示例

import queue
import threading
import time


def producer(queue):
    for i in range(5):
        print(f'Producing {i}')
        queue.put(i)
        time.sleep(1)


def consumer(queue):
    while True:
        item = queue.get()
        if item is None:
            break
        print(f'Consuming {item}')
        time.sleep(2)


if __name__ == '__main__':
    q = queue.Queue(maxsize=3)
    p = threading.Thread(target=producer, args=(q,))
    c = threading.Thread(target=consumer, args=(q,))
    p.start()
    c.start()
    p.join()
    q.put(None)
    c.join()

多进程

进程是程序运行的基本单位，每个进程都享有独立的地址空间和系统资源。
多进程是指将一个程序分成多个进程并行执行，从而提高程序的性能和效率。多进程可以充分利用多核CPU的性能。

如何使用多进程

在Python中，可以使用multiprocessing模块来创建和管理多进程。
multiprocessing模块提供了多种创建和管理进程的方法，包括Process类、Pool类、Queue类等。
其中，Process类可以用来创建单个进程，Pool类可以用来创建进程池，Queue类可以用来实现进程间的通信。

from multiprocessing import Process
import requests

def get(url):
    res = requests.get(url)
    print(res.text)
    return res
def main():
    processes = []
    for i in range(10):
        p = Process(target=get, args=('http://postman-echo.com/get',))
        processes.append(p)
        p.start()
    for p in processes:
        p.join()

if __name__ == '__main__':
    main()

进程和线程的区别

资源占用：进程是系统分配资源的基本单位，包括内存、文件、网络等资源，每个进程都有独立的地址空间和系统资源。而线程是进程中的执行单元，共享进程的地址空间和系统资源，但是每个线程有独立的栈空间和程序计数器。
切换开销：进程切换的开销比线程切换的开销大，因为进程切换需要保存和恢复整个进程的状态，包括内存、寄存器、文件等。而线程切换只需要保存和恢复线程的栈空间和程序计数器。
通信方式：进程之间的通信需要使用进程间通信（IPC）机制，如管道、消息队列、共享内存等。而线程之间的通信可以直接访问共享变量或使用线程同步原语，如锁、信号量、条件变量等。
安全性：由于进程之间有独立的地址空间和系统资源，因此进程之间的数据不会相互影响，具有较高的安全性。而线程之间共享进程的地址空间和系统资源，因此线程之间的数据可能会相互影响，需要使用线程同步原语来保证数据的一致性和安全性。
创建和销毁：创建和销毁进程的开销比创建和销毁线程的开销大，因为进程需要分配和释放独立的地址空间和系统资源。而线程的创建和销毁比较轻量级，只需要分配和释放线程的栈空间和程序计数器。

多进程还是多线程

CPU密集型任务：如果应用程序需要进行大量的计算和处理，可以选择使用多进程。因为多进程可以充分利用多核CPU的性能，避免GIL（全局解释器锁）的限制，提高计算效率。
I/O密集型任务：如果应用程序需要进行大量的I/O操作，如读写文件、网络通信等，可以选择使用多线程。因为多线程可以避免I/O操作的阻塞，提高响应速度和吞吐量。
数据共享和协调任务：如果应用程序需要共享数据和协调任务，可以选择使用多线程或多进程。但是，多线程之间共享数据需要使用线程同步原语，如锁、信号量、条件变量等，以保证数据的一致性和安全性。而多进程之间共享数据需要使用进程间通信（IPC）机制，如管道、消息队列、共享内存等。
可移植性：如果应用程序需要在不同的操作系统上运行，可以选择使用多线程。因为多线程是基于操作系统的线程实现的，可以在不同的操作系统上运行。而多进程需要使用操作系统提供的进程间通信（IPC）机制，不同的操作系统可能有不同的实现方式和限制。
安全性和稳定性：如果应用程序需要更高的安全性和稳定性，可以选择使用多进程。因为每个进程都有独立的地址空间和系统资源，可以避免资源竞争和数据不一致的问题。而多线程共享进程的地址空间和系统资源，可能会导致数据不一致和安全性问题。
资源占用：如果应用程序需要占用大量的内存、文件、网络等系统资源，可以选择使用多进程。因为每个进程都有独立的地址空间和系统资源，可以避免资源竞争和数据不一致的问题。而多线程共享进程的地址空间和系统资源，可能会导致数据不一致和安全性问题。
可维护性：如果应用程序需要更好的可维护性和可扩展性，可以选择使用多线程。因为多线程可以共享代码和数据，减少代码冗余和维护成本。而多进程需要使用进程间通信（IPC）机制，增加了代码复杂度和维护成本。

进程池

在Python中，进程池是一种常用的并发编程技术，它可以预先创建一定数量的进程，并将任务分配给这些进程执行，从而避免了进程创建和销毁的开销，提高了程序的响应速度。
multiprocessing模块中的Pool类提供了apply方法、apply_async方法、map方法和map_async方法等，可以用来提交任务和批量提交任务。其中，apply方法和apply_async方法用于提交单个任务，map方法和map_async方法用于批量提交任务。

Python并发及网络编程进阶_多进程_08

进程池示例

相较与多线程或线程池，多进程或进程池的开销仍然相对较大，在处理I/O密集型任务（如网络请求）时性能并不太占优势。

from multiprocessing import Pool
import requests

def get(url):
    res = requests.get(url)
    print(res.text)
    return res
def main():
    results = []
    pool = Pool(processes=5)
    for i in range(10):
        result = pool.apply(get, args=('http://postman-echo.com/get',))
        results.append(result)
    print('Results:', results)

if __name__ == '__main__':
    main()

多进程通信

在Python中，可以使用多种方式实现进程间通信，包括：

管道（Pipe）：管道是一种双向通道，可以在两个进程之间传递数据。
多进程队列（Queue）：队列是一种多进程安全的数据结构，可以在多个进程之间传递数据
共享内存（Value和Array）：共享内存是一种多进程共享数据的方式，可以在多个进程之间共享同一块内存区域。
数据管理器（Manager）：数据管理器是一种多进程共享数据的方式，可以在多个进程之间共享同一整套数据。
套接字（Socket）：多个进程绑定不同的端口，基于TCP/UDP协议进行通信，甚至分布式跨主机通信。

管道

管道Pipe常用于两个进程之间一对一传递数据。

from multiprocessing import Process, Pipe

def worker(conn):
    conn.send('Hello')
    data = conn.recv()
    print('Received:', data)
    conn.close()

def main():
    parent_conn, child_conn = Pipe()
    p = Process(target=worker, args=(child_conn,))
    p.start()
    data = parent_conn.recv()
    print('Received:', data)
    parent_conn.send('World')
    p.join()

if __name__ == '__main__':
    main()

多进程队列

进程队列multiprocessing.Queue可以在多个进程对多个进程之间传递数据。

多进程队列和普通队列区别如下：

queue.Queue: 基于锁及条件锁实现，常用于多线程通信。
multiprocessing.Queue基于共享内存和进程锁实现，用于多个进程之间通信。

from multiprocessing import Process, Queue

def worker(queue):
    queue.put('Hello')
    data = queue.get()
    print('Received:', data)

def main():
    queue = Queue()
    p = Process(target=worker, args=(queue,))
    p.start()
    data = queue.get()
    print('Received:', data)
    queue.put('World')
    p.join()

if __name__ == '__main__':
    main()

共享内存

multiprocessing模块中的Value和Array对象和在多个进程之间共享单个变量或一组变量。

from multiprocessing import Process, Value, Array

def worker(num, value, array):
    value.value = num
    array[num] = num * 2

def main():
    value = Value('i', 0)
    array = Array('i', range(5))
    processes = [Process(target=worker, args=(i, value, array)) for i in range(5)]
    for p in processes:
        p.start()
    for p in processes:
        p.join()
    print('Value:', value.value)
    print('Array:', list(array))


if __name__ == '__main__':
    main()

数据管理器

multiprocessing模块的Manager类来实现进程间共享数据。Manager类提供了一个进程间共享的命名空间，可以在多个进程之间共享数据。

from multiprocessing import Process, Manager, current_process

def worker(d):
    d["count"] += 1
    print(f"Worker {current_process().name} updated count to {d['count']}")

def main():
    manager = Manager()
    d = manager.dict({"count": 0})
    processes = []
    for i in range(5):
        p = Process(target=worker, args=(d,))
        processes.append(p)
        p.start()
    for p in processes:
        p.join()
    print(f"Final count: {d['count']}")


if __name__ == "__main__":
    main()

套接字

multiprocessing模块的Manager类来实现进程间共享数据。Manager类提供了一个进程间共享的命名空间，可以在多个进程之间共享数据。

import socket
from multiprocessing import Process

def server():
    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    s.bind(('localhost', 6000))
    s.listen(1)
    conn, addr = s.accept()
    data = conn.recv(1024)
    print('Received:', data.decode())
    conn.sendall(b'World')
    conn.close()

def client():
    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    s.connect(('localhost', 6000))
    s.sendall(b'Hello')
    data = s.recv(1024)
    print('Received:', data.decode())
    s.close()

if __name__ == '__main__':
    p1 = Process(target=server)
    p2 = Process(target=client)
    p1.start()
    p2.start()
    p1.join()
    p2.join()

Master-Worker模式

Master-Worker模式是一种常用的并行计算模式，它可以将一个大任务分解成多个小任务，并将这些小任务分配给多个Worker节点并行执行，最后将结果汇总得到最终结果。
在Python中，可以使用multiprocessing模块来实现Master-Worker模式。

Python并发及网络编程进阶_系统资源_09

Master-Worker模式示例
在Master-Worker模式中，Master节点负责将任务分解成多个小任务，并将这些小任务分配给多个Worker节点执行。
Worker节点负责接收任务，执行任务，并将结果返回给Master节点。
Master节点收集所有Worker节点的结果，并将它们汇总得到最终结果。

from multiprocessing import Process, Queue, cpu_count

def worker(task_queue, result_queue):
    while True:
        task = task_queue.get()
        if task is None:
            break
        result = task * 2
        result_queue.put(result)

def master():
    tasks = [1, 2, 3, 4, 5]
    task_queue = Queue()
    result_queue = Queue()
    for task in tasks:
        task_queue.put(task)

    num_workers = cpu_count()
    workers = [Process(target=worker, args=(task_queue, result_queue)) for i in range(num_workers)]
    for w in workers:
        w.start()
    for w in workers:
        task_queue.put(None)
    for w in workers:
        w.join()

    results = []
    while not result_queue.empty():
        result = result_queue.get()
        results.append(result)
    print('Results:', results)

if __name__ == '__main__':
    master()

协程

协程（Coroutine）是一种轻量级的线程，也称为用户级线程或绿色线程。协程是一种特殊的函数，可以在执行过程中暂停并保存当前状态，然后在需要的时候恢复执行。协程可以在单线程中实现并发，可以提高程序的效率和响应速度。

如何使用协程

在Python中，可以使用asyncio模块来实现协程。
asyncio模块提供了async和await关键字，可以用来定义协程函数和协程对象。
协程函数是一种特殊的函数，它可以在执行过程中暂停并等待其他协程执行完毕后再继续执行。
协程对象是一种特殊的对象，它可以被调度器调度并执行。

Python并发及网络编程进阶_多进程_10

编写协程步骤：

定义任务(异步)函数：async def get(url): ...
定义主(异步)函数： async def main(): ...
使用await等待并自动切换执行函数。
使用 asyncio.run() 运行主(异步)函数。

示例-不收集结果

import aiohttp  # 需要pip install aiohttp
import asyncio

async def get(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as res:
            body = await res.text()
            print(body)
            return body

async def main():
    for i in range(10):
        await get('https://postman-echo.com/get')

if __name__ == '__main__':
    asyncio.run(main())

示例-搜集结果

import aiohttp  # 需要pip install aiohttp
import asyncio

async def get(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as res:
            body = await res.text()
            print(body)
            return body

async def main():
    tasks = [get('https://postman-echo.com/get') for _ in range(10)]
    results = await asyncio.gather(*tasks)
    print('Results:', results)

if __name__ == '__main__':
    asyncio.run(main())

协程并发量控制

协程的优势在于可以避免线程切换的开销，从而提高程序的性能。但是，如果协程数量过多，也会导致程序的性能下降。因此，需要控制协程的并发量，以充分利用系统资源，同时避免资源浪费。可以使用asyncio.Semaphore或asyncio.Queue来控制协程并发量。

import aiohttp  # 需要pip install aiohttp
import asyncio

async def get(url, semaphore):
    async with semaphore:
        async with aiohttp.ClientSession() as session:
            async with session.get(url) as res:
                body = await res.text()
                print(body)
                return body

async def main():
    semaphore = asyncio.Semaphore(5)
    tasks = [get('https://postman-echo.com/get', semaphore) for _ in range(10)]
    results = await asyncio.gather(*tasks)
    print('Results:', results)

if __name__ == '__main__':
    asyncio.run(main())

Python网络编程

Python提供了丰富的库和模块，用于进行网络编程。

常用的Python网络编程库和模块：

socket：底层的网络接口(套接字)。
sl: 为socket提供TLS/SSL加密。
socketserver : 基于socket的TCP服务器及UDP服务器。
urllib：URL处理及发送HTTP请求的功能。
http: 简单的HTTP服务端及客户端。
ftplib: FTP协议客户端。
poplib: POP3协议客户端。
imaplib: IMAP协议客户端。
smtplib：SMTP协议客户端。
xmlrpc: XML-RPC服务端及客户端。

Python TCP及UDP协议

在Python中，可以使用socket模块发送TCP和UDP协议

Python并发及网络编程进阶_多线程_11

sock = socket.socket(<family>, <type>)

family类型：

socket.AF_UNIX: sock文件
socket.AF_INET: IPv4
socket. AF_INET6: IPv6

type类型

socket. SOCK_STREAM: TCP连接
socket. SOCK_DGRAM: UDP连接

TCP服务端及客户端

使用socket

TCP服务端及客户端socket常用的方法：

bind(): 服务端绑定服务地址
accept() : TCP服务端接收消息，收到的是一个客户端socket链接和客户端地址
send(): TCP服务端使用客户端socket发送消息
recv(): TCP客户端接收消息
close()：关闭socket

# TCP服务端
import socket
IPv4, TCP = socket.AF_INET, socket.SOCK_STREAM
SERVER_ADDR = ('127.0.0.1', 9999)  # 服务端地址

with socket.socket(IPv4, TCP) as s:
    s.bind(SERVER_ADDR)  # 绑定服务地址
    s.listen(5)  # 设置监听数量

    while True:  # 循环接收消息
        client_socket, addr = s.accept()  # 接收消息
        print(f'连接的客户端地址: {addr}')
        msg = '欢迎客户端 {addr}'
        client_socket.send(msg.encode())
        client_socket.close()

# TCP客户端
import socket
IPv4, TCP = socket.AF_INET, socket.SOCK_STREAM
SERVER_ADDR = ('127.0.0.1', 9999)  # 服务端地址

with socket.socket(IPv4, TCP) as s:
    s.connect(SERVER_ADDR)  # 连接服务端
    msg = s.recv(1024)  # 客户端接收消息
    s.close()

print(msg.decode())

使用socketserver

也可以使用socketserver中的TCPServer来实现TCP服务端。不同的是你通过实现一个请求处理类(Handler)来处理请求，这个请求处理类应继承BaseRequestHandler，并实现handle方法。

Handler类中常用方法如下：

self.request.recv()：接收客户端数据
self.client_address：客户端地址及端口号
self.request.sendall()：发送数据给所有连接的客户端

# TCP服务端2
from socketserver import TCPServer, BaseRequestHandler

SERVER_ADDR = ('127.0.0.1', 9991)  # 服务端地址
class MyTCPHandler(BaseRequestHandler):
    def handle(self):
        print(f'连接的客户端地址: {self.client_address}')
        msg = '你好客户端'
        self.request.sendall(msg.encode())

with TCPServer(SERVER_ADDR, MyTCPHandler) as server:
    server.serve_forever()

# TCP客户端
import socket
IPv4, TCP = socket.AF_INET, socket.SOCK_STREAM
SERVER_ADDR = ('127.0.0.1', 9999)  # 服务端地址

with socket.socket(IPv4, TCP) as s:
    s.connect(SERVER_ADDR)  # 连接服务端
    msg = s.recv(1024)  # 客户端接收消息
    s.close()

print(msg.decode())

UDP服务端及客户端

使用socket

UDP服务端及客户端socket常用的方法：

bind()：服务端绑定服务地址
recvfrom() ：UDP服务端/客户端接收消息，收到的数据及另一端地址
sendto()：UDP服务端发送消息给客户端
recv()：客户端接收消息
close()：关闭socket

# UDP服务端
import socket

IPv4, UDP = socket.AF_INET, socket.SOCK_DGRAM
SERVER_ADDRESS = ("127.0.0.1", 9998)

with socket.socket(IPv4, UDP) as s:
    s.bind(SERVER_ADDRESS)  # 绑定服务地址
   while True:
        data, client_addr = s.recvfrom(1024)   # 接收数据和客户端地址
   print(f"收到客户端消息 {client_addr}: {data.decode()}")
        msg = "客户端你好"
        s.sendto(msg.encode(), client_addr)   # 发送响应数据给客户端

# UDP客户端
import socket

IPv4, UDP = socket.AF_INET, socket.SOCK_DGRAM
SERVER_ADDRESS = ("127.0.0.1", 9998)

with socket.socket(IPv4, UDP) as s:
    msg = "你好服务端"
    s.sendto(msg.encode(), SERVER_ADDRESS) # 发送数据给服务器
    data, server_addr = s.recvfrom(1024)  # 接收服务器消息
    print(f"收到服务端消息 {server_addr}: {data.decode()}")

使用socketserver

同样可以使用socketserver的UDPServer来实现UDP服务端。同样你需要继承BaseRequestHandler并通过handle
方法来处理请求数据， Handler类中常用的属性及方法如下：

data, client_socket = self.request: 获取客户端请求数据及客户端socket连接
sendto(): UDP服务端使用客户端socket发送消息给客户端

# UDP服务端2
from socketserver import UDPServer, BaseRequestHandler

SERVER_ADDRESS = ("127.0.0.1", 9998)

class MyUDPHandler(BaseRequestHandler):
    def handle(self):
        data, client_socket = self.request
        print(f"收到客户端消息 {self.client_address} {data.decode()}")
        msg = "客户端你好"
        client_socket.sendto(msg.encode(), self.client_address)


with UDPServer(SERVER_ADDRESS, MyUDPHandler) as server:
    server.serve_forever()

# UDP客户端
import socket

IPv4, UDP = socket.AF_INET, socket.SOCK_DGRAM
SERVER_ADDRESS = ("127.0.0.1", 9998)

with socket.socket(IPv4, UDP) as s:
    msg = "你好服务端"
    s.sendto(msg.encode(), SERVER_ADDRESS) # 发送数据给服务器
    data, server_addr = s.recvfrom(1024)  # 接收服务器消息
    print(f"收到服务端消息 {server_addr}: {data.decode()}")

HTTP协议

http库

Python中内置了http模块包含http.server、http.client、http.cookies、http.cookiejar及HTTPStatus等。

http.server：基于TCPServer的一个简单的HTTP服务器(静态文件服务器)。
http.client：一个低层级的 HTTP 协议客户端，对于高层级的 URL 访问请使用 urllib.request。

from http.server import SimpleHTTPRequestHandler
from socketserver import TCPServer

SERVER_ADDRESS = ("127.0.0.1", 8000)

with TCPServer(SERVER_ADDRESS, SimpleHTTPRequestHandler) as httpd:
    httpd.serve_forever()

from http.client import HTTPSConnection

conn = HTTPSConnection("postman-echo.com")
conn.request("GET", "/get")
res = conn.getresponse()
print('状态码', res.status,'状态码说明', res.reason)
print('响应数据', res.read().decode())
conn.close()

urllib库

Python中urllib库提供了urllib.request(发送http请求)、urllib.parse(URL解析）等相关的模块

urllib.request常用方法如下：
urlopen：打开(请求)指定URL，并返回响应数据。
urllib.parse常用方法如下：
urlparse：解析URL，得到各个部分。
quote：将字符串格式数据进行URL编码
unquote: 将URL编码字符串进行URL解码
urlencode: 将字典格式数据进行URL编码，返回编码后的字符串。

from urllib import request, parse

query = parse.urlencode({'a': 1, 'b': 2})
url = "http://postman-echo.com/get?%s" % query

with request.urlopen(url) as f:
    print('响应数据', f.read().decode())

from urllib.parse import quote, unquote, urlencode

url = 'http://postman-echo.com/get?name=%E4%B8%B4%E6%B8%8A&age=21'

print('URL解码:', unquote(url))

print('URL解码字符串:', quote('name=临渊&age=21'))
print('URL解码字典数据:', urlencode({'name': '临渊', 'age': 21}))

使用Flask/FastAPI搭建HTTP服务

Flask是Python三方的微型的Web服务框架，使用其编写接口非常简单。
FastAPI是一款高性能的异步Web服务框架，风格和Flask有点类似，并自带接口文档。

# 文件名: flask_app.py  
#需要安装: pip install flask
from flask import Flask, jsonify

app = Flask(__name__)

@app.route('/', methods=['GET'])
def home():
    return jsonify({'msg': 'hello flask'})

# 启动服务: 命令行运行 flask --app flask_app run –port 5000

# 文件名: fastapi_app.py  
# 需要安装: pip install fast-api uvicorn
from fastapi import FastAPI

app = FastAPI()

@app.get('/')
async def home():
    return {'msg': 'hello fast-api'}

# 启动服务: 命令行运行 uvicorn –port 5001 fastapi_app:app
# 访问 http://127.0.0.1:5001/docs 可以查看接口文档

使用Django搭建HTTP服务

Django是Python一款全栈的Web框架，使用pip install django进行安装，新建一个项目及应用:

$ django-admin startproject django_app
$ cd django_app
$ python manage.py startapp app

然后需要将”app”注册到django_app/setttings.py文件的INSTALLED_APPS中，
在app/views.py中编写接口，在app/url.py中挂载接口，
然后运行python3 manage.py runserver 5002启动服务。

# app/views.py
from django.http.response import JsonResponse

def home(request):
    return JsonResponse({'msg': 'hello django'})

# django_app/url.py
from django.contrib import admin
from django.urls import path

from app.views import home

urlpatterns = [
    path('admin/', admin.site.urls),
    path('', home),
]

使用requests发送HTTP请求

requests是Python一个非常易用的三方HTTP请求库。安装方法pip install requests。缺点是不支持异步和HTTP/2。
详细使用可参考：。

import requests

# 发送GET请求-携带query参数及自定义请求头
res = requests.get("https://postman-echo.com/get",
                   params={'name': '临渊', 'age':21},
                   headers={'token': 'abc123'})
print(res.text)

# 发送POST表单请求
res = requests.get("https://postman-echo.com/post",
                   data={'name': '临渊', 'age':21})
print(res.text)

# 发送POST JSON格式请求
res = requests.get("https://postman-echo.com/post",
                   json={'name': '临渊', 'age':21})

# 不支持HTTP/2
res = requests.get("https://http2.pro/api/v1")
print(res.text)

使用hyper发送HTTP/2请求

hyper是一个支持多种协议的HTTP请求库，安装方法pip install hyper。
简单使用示例如下，详细使用可以参考： https://hyper.readthedocs.io/en/latest/

import hyper

# 创建HTTP/2连接
conn = hyper.HTTP20Connection("http2.pro")

# 发送GET请求
conn.request("GET", "/api/v1")

# 获取响应
resp = conn.get_response()

# 打印响应状态码和响应头
print(f"Status: {resp.status}")
print(f"Headers: {resp.headers}")

# 打印响应体
print(resp.read())

使用aiohttp发送异步HTTP请求

aiohttp是异步高性能的HTTP请求库，安装方法pip install aiohttp。一般需要配合协程使用。
简单使用示例如下，详细使用可以参考：https://docs.aiohttp.org/en/stable/。

import aiohttp
import asyncio

async def main():
    async with aiohttp.ClientSession() as session:
        async with session.get('http://postmain-echo.com/get') as response:
            print("状态码:", response.status)
            print("响应内容类型:", response.headers['content-type'])
            body = await response.text()
            print("响应数据:", body)

asyncio.run(main())

使用PycURL发送HTTP请求

PycURL是一个Python库，用于发送和接收HTTP请求和数据。它是基于Curl库的Python封装，提供了与Curl库相似的API和功能，支持多种协议，如HTTP、HTTPS、FTP、SMTP等。安装方法pip install pycurl。

注意：MacOS上安装需要使用以下命令：
export PYCURL_SSL_LIBRARY=openssl
export LDFLAGS=-L/usr/local/opt/openssl/lib
export CPPFLAGS=-I/usr/local/opt/openssl/include
pip install pycurl --compile --no-cache-dir

import pycurl

c = pycurl.Curl()
c.setopt(pycurl.URL, 'http://postman-echo.com/get') # 设置URL
c.perform()  # 发送请求(默认输出响应到控制台)

print('')
print('状态码', c.getinfo(pycurl.HTTP_CODE))
print('域名解析时间', c.getinfo(pycurl.NAMELOOKUP_TIME))
print('远程服务器连接时间', c.getinfo(pycurl.CONNECT_TIME))
print('连接上后到开始传输时的时间', c.getinfo(pycurl.PRETRANSFER_TIME))
print('接收到第一个字节的时间', c.getinfo(pycurl.STARTTRANSFER_TIME))
print('请求总的时间', c.getinfo(pycurl.TOTAL_TIME))

使用requestz发送HTTP请求

Requestz是作者基于PycURL封装的一款类Requests的库，使用方式和requests库类似，支持HTTP/2和响应数据统计。安装方法pip install requestz。

import requestz

res = requestz.get('https://http2.pro/api/v1')
print(res.text) 
print(res.stats)

WebSocket协议

WebSocket是一种在Web浏览器和服务器之间进行双向通信的协议。它允许服务器主动向客户端发送消息，而不需要客户端发起请求。WebSocket协议是基于TCP协议的，它使用HTTP协议进行握手，然后在建立连接后，使用自定义的协议进行通信。 ws:// 或 wss://

WebSocket协议的优点包括：

实时性：Websockets协议可以实现实时通信，可以在服务器端有新消息时立即向客户端推送，而不需要客户端发起请求。
双向通信：Websockets协议允许服务器和客户端之间进行双向通信，可以在客户端和服务器之间传递任意类型的数据。
高效性：Websockets协议使用TCP协议进行通信，可以保证数据传输的可靠性和高效性。

Python中建立WebSocket服务端或发送WebSocket请求可以使用三方库websockets实现。
安装方法为pip install websockets。常见操作如下：

serve()：服务端启动服务
connect()：服务端建立连接
send()：发送消息
recv()：接收消息

# 服务端Server
import asyncio
import websockets

async def hello(websocket, path):
    name = await websocket.recv()
    print(f"< {name}")

    greeting = f"Hello {name}!"
    await websocket.send(greeting)
    print(f"> {greeting}")

async def main():
    async with websockets.serve(hello, "localhost", 8900):
        await asyncio.Future()

asyncio.run(main())

# 客户端Client
import asyncio
import websockets

async def hello():
    async with websockets.connect("ws://localhost:8900") as websocket:
        name = input("What's your name? ")
        await websocket.send(name)
        print(f"> {name}")

        greeting = await websocket.recv()
        print(f"< {greeting}")

asyncio.run(hello())

WebDriver协议-基于HTTP通过中介控制浏览器

WebDriver协议是一种用于自动化Web浏览器的协议，它定义了一组API，用于控制Web浏览器的行为。
WebDriver协议可以与多种编程语言和测试框架集成，例如Python、Java、C#和Selenium等。

WebDriver协议的主要功能包括：

控制浏览器：WebDriver协议可以控制Web浏览器的行为，例如打开网页、点击链接、填写表单等。
获取元素：WebDriver协议可以获取Web页面中的元素，例如文本框、按钮、下拉框等。
操作元素：WebDriver协议可以对Web页面中的元素进行操作，例如输入文本、点击按钮、选择下拉框等。
执行JavaScript：WebDriver协议可以执行JavaScript代码，例如修改页面元素、获取页面属性等。
截图：WebDriver协议可以对Web页面进行截图，用于测试和调试。

WebDriver协议的使用步骤如下：

创建WebDriver实例：使用编程语言和测试框架创建WebDriver实例，用于控制Web浏览器。
打开网页：使用WebDriver实例打开指定的网页。
查找元素：使用WebDriver实例查找Web页面中的元素。
操作元素：使用WebDriver实例对Web页面中的元素进行操作。
执行JavaScript：使用WebDriver实例执行JavaScript代码。
截图：使用WebDriver实例对Web页面进行截图。

CDP协议-基于WebSocket-Pyppteer / Playwright

Chrome DevTools Protocol（CDP）是一种用于与Chrome浏览器通信的协议，它允许开发人员通过HTTP协议与Chrome浏览器进行通信，并控制浏览器的行为。
CDP协议提供了一组API，用于获取浏览器的状态信息、控制浏览器的行为、调试JavaScript代码等。

CDP协议的主要功能包括：

获取浏览器状态：CDP协议可以获取浏览器的状态信息，例如浏览器版本、页面加载状态、网络请求等。
控制浏览器行为：CDP协议可以控制浏览器的行为，例如打开网页、点击链接、填写表单等。
调试JavaScript代码：CDP协议可以调试JavaScript代码，例如设置断点、单步执行、查看变量等。
获取页面信息：CDP协议可以获取Web页面的信息，例如页面元素、CSS样式、DOM结构等。
截图：CDP协议可以对Web页面进行截图，用于测试和调试。

CDP协议的使用步骤如下：

连接Chrome浏览器：使用HTTP协议连接到Chrome浏览器，获取浏览器的状态信息。
控制浏览器：使用CDP协议控制浏览器的行为，例如打开网页、点击链接、填写表单等。
调试JavaScript代码：使用CDP协议调试JavaScript代码，例如设置断点、单步执行、查看变量等。
获取页面信息：使用CDP协议获取Web页面的信息，例如页面元素、CSS样式、DOM结构等。
截图：使用CDP协议对Web页面进行截图。

Python发送邮件

在Python中，可以使用smtplib模块实现SMTP协议(发送邮件)，使用imaplib模块实现IMAP协议(接收邮件) ，使用poplib模块实现POP3协议(接收邮件)。以下是使用smtplib和email模块发送邮件到示例：

import smtplib  # 用于建立smtp连接
from email.mime.text import MIMEText  # 邮件需要专门的MIME格式

# 1. 编写邮件内容（Email邮件需要专门的MIME格式）
msg = MIMEText('this is a test email', 'plain', 'utf-8')  # plain指普通文本格式邮件内容

# 2. 组装Email头（发件人，收件人，主题）
msg['From'] = '你的邮箱地址'  # 发件人
msg['To'] = '收件人邮箱地址'  # 收件人
msg['Subject'] = '邮件主题'  # 邮件主题

# 3. 连接smtp服务器并发送邮件
smtp = smtplib.SMTP_SSL('smtp.qq.com')  # smtp服务器地址 使用SSL模式
smtp.login('你的邮箱地址', '邮箱授权密码')  # 用户名和密码
smtp.sendmail("你的邮箱地址", "收件人邮箱地址", msg.as_string())
smtp.quit()

使用Exchange邮箱发送邮件

Exchange是微软开发的，企业邮箱服务协议，Python中可以使用三方库exchangelib来连接企业邮箱并发送邮件，安装方法：pip install exchangelib，使用示例如下：

from exchangelib import Account, Credentials, Message, HTMLBody, Mailbox, FileAttachment

account = Account('***@***',  # 企业邮箱exchange服务地址
             credentials=Credentials(username='***@***', password='***'),  # 你的邮箱及密码
             autodiscover=True)

email = Message(
    account=account,
    subject='测试带附件下',
    body=HTMLBody('<h2>hello with attachment</h2>'),
    to_recipients=[Mailbox(email_address='superhin@126.com')]
)
# 携带附件
email.attach(FileAttachment(name='test.html', content=open('/result/test.html', 'rb').read()))
email.send()

Python SSH/SFTP协议

在Python中，可以使用三方包paramiko模块实现SSH协议。
安装方法：pip install paramiko。简单使用示例如下：

import paramiko

# SSH服务器地址、端口、用户名和密码
SSH_ADDRESS = “example.com”
SSH_PORT = 22
SSH_USERNAME = “username”
SSH_PASSWORD = “password”

ssh_client = paramiko.SSHClient()   # 创建SSH客户端
ssh_client.set_missing_host_key_policy(paramiko.AutoAddPolicy()) # 自动添加SSH主机密钥
ssh_client.connect(SSH_ADDRESS, SSH_PORT, SSH_USERNAME, SSH_PASSWORD) # 连接SSH服务器

stdin, stdout, stderr = ssh_client.exec_command(“ls -l”) # 执行命令
print(stdout.read().decode()) # 打印输出
sftp_client = ssh_client.open_sftp()  # 创建SFTP客户端
sftp_client.put("local_file.txt", "remote_file.txt")  # 上传文件
sftp_client.get("remote_file.txt", "local_file.txt")  # 下载文件

sftp_client.close()  # 关闭SFTP客户端
ssh_client.close() # 关闭SSH连接