[常用工具] 基于psutil和GPUtil获取系统状态信息
原创
©著作权归作者所有:来自51CTO博客作者luohenyueji的原创作品,请联系作者获取转载授权,否则将追究法律责任
本文主要介绍在Python3中利用psutil库获取系统状态,利用GPUtil获取gpu状态。
psutil (process and system utilities)(进程和系统实用程序)是一个跨平台库,用于在Python中检索有关运行进程和系统利用率(CPU、内存、磁盘、网络、传感器)的信息。它实现了经典UNIX命令行工具提供的许多功能,如ps、top、iotop、lsof、netstat、ifconfig、free等。psutil目前支持windows,linux,macOS等主流系统平台。本文主要介绍psutil中的常用函数。pstuil安装代码如下:
pip install psutil
psutil官方仓库见psutil。
GPUtil是一个Python模块,用于使用nvidia smi从NVIDA GPU获取GPU状态。GPUtil定位计算机上的所有GPU,确定其可用性,并返回可用GPU的有序列表。GPUtil安装代码如下:
pip install gputil
GPUtil官方仓库见gputil。
文章目录
- 1.1 CPU状态
- 1.2 内存状态
- 1.3 磁盘状态
- 1.4 网络状态
- 1.5 传感器状态
- 1.6 进程状态
- 1.7 其他状态
- 2.1 GPU的ID获取
- 2.2 GPU信息读取
1 psutil的使用
1.1 CPU状态
# 返回系统CPU时间。每个属性代表CPU在给定模式下花费的秒数。属性可用性因平台而异。
# percpu表示是否返回单个cpu的花费时间
# 主要返回参数有:
# user:正常进程在用户模式下执行所花费的时间;在 Linux 上,这还包括访客时间
# system:在内核模式下执行的进程所花费的时间
# idle:空闲的时间
psutil.cpu_times(percpu=False)
scputimes(user=7627895.98, nice=4419.62, system=1704625.93, idle=249261020.67, iowait=75386.74, irq=0.0, softirq=36410.5, steal=0.0, guest=0.0, guest_nice=0.0)
# 以百分比返回用户、系统、空闲所使用的cpu时间
psutil.cpu_times_percent(percpu=False)
scputimes(user=0.2, nice=0.0, system=0.0, idle=99.8, iowait=0.0, irq=0.0, softirq=0.0, steal=0.0, guest=0.0, guest_nice=0.0)
# 返回表示当前系统CPU利用率百分比的浮点值
# interval=1比较1s内CPU利用率
psutil.cpu_percent(interval=1)
# 当interval=None(默认为None)表示自上次调用或模块导入以来系统CPU利用率
psutil.cpu_percent(interval=None)
# 当percpu为True时,返回浮点列表,表示每个CPU的利用率百分比
# psutil.cpu_percent(interval=1, percpu=True)
# 返回逻辑cpu的数量(物理内核数乘以每个cpu内核上可以运行的线程数)
psutil.cpu_count(logical=True)
# 返回物理cpu的数量
psutil.cpu_count(logical=False)
# 返回CPU 频率,包括当前、最小和最大频率,以Mhz表示。
psutil.cpu_freq()
scpufreq(current=2599.998000000001, min=0.0, max=0.0)
1.2 内存状态
# 返回有关系统内存使用情况的统计信息,以字节表示。主要返回参数有:
# total: 内存总量
# available:可用内存
# used: 已用内存
# free:完全没有使用的内存,在windows系统同等于available
# percent:已用内存比例,计算方式为(total - available) / total * 100
psutil.virtual_memory()
svmem(total=541061697536, available=530528514048, percent=1.9, used=7251107840, free=249252380672, active=28388438016, inactive=247208853504, buffers=7200718848, cached=277357490176, shared=56004608, slab=15238979584)
# 打印内存使用比例
print(psutil.virtual_memory().percent)
# 通过数值计算指标
mem = psutil.virtual_memory()
# 已使用和可用的总和不一定等于总和,所以计算方式看自己选择。
print(mem.used/mem.total*100)
# 实际psutil计算方式
print(100-mem.available/mem.total*100)
1.3401628452026104
1.94676199331208
# 返回系统交换内存统计信息
psutil.swap_memory()
sswap(total=0, used=0, free=0, percent=0.0, sin=0, sout=0)
1.3 磁盘状态
# 返回磁盘分区情况
# psutil.disk_partitions()
# 返回包含给定路径的分区的磁盘使用率统计信息,以字节表示,主要返回参数有:
# total:总空间
# used:已用空间
# free:可用空间
# percent:使用率百分比,计算方式为used / total * 100
psutil.disk_usage('./')
sdiskusage(total=4363237892096, used=2180849664, free=4141137940480, percent=0.1)
# 返回系统范围的磁盘输入/输出统计信息,主要返回参数有:
# read_count: 读取次数
# write_count: 写入次数
# read_bytes: 读取的字节数
# write_bytes: 写入的字节数
psutil.disk_io_counters()
sdiskio(read_count=19240910, write_count=60524213, read_bytes=3411362631680, write_bytes=7641118547968, read_time=89751300, write_time=1571245636, read_merged_count=15, write_merged_count=44291429, busy_time=73232832)
1.4 网络状态
# 返回网络io统计信息,主要返回参数包括收发字节数、收发包数等。
psutil.net_io_counters()
snetio(bytes_sent=6606245, bytes_recv=7806674, packets_sent=22430, packets_recv=32301, errin=0, errout=0, dropin=0, dropout=0)
# 返回每个网卡接口的网络统计信息
psutil.net_io_counters(pernic=True)
{'lo': snetio(bytes_sent=2535762, bytes_recv=2535762, packets_sent=6513, packets_recv=6513, errin=0, errout=0, dropin=0, dropout=0),
'eth1': snetio(bytes_sent=740299, bytes_recv=1362457, packets_sent=9909, packets_recv=18518, errin=0, errout=0, dropin=0, dropout=0),
'eth0': snetio(bytes_sent=3339973, bytes_recv=3913748, packets_sent=6022, packets_recv=7282, errin=0, errout=0, dropin=0, dropout=0)}
# 返回网络的连接信息
# psutil.net_connections()
# 返回网卡配置信息
# psutil.net_if_addrs()
# 返回网卡的具体信息
psutil.net_if_stats()
{'lo': snicstats(isup=True, duplex=<NicDuplex.NIC_DUPLEX_UNKNOWN: 0>, speed=0, mtu=65536),
'eth1': snicstats(isup=True, duplex=<NicDuplex.NIC_DUPLEX_FULL: 2>, speed=10000, mtu=1500),
'eth0': snicstats(isup=True, duplex=<NicDuplex.NIC_DUPLEX_UNKNOWN: 0>, speed=65535, mtu=1500)}
1.5 传感器状态
# 返回硬件温度,如果没有温度传感器返回空值,有些系统和版本没有该函数
psutil.sensors_temperatures()
# 返回硬件风扇速度,有些系统和版本没有该函数
psutil.sensors_fans()
# 返回电池信息,比如剩余电量
psutil.sensors_battery()
1.6 进程状态
进程状态的函数很多,具体可以看看psutil的官方仓库
# 正在运行进程的pid
psutil.pids()
[1, 8, 9, 34, 70, 71, 91, 6873]
# 返回当前进程信息
# 返回值:进程pid,进程名,进程状态
psutil.Process()
psutil.Process(pid=6873, name='python', status='running', started='19:21:01')
# 查看pid为1的进程信息
psutil.Process(1)
psutil.Process(pid=1, name='sh', status='sleeping', started='18:09:15')
# 进程是否存在
psutil.pid_exists(123)
1.7 其他状态
# 返回当前用户信息,包括用户名、登陆终端、host端口,登陆时间
# psutil.users()
# 返回系统启动时间,时间戳形式
# psutil.boot_time()
2 GPUtil的使用
2.1 GPU的ID获取
获取可用GPU的ID列表
deviceIDs = GPUtil.getAvailable(order = ‘first’, limit = 1, maxLoad = 0.5, maxMemory = 0.5, includeNan=False, excludeID=[], excludeUUID=[])
输入参数如下:
- order:确定返回可用GPU设备ID的顺序,可输入参数:first(升序排列),last(降序排列),random(随机选取),load(按负载递增),memory(按显存使用量递增)
- limit:将返回的GPU设备数量限制为指定数量
- maxLoad:负载率大于maxLoad的不会被返回
- maxMemory:显存使用率大于maxMemory的不会被返回
- includeNan:是否包括负载或内存使用为Nan的GPU
- excludeID:不用于排序的GPU的id
- excludeUUID:不用排序的GPU的uuid
返回参数如下:
- deviceIDs: 所有可用GPU设备ID的列表,id号从0开始。
# 获取一个可用gpu的id
deviceIDs = GPUtil.getAvailable()
deviceIDs
# 获取最后一个可用gpu的id
deviceIDs = GPUtil.getAvailable(order = 'last')
deviceIDs
# 随机获取4个可用gpu的id
deviceIDs = GPUtil.getAvailable(order = 'random', limit=4)
deviceIDs
获取第一个可用的GPU的id
deviceID = GPUtil.getFirstAvailable(order = ‘first’, maxLoad=0.5, maxMemory=0.5, attempts=1, interval=900, verbose=False)
输入参数和GPUtil.getAvailable差不多,其他参数如下:
- attempts:在放弃寻找可用GPU之前,函数应进行的尝试次数
- interval:查找gpu的间隔
- verbose:是否显示详细信息
返回参数如下:
# 随机获取1个可用gpu的id
deviceID = GPUtil.getFirstAvailable(order = 'random')
deviceID
打印所有GPU的当前状态
GPUtil.showUtilization(all=False, attrList=None, useOldCode=False)
输入参数如下:
- all:显示GPU所有信息,如果否只显示GPU利用率和GPU显存使用率
- interval:要显示的属性列表列表,这个要看代码
- useOldCode:是否应使用显示GPU利用率的旧代码
该函数在命令行界面输出结果。
# 命令行打印结果
GPUtil.showUtilization(all=False, attrList=None, useOldCode=False)
| ID | GPU | MEM |
------------------
| 0 | 0% | 0% |
| 1 | 0% | 0% |
| 2 | 0% | 0% |
| 3 | 0% | 0% |
2.2 GPU信息读取
获取所有GPU对象的列表
GPUs = GPUtil.getGPUs()
返回参数如下:
import GPUtil
# 获取所有可用GPU列表,id号从0开始
GPUs = GPUtil.getGPUs()
GPUs
[<GPUtil.GPUtil.GPU at 0x7fd3142f08d0>,
<GPUtil.GPUtil.GPU at 0x7fd3142ec390>,
<GPUtil.GPUtil.GPU at 0x7fd3142f0f90>,
<GPUtil.GPUtil.GPU at 0x7fd3142ecfd0>]
筛选可用GPU
GPUavailability = GPUtil.getAvailability(GPUs, maxLoad = 0.5, maxMemory = 0.5, includeNan=False, excludeID=[], excludeUUID=[])
- 输入参数:GPUs为GPU对象列表,其他参数与GPUtil.getAvailable一样
- 返回参数:返回一个与GPUs大小相等的1和0列表,指示哪些对应的GPU可用,1表示可用,0表示不可用
GPUavailability = GPUtil.getAvailability(GPUs)
GPUavailability
GPU属性获取
返回单个GPU的属性,GPU属性的描述来自于nvidia-smi命令。这些属性分别为:
- id:gpu的id
- uuid:gpu的uuid,全球唯一
- load:gpu的负载率,100%表示满载
- memoryUtil:gpu的显存使用率,100%表示全部使用
- memoryTotal:gpu的总显存
- memoryUsed:gpu已使用显存
- memoryFree:gpu可用显存
- driver:gpu的驱动版本
- name:gpu的正式产品名称
- serial:gpu的序列号,全球唯一
- display_mode:物理显示器是否连接到GPU
- display_active:显示器是否活跃
# 获取所有可用GPU列表,id号从0开始
GPUs = GPUtil.getGPUs()
# 第1个gpu的显存
GPUs[0].memoryTotal
# 第1个gpu的驱动版本
GPUs[1].driver
# 第2个gpu的产品名称
GPUs[2].name
# 最后一个gpu是否连接物理显示器
GPUs[-1].display_mode
3 参考