1, 性能测试指标

交易响应时间(Response Time: RT):响应时间指用户从客户端发起一个请求开始,到客户端接收到从服务器端返回的响应结束,整个过程所耗费的时间。在性能检测中一般以压力发起端至被压测服务器返回处理结果的时间为计量,单位一般为秒或毫秒。平均响应时间指系统稳定运行时间段内,同一交易的平均响应时间。一般而言,交易响应时间均指平均响应时间。 平均响应时间指标值应根据不同的交易分别设定,一般情况下,分为复杂交易响应时间、简单交易响应时间、特殊交易响应时间。其中,特殊交易响应时间的设定必须明确该交易在响应时间方面的特殊性。
系统处理能力(TPS(Transaction per Second):系统处理能力是指系统在利用系统硬件平台和软件平台进行信息处理的能力。 系统处理能力通过系统每秒钟能够处理的交易数量来评价,交易有两种理解:一是业务人员角度的一笔业务过程;二是系统角度的一次交易申请和响应过程。前者称为业务交易过程,后者称为事务。两种交易指标都可以评价应用系统的处理能力。一般的建议与系统交易日志保持一致,以便于统计业务量或者交易量。系统处理能力指标是技术测试活动中重要指标。
并发用户(Vuser):并发用户数指在同一时刻内,登录系统并进行业务操作的用户数量。 并发用户数对于长连接系统来说最大并发用户数即是系统的并发接入能力。对于短连接系统而言最大并发用户数并不等于系统的并发接入能力,而是与系统架构、系统处理能力等各种情况相关。例如系统吞吐能力很强,加上短连接一般都有连接复用,往往并发用户数大于系统的并发接入连接数。所以对于大部分短连接类型的系统,吞吐量模式(RPS模式,Request Per Second)比较适合,也是阿里的最佳实践,PTS支持RPS模式的压测,吞吐量的压测构建和衡量一步到位。 在测试中,采用虚拟用户来模拟现实中用户进行业务操作。
错误率(Error%):错误率指系统在负载情况下,失败交易的概率。错误率=(失败交易数/交易总数)*100%。稳定性较好的系统,其错误率应该由超时引起,即为超时率。不同系统对错误率的要求不同,但一般不超出千分之六,即成功率不低于99.4%。
2, 资源指标:

CPU(Central Processing Unit):CPU指标主要指的CPU使用率、利用率,包括用户态(user)、系统态(sys)、等待态(wait)、空闲态(idle)。CPU使用率、利用率要低于业界警戒值范围之内,即小于或者等于75%、CPU sys%小于或者等于30%,CPU wait%小于或者等于5%。单核CPU也需遵循上述指标要求。CPU Load要小于CPU核数。

MEMORY:现代的操作系统为了最大利用内存,在内存中存放了缓存,因此内存利用率100%并不代表内存有瓶颈,衡量系统内有瓶颈主要靠SWAP(与虚拟内存交换)交换空间利用率,一般情况下,SWAP交换空间利用率要低于70%,太多的交换将会引起系统性能低下。

磁盘吞吐量(Disk Throughput):磁盘指标主要有每秒读写多少兆,磁盘繁忙率,磁盘队列数,平均服务时间,平均等待时间,空间利用率。其中磁盘繁忙率是直接反映磁盘是否有瓶颈的重要依据,一般情况下,磁盘繁忙率要低于70%。

网络吞吐量(Network Throughput):网络吞吐量指标主要有每秒有多少兆流量进出,一般情况下不能超过设备或链路最大传输能力的70%。

内核参数:操作系统内核参数主要包括信号量、进程、文件句柄,一般不要超过设置的参数值:

grafana算平均响应时长_压力测试


3, 中间件指标

常用的中间件例如Tomcat、Weblogic等指标主要包括JVM、ThreadPool、JDBC等

grafana算平均响应时长_grafana算平均响应时长_02


当前正在运行的线程数不能超过设定的最大值。一般情况下系统性能较好的情况下,线程数最小值设置50和最大值设置200比较合适。

当前运行的JDBC连接数不能超过设定的最大值。一般情况下系统性能较好的情况下,JDBC最小值设置50和最大值设置200比较合适。

GC频率不能频繁,特别是FULL GC更不能频繁,一般情况下系统性能较好的情况下,JVM最小堆大小和最大堆大小分别设置1024 M比较合适。

4, 数据库指标

常用的数据库例如MySQL指标主要包括SQL、吞吐量、缓存命中率、连接数等:

grafana算平均响应时长_响应时间_03


SQL耗时越小越好,一般情况下微秒级别。

命中率越高越好,一般情况下不能低于95%。

锁等待次数越低越好,等待时间越短越好。

5,前端指标

前端指标主要包括页面展示和网络所花的时间:

grafana算平均响应时长_批量处理_04


页面要尽可能小及压缩。

页面展示和花费时间越短越好。

6, 稳定性指标

最短稳定时间:系统按照最大容量的80%或标准压力(系统的预期日常压力)情况下运行,能够稳定运行的最短时间。 一般来说,对于正常工作日(8小时)运行的系统,至少应该能保证系统稳定运行8小时以上。对于7×24运行的系统,至少应该能够保证系统稳定运行24小时以上。 如果系统不能稳定的运行,上线后,随着业务量的增长和长时间运行,将会出现性能下降甚至崩溃的风险。

TPS曲线稳定,没有大幅度的波动。
各项资源指标没有泄露(OOM)或异常情况(EXCEPTION)。
7, 批量处理指标

指批量处理程序单位时间内处理的数据数量。一般用每秒处理的数据量来衡量。处理效率是估算批量处理时间窗口最重要的计算指标。 关于批量处理时间窗口,不同系统的批量处理时间窗口在起止时间上可以部分重叠。另外,同一系统内部,也可能存在多个批量处理过程同时进行,其时间窗口相互叠加。 长时间批量处理将会对联机在线实时交易产生重大的性能影响。

在数据量很大的情况下,批处理时间窗口时间越短越好。
不能影响实时交易系统性能。
8, 可扩展性指标

指应用软件或操作系统以集群方式部署,增加的硬件资源与增加的处理能力之间的关系。计算公式为:(增加性能/原始性能)/(增加资源/原始资源)×100%。 扩展能力应通过多轮测试获得扩展指标的变化趋势。 一般扩展能力非常好的应用系统,扩展指标应是线性或接近线性的,现在很多大规模的分布式系统的扩展能力非常好。

理想的扩展能力是资源增加几倍,性能就提升几倍。
扩展能力至少在70%以上。
9,可靠性指标

9.1,双机热备:

对于将双机热备作为可靠性保障手段的系统,可衡量:

节点切换是否成功及其消耗时间。
双机切换是否有业务中断。
节点回切是否成功及其耗时
双机回切是否有业务中断。
节点回切过程中的数据丢失量。在进行双机切换的同时,使用压力发生工具模拟实际业务发生情况,对应用保持一定的性能压力,保证测试结果符合生产实际情况。
9.2,集群:

对于使用集群方式的系统,主要通过以下方式考量其集群可靠性:
集群中某个节点出现故障时,系统是否有业务中断情况出现。
在集群中新增一个节点时,是否需要重启系统。
当故障节点恢复后,加入集群,是否需要重启系统。
当故障节点恢复后,加入集群,系统是否有业务中断情况出现。
节点切换需要多长时间。在验证集群可靠性的同时,需根据具体情况使用压力工具模拟实际业务发生相关情况,对应用保持一定的性能压力,确保测试结果符合生产实际情况。

9.3,备份和恢复

本指标为了验证系统的备份、恢复机制是否有效可靠,包括系统的备份和恢复、数据库的备份和恢复、应用的备份和恢复,包括以下测试内容:

备份是否成功及其消耗时间。
备份是否使用脚本自动化完成。
恢复是否成功及其消耗时间。
恢复是否使用脚本自动化完成指标体系的运用原则。
指标项的采用和考察取决于对相应系统的测试目的和测试需求。被测系统不一样,测试目的不一样,测试需求也不一样,考察的指标项也有很大差别。
部分系统涉及额外的前端用户接入能力的,需要考察用户接入并发能力指标。
对于批量处理过程的性能验证,主要考虑批量处理效率并估算批量处理时间窗口。
如测试目标涉及到系统性能容量,测试需求中应根据相关指标项的定义,明确描述性能指标需求。
测试指标获取后,需说明相关的前提条件(如在多少的业务量、系统资源情况等)。