导读:

为了提升运维的投入产出比并提升运维侧对业务侧的价值创造属性,企业的运维部门需要构建一套运维 管理指标体系,这将帮助企业运维部门形成高效的工作流体系,提升日常运维工作的效率, 减轻运维工作对人工和经验的依赖,并为基于大数据的智能运维应用的部署提供支持和引导。

企业应用运维管理指标体系_大数据

上图以博睿数据的企业应用运维指标体系为例,展示了一种的全新的企IT运维指标体系,这一体系从业务视角切入,以业务场景为主题,以业务连续性为宗旨,通过直面业务场景、正向梳理IT调用链、逆向接入数据源等实施步骤,最终构建起具备概览所有业务场景健康度、俯瞰多维立体化IT指标等能力的资源指标管理体系。

一、业务监测

业务端是企业应用运维指标体系的首要关注点。对于企业来说,业务状况是企业管理者最关心的部分,也是企业所有决策的基础,而随着大数据和人工智能技术的发展,大量企业借助信息技术实现转型升级。

业务分析常见指标说明

转化率:转化率指在一个统计周期内,完成转化行为的次数占推广信息总点击次数的比率。计算公式为:转化率=(转化次数/点击量)×100%。例如10名用户看到某个搜索推广的结果,其中5名用户点击了某一推广结果并被跳转到目标URL上,之后其中的2名用户有了后续转化的行为。

点击率:“点击率”来自于英文“Click-throughRate”(点进率)以及“ClicksRatio”(点击率),是指网站页面上某一内容被点击的次数与被显示次数之比,即clicks/views,能够反映网页上某一内容的受关注程度,经常用来衡量广告的吸引程度。

UV(UniqueVisitor)独立访客:统计1天内访问某站点的用户数(以cookie为依据),通常将访问网站的一台电脑客户端计为一个访客,可以理解为访问某网站的电脑的数量。网站判断来访电脑的身份是通过来访电脑的cookies实现的。若更换了IP后但不清除cookies,再访问相同网站,该网站的统计中UV数不变。若用户不保存cookies访问、清除cookies或者更换设备访问,计数会加1。

PV(PageView)访问量:页面浏览量或点击量,衡量网站用户访问的网页数量,在一定统计周期内用户每打开或刷新一个页面就记录1次,多次打开或刷新同一页面则浏览量累计。

启动用户数:通对启动用户数跨天去重,从而反应真实的UV。

留存率:互联网行业通过拉新或推广的活动把用户引过来,用户开始访问网站/应用,但是经过一段时间可能就会有一部分客户逐渐流失。留存率定义为用户在某段时间内开始使用网站/应用(一般定义是注册),经过一段时间后,仍然继续使用的人被认作是留存用户。留存率体现了网站/应用的质量和保留用户的能力。

七日留存:指发生初始行为的用户经过七天,发生了回访行为的用户。例如,选择条件:初始行为=点击购买,回访行为=点击购买,4月1日发生购买的用户200人,这200人中4月7日再次购买的用户有50人,则第7日留存用户为50。

活跃用户数:传统意义上是一段时间内有访问行为的用户数,对于网站来说是访问,而对于APP来说是启动;时间窗口往往是天或月,例如:按天统计时就是DAU,按月统计时则是MAU。

ROI:投资回报率,对企业来说用于推广效果评估,可以助力企业实现一定程度的精准投放。

活跃用户ID数:每一个用户都会对应一个ID。

活跃天数:通常指人均活跃天数。

老用户数:通常指在特定分析时间段内,之前已经访问过的用户数量。

每日流失用户:当天没有访问网站的老用户。平均停留时间:平均每位访问者在网站上停留的时间。

人均使用时长:常见于对APP数据统计,人均使用时长=总使用时长/使用人数。

触发次数:触发一个事件的次数,比如点击登录、加购等按钮次数。

周活跃率:去重后的周活跃用户数量/历史累计去重后的用户数量。

日活跃率:去重后的日活跃用户数量/历史累计去重后的用户数量。

达成人数:完成特定流程或事件的人数。

页面访问次数:特定页面的打开次数。

新增用户占比:特定时间段内,新用户与总人数的比值。

二、用户端体验监测

用户端(APP、小程序、网站等)是企业与用户的数字触点,同时也是企业获客、留客的重要途径。在互联网/数字化服务的整个链条上,客户需首要关注的是用户端体验及表现,从而使得用户端体验成为数字化经营中企业产品力和市场竞争力的重要组成部分。

用户端监测常见指标说明

可优化延时:衡量会话受可优化问题的影响的时间量,如果解决了相应的可优化问题,用户就可以在更短的时间内完成会话。使用投影法可以计算会话可优化延时。

体验评分:以百分制计算会话的综合体验评分。体验评分=[(执行通过率/100%)舍尾取整]×(1-可用性)×100×[(1-可优化延时/会话整体耗时×权重A+(1-请求错误率)×权重B+(1-请求警示率)×权重C],不可用或非100%通过的会话,会话体验评分为0。权重使用主客观综合赋权法确定,权重=0.8×主观权重+(1-0.8)×客观权重,0.8为初始权重参数。

首屏时间:用户访问网站时,页面第一屏的打开展现时间。

可用性:网站打开成功率,是反映网站是否稳定的重要指标。

ANR1:指在Android上,应用程序响应不够灵敏时,系统会向用户显示的一个对话框,通常关注指标有ANR次数、ANR率等。

整体性能:页面全部加载完成的时间,即页面打开的耗时。

崩溃:APP崩溃是导致用户流失的重要因素之一。由于大多数公司在APP上线之前无法做到在各种环境下的全面适配测试,出现崩溃在所难免。快速定位问题点及问题复现是崩溃分析的意义所在,公司常需要关注崩溃次数及崩溃率,通过崩溃堆栈进行问题分析与定位。

白屏时间:即用户点击一个链接或打开浏览器输入URL地址后,从屏幕空白到显示第一个画面的时间。白屏时间的长短将直接影响用户对该网站的第一印象。

首次渲染时间:从开始浏览到实际渲染出第一个像素之间的时间间隔。

卡顿:如果出现出现jank(FPS突降)、帧渲染缓慢、FPS长期过低三者之一,则会出现屏幕卡顿问题,可以通过查看受此问题影响的时间区域的FPS、帧渲染时间,确定具体的卡顿原因。

可交互时间:网页第一次完全达到可交互状态的时间点,可交互的状态下浏览器可以持续性地响应用户的输入。

通过率:以百分率表示在规定的时间内,会话未出现致命问题的情况下的动作执行通过性,通过率=会话预设交互已执行次数/总预设交互次数×100%。

用户端访问过程中的错误情况也需要关注,常见的错误包括JS错误、请求错误率、400错误率、500错误率、600错误率等

DNS时间:指页面或元素访问过程中DNS解析所用的时间。

劫持比率:浏览过程中发生DNS劫持或页面劫持的总监测次数占总访问次数的比率。

首包时间:从页面浏览开始到接收到第一包数据(通常为基础文档数据)返回之间的时间差。

应用安装耗时:应用在安装过程中消耗的时间。

信息量:页面上显示的信息量,以图像判断所传递的信息量。

响应时间:指客户端发送调度请求之后到接收到调度服务器返回第一包数据之间的时间差。

TCP链接时间:下载该元素过程中建立TCP连接所用的时间。

SSL建连时间:下载元素所需的SSL握手用时。

CDN:构建在现有网络基础之上的智能虚拟网络,依靠部署在各地的边缘服务器,通过中心平台的负载均衡、内容分发、调度等功能模块,使用户就近获取所需内容,降低网络拥塞,提高用户访问响应速度和命中率。是目前常用的网站加速技术。国内CDN厂商众多,企业每年在CDN服务方面投入从千万级到十万级不等,因此CDN服务质量也是各类网站的关注重点,了解其服务质量主要通过CDN请求性能、CDN运营商匹配率、CDN城市匹配率来评估

三、应用端监测

了解应用访问情况是企业 IT 运维的基础。用户端指标所反映的访问情 况只是一个表象,用户端真正所访问到的其实是网站的后台应用,当前企业面临着日益激增 的 IT 复杂性和业务需求的快速变化,IT 应用在运行过程中发生性能下降或者服务不可用等 故障的可能性大大增加,从而影响业务服务的正常运行。

健康度:应用健康度的标示,展示应用当前是否有性能问题。常分为四个等级:正常、较慢、很慢、停滞。

Apdex:全称是ApplicationPerformanceIndex,是由Apdex联盟开发的用于评估应用性能的工业标准。Apdex标准从用户的角度出发,将对应用响应时间的表现,转为用户对于应用性能的可量化范围为0-1的满意度评价。

响应时间:应用的平均响应时间。错误率:发生错误的请求占比,即所选时间范围内,业务过程错误数量之和/总请求数×100%。

吞吐率:包含自身调用、数据库调用、NoSQL调用、第三方服务调用过程中所传输的数据量。

慢请求次数:发生慢请求的次数,需要进一步定位慢请求所对应的业务、容器、容器集和集群。

慢请求占比:发生慢请求次数占所有请求次数的比例。

此外,企业还需要关注数据库的调用数据库错误率、调用数据库次数及调用数据库响应时间;除了企业的自身调用需要关注外,其外部调用同样也需要,常见指标包括:调用外部服务次数、调用外部服务响应时间、调用外部服务错误率等。

四、网络监测

各个应用之间的调用通过网络来实现,各个企业 IT 建设的规模与复杂度与日俱增,需 要通过网络监测对现有运维流程进行优化,不断提升管理和运维水平。

网络监测常见指标说明

流量:传输数据的总量(单位Byte)。

吞吐量:传输数据的速率(单位bps)。

建连成功率:建连成功次数占总请求次数的比率。

客户端传输时延:服务侧丢包时,客户端传输停顿到重传包的平均时间。

丢包率:数据交互过程中丢包数与总包数的比率。

客户数:访问源客户端总个数。

流入包数:流入传输数据总包数。

流出字节:流出数据的字节数。

包大小:数据包大小。

服务器延时:数据包从服务端传送到客户端的平均耗时。

其它常关注指标有:流出吞吐量、重传时延、大包占比、0窗口(TCP报头结构中有16位的窗口大小,由接收方填充用来告知发送方当前本端还能接收的数据长度。如果接收方不断从网络中接收并缓存数据,但是应用程序并没有处理缓存的数据,直到最后接收方就会向发送方发送一个0窗口的报文段)、流入字节、流入吞吐量、中包占比及带宽等。

五、资源层监测

网站所有服务均体现在基础资源层面,因此基础资源监控是所有监控中最底层的部分,也是实现AIOps不可或缺的一环。

资源层监测常用指标

CPU使用率:服务器运行的程序占用的CPU资源,表示服务器在某个时间点的运行程序的情况。

内存使用率:体现进程在服务器中所开销的内存使用率。除此之外还有磁盘使用率及GPU使用率、当前进程打开文件数、过去5分钟系统平均负载、当前内核空间占用CPU百分比、GPU显存空闲量、磁盘每秒写入字节数等。

在微服务环境下,企业使用K8s对容器进行编排管理,对K8s的管理监控也是基础资源监控的一部分。K8s监测通常需要覆盖以下8方面:Cluster(集群),Node8(节点),Workspace(企业空间),Namespace(项目),Workload(工作负载),Pod7(容器组),Container(容器),Component(KubeSphere核心组件)。其常见监控指标为:集群节点总数、集群中调度完成Pod数。

六、中间件监测

中间件是介于应用系统和系统软件之间的一类软件,位于客户机服务器的操作系统之上,管理计算资源和网络通信,衔接网络上应用系统的各个部分或不同的应用,从而实现资源共享、功能共享的目的。中间件是一类独立的系统软件服务程序,分布式应用软件借助中间件在不同的技术之间共享资源,根据链接的资源和功能的不同,中间件分为消息中间件、交易中间件和服务器中间件等种类。

1、消息中间件

常见指标消息中间件利用高效可靠的消息传递机制进行数据交流,并基于数据通信来实现分布式系统的集成。只要有网络就会有数据传递,消息中间件的应用牵涉到数据传输的安全可靠,在任何网络环境下都具备较强的刚需属性。消息中间件包含老牌的ActiveMQ5、RabbitMQ以及炙手可热的Kafka,RocketMQ等。

消息中间件常见指标包括:消息订阅错误数、消息订阅数量、消息推送平均耗时、消息推送错误数、消息推送数量、消息订阅平拒绝耗时。

2、交易中间件常见指标

交易中间件是协助开发在线交易系统(OLTP)的C/S/S应用框架,其主要功能包括:1、支持大量客户端的链接和高并发交易的处理;2、便捷定制应用服务功能,实现服务器端的业务逻辑;3、对企业各个层次的IT资源均衡使用;4、提供一定程度的交易安全保证。交易中间件在金融、财税、运输、电力、电信等行业中具有广泛应用和推广。

交易中间件通常使用java来开发,所以在运维监测过程中需要关注JVM的使用情况,常见指标包括:

新生代内存的垃圾收集事件称为YoungGC(又称MinorGC),当JVM无法为新对象分配新生代内存空间时会触发YoungGC,需要关注其产生的平均数量和平均时间。

FullGC:清理整个堆的GC事件,包括新生代、老年代、元空间等,需要关注指标的平均数量及平均时间。

一般情况下,新创建的对象都会被分配到Eden区,为大多数对象分配内存的池,所以需要实时了解Eden区使用率及平均使用情况。在新生代中经历了N次垃圾回收后仍然存活的对象,就会被放到老年代。需要关注老年代使用率指标,用于对老年代区域中数据进行整理及分析。

七、数据库监测

数据库是按照数据结构来组织、存储和管理数据的仓库,是一个长期存储在计算机内的、 有组织的、可共享的、统一管理的大量数据的集合。

数据库监测常用指标说明

查询响应时间:即从提交查询到结果返回所需的时间。

QPS:每秒查询率QPS是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。

查询错误率:数据库查询过程中出错概率。

健康度:对数据库监控各项指标进行加权统计,并通过专家模型得到健康度打分。

连接数:数据库当前连接数,可以显示包括IP的连接方、连接个数、连接状态及接时长等信息。

链接利用率:数据库链接的可利用占比。

除此之外还需关注数据库请求平均耗时、数据库请求详情、SQL查询耗时排名等指标。

互联互通社区

互联互通社区-IT智库,是互联互通社区IT架构、前沿技术平台。包含科技趋势、总体架构、产业架构、技术架构、系统架构、业务架构等内容,内容简练,皆属干货,合作请+微信:hulianhutongshequ.