运维巡检可能每个单位都有自己的一套标准,但是很多指标可能都是通用的,技术社群的这篇文章《巡检必须关注的指标》给我们提供了一些常用的通用巡检指标项,可以借鉴参考。

1. 系统整体架构

以下内容作为基本 IT 系统信息被首先调查记录,供分析参考使用。

● 网络设备配置

---设备型号, IOS 版本, 模块型号和数量,用途

● 存储系统配置

---设备型号, IO 带宽, Cache 容量,磁盘数量,接入模式,存储容量,LUN 配置,所属应用

● 主机系统配置

---设备型号,CPU 配置(类型,主频,数量) ,内存容量,网卡配置(数量,速率) ,内置硬盘配置(数量,容量,Raid) ,所属应用

● 数据库软件

---产品名称,版本号,所属应用

● 中间件软件

---产品名称,版本号,JDK 版本,所属应用

● 应用系统

---产品名称,版本号,架构平台,系统架构类型

2. 机房环境

巡检关注的通用指标项_系统备份

以上的条件可以现场观察和询问用户完成。

3. 网络系统

网络设备

巡检关注的通用指标项_数据库_02

巡检关注的通用指标项_数据库_03

防火墙

巡检关注的通用指标项_IT_04

IPS

巡检关注的通用指标项_系统备份_05

IDS

巡检关注的通用指标项_数据库_06

VPN

巡检关注的通用指标项_IT_07

4. 存储系统

巡检关注的通用指标项_IT_08

5. 主机系统

巡检关注的通用指标项_IT_09


巡检关注的通用指标项_IT_10

巡检关注的通用指标项_数据库_11

巡检关注的通用指标项_系统备份_12

6. 数据库系统

以 Oracle 数据库为例

巡检关注的通用指标项_数据库_13

巡检关注的通用指标项_系统备份_14

7. 中间件系统

巡检关注的通用指标项_数据库_15

8. 应用系统

巡检关注的通用指标项_数据库_16

巡检关注的通用指标项_系统备份_17

9. 备份与恢复系统

备份与恢复系统是 IT 系统中重要的容灾措施,IT 系统应该根据自身业务特点选取以下备份与恢复方案。

1.备份系统

设备系统备份:

● 部件的冗余

包括网络设备,主机设备,存储设备内部部件的冗余,保证在设备本身避免单点故障。

● 设备的冗余

网络层设备冗余包括交换设备的 HA 和线路冗余, 交换设备的 HA 可以实现故障发生时自动切换。主机层设备冗余可以采用冷备与热备两种方式, 热备即主机集群, 实现故障发生时自动切换。存储层的设备冗余指阵列间的镜像和异地复制方案。

● 数据系统备份

系统级归档备份一般采用磁带备份方式,备份设备可选取磁带机或磁带库制定备份策略,可以按一段时间周期,将完全备份、增量备份和差分备份组合使用制定备份策略。系统级归档备份的备份数据与在线生产数据存在备份间隔差异, 对数据库数据采用这种备份时应将数据库设置为归档模式,来消除这种差异,保证数据的完整性。

存储级数据备份本地镜像同城容灾镜像异地数据传输,分为同步和异步模式。

● 应用系统备份

应用系统备份基于网络备份,主机系统备份和数据备份的整合,方案中涉及以下因素:本地应用系统备份,远程应用系统备份手动应用切换,自动应用切换应用系统备份是备份方案中级别最高的备份形式,而其中自动应用切换的远程系统备份方案则是最高级备份方案,保证应用的完整性。

2.恢复系统

备份系统完成 IT 系统的容灾保证的一般工作, 恢复的成功与否是衡量备份方案有效的唯一标志。

备份是多次重复工作,而恢复操作则较少发生,这种情况下,验证备份有效性就尤为重要。通过制定以下策略与措施,保证恢复策略的有效性:

● 制定恢复应急预案

● 制定恢复流程

● 定期进行巡检、培训与演习

在实践过程中,需要巡检的内容可能很多,这就要结合实际的场景,基于这些通用的指标项,增加关注的一些个性化指标,丰富巡检内容,打造全方位的巡检体系,保障系统运行。

如果您认为这篇文章有些帮助,还请不吝点下文章末尾的"点赞"