本人运维某生态互联网监控平台服务。过程中遇见了很多问题。目前互联网有很多的开源监控工具:nagios、zabbix、falcon、cacti...各有优点。这里不讲解监控工具的优缺点。写一些新搭建监控平台。需要哪些监控项。避免监控一头雾水。具体每个监控项会有若干小项。
监控的简单架构
具体一个机器监控项。基本就是下面的这些。尽量少的监控项,更加高效的分析报警
(1)首先一定是基础的硬件层面(机器的的基础组件)
ipmi 、监控cpu、温度、卡槽、raid状态、内存
(2)系统层面监控。(这里只介绍linux的相关监控)
CPU、内存、连接数、网卡、磁盘、inode、系统负载、TCPEXT、远控卡状态、打开的文件数、磁盘只读、进程数、swap读写频率
采集系统信息:网络上连、内存(厂商,型号,大小,个数)、磁盘(厂商,型号,大小,个数)、cpu(厂商,型号,大小,个数)
(3)基础服务
日志监控:系统日志、基础服务日志、rsyslog、DNS检查、ntp检查时区、puppet自动化管理工具
(4)基础操作与进程
端口,进程,登陆次数,密码修改。使用人命令收集(保存7天)、cpu高的进程、连接数高的进程、内存高的进程
(5)应用层监控
mysql为例:cpu、磁盘、内存、日志、连接数、队列、锁、操作频率(增删查改)
(6)补充监控
ping监控、web(http、https)监控,snmp监控,rpc接口监控、机器互相ping监控、telnet端口、系统基础日志分析
(7)报警平台
报警平台:邮件、短信、微信、电话
服务的日志:采用的BI部门来分析。监控部门提供报警接口(采用token认证)
参考: