产品应用运维监控体系


by alvin,ethan



一、监控告警分类


监控告警包括:网络、机器、进程、业务逻辑四个层面的监控与告警。


底层

监控为网络与机器层面的监控。 上层 级别的监控包括:机器、进程、业务逻辑。


二、网络监控告警及处理


网络监控包括内网监控与外网监控。


三、机器监控告警及处理


1.硬盘满,死机,机器故障等


这些是统一监控的,针对机器层面进行监控与告警,方法主要是采取在机器上内置

客户端 进行监控。


2.Cpu与内存


这些是内部进行监控的。


四、进程监控告警及处理


进程监控主要包括:Http,Ps,jvm监控,log日志监控。


五、业务逻辑监控告警及处理


5.1接口监控


接口监控主要包括内部接口与外部接口,监控接口的成功,失败与耗时。


5.2动态页面监控


统计

负载均衡体系 的页面的失败率、超时率等。


5.3域名流量监控


统计

负载均衡体系的 域名的流量等信息,并告警


5.4业务平台告警


业务平台是后端掉service,service

调 外部接口的仲裁模块,业务平台切换服务器时会报警。


5.4 自动测试监控


自动测试监控是基于用户层应用场景的监控,是最上层的

和主动的 监控,下面任何一层的问题都有可能影响到自动测试监控的失败并告警,自动测试监控告警需要结合其他监控情况一起定位原因。