介绍选择机房时,需要知道机房的网络请况,就需要用到网络监控软件smokeping。smokeping由Perl语言写成,底层依赖于rrdtool和fping。主要是监视网络性能,包括常规的ping,用echoping监控www服务器性能,监控dns查询性能和监控ssh性能等。底层时以rrdtool做支持,使用画图来表示网络丢包和延迟。从监控图上的延时与丢包能分辨出你机房的网络是否稳定,是否为多线,
转载
2024-10-25 08:54:21
54阅读
运维行业有句话:“无监控、不运维”,是的,一点也不夸张,监控俗称“第三只眼”。没了监控,什么基础运维,业务运维都是“瞎子”。所以说监控是运维这个职业的根本。尤其是在现在DevOps这么火的时候,用监控数据给自己撑腰,这显得更加必要,有人说运维是背锅侠,那么,有了监控,有了充足的数据,一切以数据说话,运维还需要背锅吗,所以作为一个运维工程师,如何构建一套监控系统是你的第一件工作。在开篇之前,让我们以
原创
2021-12-31 18:23:13
263阅读
本专栏的标题是“无监控、不运维”,是的,一点也不夸张,监控俗称“第三只眼”。没了监控,什么基础运维,业务运维都是“瞎子”。所以说监控是运维这个职业的根本。尤其是在现在DevOps这么火的时候,用监控数据给自己撑腰,这显得更加必要,有人说运维是背锅侠,那么,有了监控,有了充足的数据,一切以数据说话,运维还需要背锅吗,所以作为一个运维工程师,如何构建一套监控系统是你的第一件工作。在开篇之前,让我们以全
推荐
原创
2018-10-30 16:21:32
10000+阅读
点赞
14评论
监控俗称“第三只眼”
转载
2021-07-07 10:52:48
148阅读
手把手教大家快速搭建一套告警系统
原创
2019-09-19 11:14:06
1755阅读
没安装动力环境监控的机房,会怎么样? 如果说氧气是我们的依靠,动环监控也可以是机房的保障。 如今,互联网和大数据时代正在不断发展。计算机机房建设日新月异,突出问题。智能化,是为了节省人类的体力劳动和脑力劳动,使人类的信息天线不断延伸。机房对动环监控的需求不亚于人类对氧气的需求。没有动环监控,“智能”不再是“智能”。 但总会有一些较小的信息中心如:小型基站、小型机房等,由于成本和网络的原
转载
2024-07-15 16:15:20
12阅读
一些常用的监控shell(自动修复)1、tomcat的带自愈#!/bin/bash aa=`ps -ef | grep tomcat | grep -v "grep"| wc -l`if [ $aa == 1 ] then echo "tomcat服务已经启动"else tomcat服务异常,开始重启 sh /usr/local/tomcat/apache-tomcat-7.0.42/bin/ &
原创
精选
2022-07-05 08:49:20
293阅读
运维行业有句话:“无监控、不运维”,是的,一点也不夸张,监控俗称“第三只眼”。没了监控,什么基础运维,业务运维都是“瞎子”。所以说监控是运维这个职业的根本。尤其是在现在DevOps这么火的时候,用监控数据给自己撑腰,这显得更加必要,有人说运维是背锅侠,那么,有了监控,有了充足的数据,一切以数据说话,运维还需要背锅吗,所以作为一个运维工程师,如何构建一套监控系统是你的第一件工作。在开篇之前,让我们以
原创
2023-10-09 15:52:31
161阅读
点赞
本文可以看做是对《SRE》一书第10章《基于时间序列数据进行有效报警》的实践总结
原创
2022-08-21 00:30:24
226阅读
目前很多企业信息化系统都有自己的监控平台和监控手段,无论是采用哪种手段去实现对系统的实时监控和故障告警,大多采用的方式也只有两种:一、集中式监控和分布式监控。博主根据自身公司监控存在的问题,总结了一些经验并提出一些在监控平台建设建议以供大家参考学习,如有考虑不周的地方还希望大家多多批评指正哦。为了更好、更有效的保障系统上线后的稳定的运行。对于服务器的硬件资源、性能、带宽、端口、进程、服务等都必须有
转载
2024-02-09 16:50:23
582阅读
日常IT运维遇到的问题
前段时间刚好和运营商网络运维中心的几位工程师进行了一次沟通,无意中聊到了平时是如何进行日常运维工作的话题,他们一致的感觉是又累又繁琐。便觉得很纳闷,经过了解才明白由于运营商级别对网络稳定的要求很高,每天都要实时了解网络中资源的运行状态,比如核心网络设备是否运行正常,关键应用服务器上的进程是否运行正
转载
2024-03-10 11:19:15
103阅读
监控系统俗称「第三只眼」,几乎是我们每天都会打交道的系统,它也一直是IT系统中的核心组成部分,负责问题的发现以及辅助性的定位。 ChengYing作为一站式全自动化全生命周期大数据平台运维管...
原创
2023-07-05 11:49:56
113阅读
产品应用运维监控体系 by alvin,ethan
一、监控告警分类
监控告警包括:网络、机器、进程、业务逻辑四个层面的监控与告警。
底层
监控为网络与机器层面的监控。
上层
级别的监控包括:机器、进程、业务逻辑。
二、网络监控告警及处理
网络监控包括内网监控与外网监控。
三、机器监控告警及处理
转载
2024-03-11 19:28:39
62阅读
北京智和信通基于视频监控系统项目资源规模大、设备种类复杂、设备厂商众多、分布分散、维护人员繁杂等基本问题,再结合该单位的需求,采用智和网管平台SugarNMS开发视频监控事件预警及运维系统。实现跨型号、跨厂家、跨地域、跨平台的视频摄像头、网络设备、第三方系统的可视化综合运维及分析管理。赋能管理员做到事前预防、事中根源分析找到问题源头、事后统计分析的能力。
转载
2024-05-27 11:01:33
125阅读
一、运维监控基础1.报告网路/系统/业务运行状况2.提前发现被监控设备的问题二、监控的资源类别硬件监控:CPU、内存、磁盘I/O系统监控:存活状态、进程数、用户数、磁盘使用率网络监控:故障点监测、出站流量、入站流量应用监控:Web/FTP等服务、TCP/UDP端口检测三、监控服务平台Cacti---------基于SNMP协议的监控软件,强大的绘图能力Nagios-------基于Agent监控,
转载
2024-05-11 17:16:48
161阅读
概括:主机监控、信息统计、硬件维护、系统维护、网络维护。分层运维计算机的广泛应用,是在于它的模块化设计,以及分层体系,PC的硬件是由CPU、内存、硬盘、主板、输入输出设备等组成。正是这些模块化的构造让人们对计算机的维护更加的方便,快捷。云计算时代,是必然的趋势,因为人们对信息自由的渴望,对资源合理利用的需要。云计算的发展也少不了用模块化,分层次的进行设计和优化。
云计算的分类 云计算可以认为包括以
转载
2023-10-20 23:06:59
230阅读
本文介绍几款Linux运维比较实用的工具,希望对Linux管理员有所帮助。1、查看进程占用带宽情况-NethogsNethogs 是一个终端下的网络流量监控工具可以直观的显示每个进程占用的带宽。 下载:sourceforge.net/projects/ne…[root@localhost ~]#yum -y install libpcap-devel ncurses-devel
[root@loc
转载
2024-02-26 21:55:17
51阅读
现状•小公司/ 创业团队< 500台服务器规模开源方案:Zabbix、Nagios、Cacti…云服务提供商:监控宝、oneAlert等•BAT级别> 10万台服务器投入大量的人力,内部自研,与业务严重耦合没法作为产品推出•中间阶层无从可选早期,选用Zabbix•Zabbix是一款开源的企业级监控系统•对其进行二次开发、封装、调优…•为什么选择Zabbix•Cacti•Co
转载
2023-08-04 10:38:34
280阅读
近期遇到项目需要定制开发运维监控软件,考虑到监控的规模比较大,数量比较多,所以不能随随便便找个开源的监控软件就能应付了事的,还是要认真对待。N年以前笔者曾经使用过Nagios,catti以及MRTG等相关软件,但是随着近几年虚拟机、容器等新技术的应用,原来的这些软件也有点逐步落伍了。查阅N多资料和网上文档,提到的比较多的两个运维监控软件是Zabbix和Prometheus。笔者亲自安装测试了一番,
转载
2024-03-10 17:52:00
83阅读
基于RRDTOOL+CACTI性能监视系统的架构一、概述 Linux下用的最多的是MRTG的性能监视,MRTG配置比较简单,MRTG的确是非常好的东东,但我认为它毕竟已经是一套很旧的软件了,其作者在多年前就已经开发了RRDTool代替该软件,现在已经发展得很成熟。既然有更好的选择,为什么我们还要用MRTG呢? 简单的说,rrdtool就是一个强大的绘图的引擎,很多语言都可以调用rrdtool绘图。
转载
2024-03-25 22:33:32
104阅读