没安装动力环境监控的机房,会怎么样? 如果说氧气是我们的依靠,动环监控也可以是机房的保障。 如今,互联网和大数据时代正在不断发展。计算机机房建设日新月异,突出问题。智能化,是为了节省人类的体力劳动和脑力劳动,使人类的信息天线不断延伸。机房对动环监控的需求不亚于人类对氧气的需求。没有动环监控,“智能”不再是“智能”。 但总会有一些较小的信息中心如:小型基站、小型机房等,由于成本和网络的原
转载
2024-07-15 16:15:20
12阅读
介绍选择机房时,需要知道机房的网络请况,就需要用到网络监控软件smokeping。smokeping由Perl语言写成,底层依赖于rrdtool和fping。主要是监视网络性能,包括常规的ping,用echoping监控www服务器性能,监控dns查询性能和监控ssh性能等。底层时以rrdtool做支持,使用画图来表示网络丢包和延迟。从监控图上的延时与丢包能分辨出你机房的网络是否稳定,是否为多线,
转载
2024-10-25 08:54:21
54阅读
运维行业有句话:“无监控、不运维”,是的,一点也不夸张,监控俗称“第三只眼”。没了监控,什么基础运维,业务运维都是“瞎子”。所以说监控是运维这个职业的根本。尤其是在现在DevOps这么火的时候,用监控数据给自己撑腰,这显得更加必要,有人说运维是背锅侠,那么,有了监控,有了充足的数据,一切以数据说话,运维还需要背锅吗,所以作为一个运维工程师,如何构建一套监控系统是你的第一件工作。在开篇之前,让我们以
原创
2021-12-31 18:23:13
263阅读
本专栏的标题是“无监控、不运维”,是的,一点也不夸张,监控俗称“第三只眼”。没了监控,什么基础运维,业务运维都是“瞎子”。所以说监控是运维这个职业的根本。尤其是在现在DevOps这么火的时候,用监控数据给自己撑腰,这显得更加必要,有人说运维是背锅侠,那么,有了监控,有了充足的数据,一切以数据说话,运维还需要背锅吗,所以作为一个运维工程师,如何构建一套监控系统是你的第一件工作。在开篇之前,让我们以全
推荐
原创
2018-10-30 16:21:32
10000+阅读
点赞
14评论
监控俗称“第三只眼”
转载
2021-07-07 10:52:48
148阅读
手把手教大家快速搭建一套告警系统
原创
2019-09-19 11:14:06
1755阅读
序言 运维分为两种,一种是运维服务,一种是系统运维,而里面又可以继续细分,但是总体上来说,一种是对外的,直接面对客户的,一种是对内的,可能是客户无感知的,例如中断1秒。 我们总是喜欢做自己擅长的事,对于不会的,除了望羊心叹,还能干啥?还能放弃咯。。。风言风语 人与人之间靠什么保持连接呢?和检活报文一样的探测包?不是很懂,明天会是什么样呢?谁又会认识谁。。。 运维无小事,每一
原创
2021-03-08 21:43:17
971阅读
一些常用的监控shell(自动修复)1、tomcat的带自愈#!/bin/bash aa=`ps -ef | grep tomcat | grep -v "grep"| wc -l`if [ $aa == 1 ] then echo "tomcat服务已经启动"else tomcat服务异常,开始重启 sh /usr/local/tomcat/apache-tomcat-7.0.42/bin/ &
原创
精选
2022-07-05 08:49:20
293阅读
运维行业有句话:“无监控、不运维”,是的,一点也不夸张,监控俗称“第三只眼”。没了监控,什么基础运维,业务运维都是“瞎子”。所以说监控是运维这个职业的根本。尤其是在现在DevOps这么火的时候,用监控数据给自己撑腰,这显得更加必要,有人说运维是背锅侠,那么,有了监控,有了充足的数据,一切以数据说话,运维还需要背锅吗,所以作为一个运维工程师,如何构建一套监控系统是你的第一件工作。在开篇之前,让我们以
原创
2023-10-09 15:52:31
161阅读
点赞
本文可以看做是对《SRE》一书第10章《基于时间序列数据进行有效报警》的实践总结
原创
2022-08-21 00:30:24
226阅读
目前很多企业信息化系统都有自己的监控平台和监控手段,无论是采用哪种手段去实现对系统的实时监控和故障告警,大多采用的方式也只有两种:一、集中式监控和分布式监控。博主根据自身公司监控存在的问题,总结了一些经验并提出一些在监控平台建设建议以供大家参考学习,如有考虑不周的地方还希望大家多多批评指正哦。为了更好、更有效的保障系统上线后的稳定的运行。对于服务器的硬件资源、性能、带宽、端口、进程、服务等都必须有
转载
2024-02-09 16:50:23
582阅读
日常IT运维遇到的问题
前段时间刚好和运营商网络运维中心的几位工程师进行了一次沟通,无意中聊到了平时是如何进行日常运维工作的话题,他们一致的感觉是又累又繁琐。便觉得很纳闷,经过了解才明白由于运营商级别对网络稳定的要求很高,每天都要实时了解网络中资源的运行状态,比如核心网络设备是否运行正常,关键应用服务器上的进程是否运行正
转载
2024-03-10 11:19:15
103阅读
北京智和信通基于视频监控系统项目资源规模大、设备种类复杂、设备厂商众多、分布分散、维护人员繁杂等基本问题,再结合该单位的需求,采用智和网管平台SugarNMS开发视频监控事件预警及运维系统。实现跨型号、跨厂家、跨地域、跨平台的视频摄像头、网络设备、第三方系统的可视化综合运维及分析管理。赋能管理员做到事前预防、事中根源分析找到问题源头、事后统计分析的能力。
转载
2024-05-27 11:01:33
125阅读
本文介绍几款Linux运维比较实用的工具,希望对Linux管理员有所帮助。1、查看进程占用带宽情况-NethogsNethogs 是一个终端下的网络流量监控工具可以直观的显示每个进程占用的带宽。 下载:sourceforge.net/projects/ne…[root@localhost ~]#yum -y install libpcap-devel ncurses-devel
[root@loc
转载
2024-02-26 21:55:17
51阅读
现状•小公司/ 创业团队< 500台服务器规模开源方案:Zabbix、Nagios、Cacti…云服务提供商:监控宝、oneAlert等•BAT级别> 10万台服务器投入大量的人力,内部自研,与业务严重耦合没法作为产品推出•中间阶层无从可选早期,选用Zabbix•Zabbix是一款开源的企业级监控系统•对其进行二次开发、封装、调优…•为什么选择Zabbix•Cacti•Co
转载
2023-08-04 10:38:34
280阅读
一、运维监控基础1.报告网路/系统/业务运行状况2.提前发现被监控设备的问题二、监控的资源类别硬件监控:CPU、内存、磁盘I/O系统监控:存活状态、进程数、用户数、磁盘使用率网络监控:故障点监测、出站流量、入站流量应用监控:Web/FTP等服务、TCP/UDP端口检测三、监控服务平台Cacti---------基于SNMP协议的监控软件,强大的绘图能力Nagios-------基于Agent监控,
转载
2024-05-11 17:16:48
161阅读
概括:主机监控、信息统计、硬件维护、系统维护、网络维护。分层运维计算机的广泛应用,是在于它的模块化设计,以及分层体系,PC的硬件是由CPU、内存、硬盘、主板、输入输出设备等组成。正是这些模块化的构造让人们对计算机的维护更加的方便,快捷。云计算时代,是必然的趋势,因为人们对信息自由的渴望,对资源合理利用的需要。云计算的发展也少不了用模块化,分层次的进行设计和优化。
云计算的分类 云计算可以认为包括以
转载
2023-10-20 23:06:59
230阅读
产品应用运维监控体系 by alvin,ethan
一、监控告警分类
监控告警包括:网络、机器、进程、业务逻辑四个层面的监控与告警。
底层
监控为网络与机器层面的监控。
上层
级别的监控包括:机器、进程、业务逻辑。
二、网络监控告警及处理
网络监控包括内网监控与外网监控。
三、机器监控告警及处理
转载
2024-03-11 19:28:39
62阅读
本文介绍了一些可以用来监控网络使用情况的Linux命令行工具。这些工具可以监控通过网络接口传输的数据,并测量目前哪些数据所传输的速度。入站流量和出站流量分开来显示。一些命令可以显示单个进程所使用的带宽。这样一来,用户很容易发现过度使用网络带宽的某个进程。这些工具使用不同的机制来制作流量报告。nload等一些工具可以读取"proc/net/dev"文件,以获得流量统计信息;而一些工具使用pcap库来
根据多年和运维打交道的经历,我发现,运维常常让监控变得无效。。。1.我的监控故事我做过两年多的运维工作,后面就转做运维平台开发了,也一步步看着监控系统越来越没用。1.1 有用的监控当我做运维要负责oncall时,我一直认为监控系统做的还可以,并不是因为做了太多事情,而是因为运维的业务还是单体应用,也没有太多的监控需要加。记得那会公司还是用Nagios(估计新人已经没多少人知道了),不过监控的维护工