监控与自动运维平台 Zabbix简介 Zabbix是一个开源的监控平台,基于C/S方式采集数据,并使用B/S的Web方式展示数据。具有主机性能、数据库性能、Web应用、CPU、IO状态、硬盘、存储空间、连接数、应用服务状态、接口等百余项监控功能,并提供详细的报表、图表展示,以及按照配置的触发器生成指定的健康报告等。基于Zabbix提供的API接口,也可以进行一定程度的开发对接到
转载
2024-02-24 00:14:42
153阅读
1、为何需要监控监控是运维工程师的眼睛,它可帮助运维工程师第一时间发现系统的问题。对于服务器的整个生命周期,都要和监控打交道:当有服务器上架,都需要加入比如CPU负载、内存、网络、磁盘等基础监控项;当服务器上开始跑应用时,需要加入对应的应用监控,比如Tomcat/Resin,MySQL等;当服务器进行维护时,需要暂停监控项的告警提示,否则当我们在维护MySQL,监控系统还会给我们报警说MySQL挂
转载
2024-03-05 13:07:15
126阅读
Introduction 监控系统是整个运维环节,乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供翔实的数据用于追查定位问题。监控系统作为一个成熟的运维产品,业界有很多开源的实现可供选择。当公司刚刚起步,业务规模较小,运维团队也刚刚建立的初期,选择一款开源的监控系统,是一个省时省力,效率最高的方案。之后,随着业务规模的持续快速增长,监控的对象也越来越多,越来越复杂,监控系统的使
什么是分布式、什么是分布式调度、分布式调度要实现的目标什么是分布式什么是分布式调度分布式调度要实现的目标 什么是分布式软件架构的发展过程,单体架构→单体集群架构→分布式架构→微服务架构。分布式架构就是将单体结构拆分为若干服务,服务之间通过网络交互来完成用户的业务处理,以广泛的电商来说,可以将一个单体架构拆分为下面的分布式架构。 分布式系统具有如下特点:分布性:每个部分都可以独立部署,服务之间交互
转载
2024-09-25 14:39:43
44阅读
上一期中讲,建设统一运维监控的过程中,首要第一步是做好数据治理,只有循序渐进的踏实耕耘,再来播种施肥,才能让智能运维在最后开美丽的花、结香甜的果。知其然,亦知其所以然让运维实现有深度的可观测打好了基石(数据治理),下面就是逐步去实现智能运维中的深度可观测。那什么是有深度的可观测?老杨理解的是把他拆为两个方面,即观和测。1、监控为观观其实在传统监控中间有非常多的实践,也有很多工具,但仅仅是监控是不够
转载
2024-05-20 21:17:24
9阅读
乘长假期间春光明媚,得空回顾了一下十年工作。深以为,运维安全绝对是企业安全保障的基石。看到这儿,有些程序猿不禁要问,哥们,你是不是写错了,应该是安全运维吧!非也!事实上,安全运维和运维安全是两个概念。我的理解:安全运维是工程师对各种安全设备和软件进行运维保障系统安全,而运维安全相比之下是涵盖了整个云计算系统和安全有关的方方面面。本文主要探讨公有云环境下运维安全常见的难题及解决方案。目前使用公有云的
一个成熟的自动化运维系统至少应该包括三个子系统: 机房设备数据系统 (EMDB) 1.录入机房服务器和网络设备的各种信息,比如机器型号,硬盘大小,OS类型,所属应用,运行状态,机房名称,所在房间,机架,位置等等各种信息,这是一个最基础的数据库,最主要的目的是给每个机器从多个维度统一打上各种标签,方便其他系统的使用。  
转载
2024-05-02 16:38:48
79阅读
一、背景分析目前工业机械设备的使用范围越来越广泛。很多客户在购买机械时,常常使用金融租赁的方式实现工业机械的购买,但是由于工业机械设备使用时不容易管理,并且比较分散,金融租赁公司需要对相关机械的使用等情况详细了解,另外,部分机械驾驶员操作不规范,也导致机械损坏率提高。所以将远程监控及智能化系统引入到工程机械中使用,目的是为了给用户提供一种强大的技术支持,包括设备的远程监控、故障预警及设备远程故障诊
转载
2024-07-10 15:05:01
421阅读
没有中台的时代在传统IT企业,项目的物理结构是什么样的呢?无论项目内部的如何复杂,都可分为“前台”和“后台”这两部分。什么是前台?首先,这里所说的“前台”和“前端”并不是一回事。所谓前台即包括各种和用户直接交互的界面,比如web页面,手机app;也包括服务端各种实时响应用户请求的业务逻辑,比如商品查询、订单系统等等。什么是后台?后台并不直接面向用户,而是面向运营人员的配置管理系统,比如商品管理、物
经历过去 O、静态化、异地多活、全链路压测、双 11 等多个高可用项目之后呢,我就会去思考说我们能不能把这些高质量的架构通过产品化的方式,让阿里之外的公司也能够享受到这样优质的架构,而且不需要踩我们之前所碰到的那些坑。这就是我今天主要给大家介绍的我们做的叫 EWS 的一个产品,以及我们做这个产品当中的一些思考。首先什么是 EWS, EWS 是针对互联网应用提供的系统构建、发布、持续集成、运维管理的
运维服务管理的难点
以下基于我们公司的情况讨论运维服务管理,可能并不是非常具有代表性,只是希望可以找出运维服务管理中的一些经常会碰到的难点,以前有没有对应的解决方法。前段时间一位朋友说了一个观点,运维服务是自动化程度最低的一个行业,
转载
精选
2010-12-05 21:43:39
3060阅读
http://7179867.blog.51cto.com/7169867/1627960 http://7179867.blog.51cto.com/7169867/1627963
转载
精选
2015-05-28 11:30:14
999阅读
在Kubernetes(K8S)中,运维(Operations)是一个至关重要的方面,它涉及到保持集群的高可用性、监控集群的健康状态、处理故障等。运维的系统可以帮助我们更有效地管理K8S集群,并确保应用程序的可靠运行。在接下来的文章中,我将向您介绍如何实现一个基本的运维系统,并为您提供相应的代码示例。
### 运维系统的实现流程
下面是实现一个基本运维系统的流程,我们将使用Prometheus
原创
2024-05-20 10:14:24
295阅读
近年来,企业业务规模的急剧上升,导致运维场景的复杂性也呈指数性上升,原本依靠人工经验的运维工作难度也变得更具有挑战性,而基于机器学习的智能运维(AIOps)开始得到企业 IT 人员的关注。AIOps(Algorithmic IT operations platforms),即基于算法的 IT 运维平台,也是 DevOps 未来发展的一个趋势。简言之,AIOps 将机器学习算法引入运维中的监控和
转载
2023-10-08 20:26:30
145阅读
作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为网络运维难点的防火作为
原创
2021-03-19 11:18:21
190阅读
一、1、以资产和平台为目标,明确监控数量和监控维度 1.1、管理入口、数据区、接口、网络边界和DMZ,这些都是必须重点监控的 1.2、以管理入口为例:IP绑定,前后台分离,后台验证码、登录监控、IP白名单、二次验证机制、httponly+hash(预防CSRF or XSRF)、登陆凭证单IP锁定,多地登陆告警、异地登陆手机验证、访问行为学习监控
本次博客会介绍智能运维的相关技术。 服务器运维,已经从人工运维走向自动化、智能化,因此,了解并掌握智能运维技术,是未来运维工作的重要基础。服务器运维体系的演变趋势随着ICT系统的规模不断扩大,设备的分散部署,业务承载量的不断上升,导致设备故障率不断变高,企业在ICT运维管理方面的投入,从人力、时间、资金上呈明显上升趋势,华为硬件的运维开发新特性,全力围绕自动化、智能化运行,如下图所示是服务器运维体
转载
2024-04-28 09:52:19
203阅读
由于全球经济形势依然不明朗,IT开支同样变得更加保守。云计算带来了潜在的竞争优势。云计算为各种各样的IT部门带来了机会,可以降低与内部部署型IT基础设施(软硬件)有关的风险。学习云计算就业方向多,运维是其中比较重要地岗位之一。有人好奇云计算运维工程师和传统运维有什么区别? 云计算带来的不同于传统运维的应用层面的挑战:应用如何在云平台上实现应用的快速部署,快速更新,实时监控。云计算时代要求
转载
2024-02-23 09:53:23
23阅读
一、引言
在软件系统的生命周期中,系统运维是至关重要的一环。它不仅关系到系统的稳定运行,还直接影响到企业的业务连续性和成本控制。特别是在软考(软件水平考试)的框架下,系统运维费用测算成为了一个重要的考核点。本文将围绕系统运维费用测算展开探讨,分析其在软考中的重要性,并探讨如何合理有效地进行费用测算,以助力企业在激烈的市场竞争中脱颖而出。
二、系统运维费用测算的定义与意义
系统运维费用测算,
原创
2024-06-17 12:54:29
78阅读
前提 其实小编之前也接手过一些系统的运维工作,例如永和豆浆收
原创
2022-07-29 11:55:33
1387阅读