无论是传统数据中心,还是云时代的数据中心,运维监控都是运维工作的重点,而且运维监控是一个整体,你必须尽可能监控的全面和深入,你的监控数据才会更有价值,例如你想监控业务应用,可是如果没有基础监控数据(OS、数据库、中间件、网络等),你觉得你的监控会到位吗?那么如何建设一个全面和深入的监控体系呢?
告警事件是数据中心运维的核心驱动力,我们做的所有运维工作都是要减少业务出现故障的概率,提供更高的业务可用性。不知道大家是否认可这句话?还是看这张图,通过这张图,把这个问题讲透:
企业数据中心需要改善运维现状,提高运维水平,更好的为业务服务,ITIL肯定是不二的选择,因为毕竟ITIL是运维方面的最佳实践。但是ITIL只是告诉你如何才能提高运维能力,但是并没有告诉你怎么才能在你的企业里做好ITIL的落地工作,进而真正对运维发挥效果,所以具体怎么做,还是得你按照ITIL的理念去结合企业实际情况去落地。落地的时候你可能会有两个选择,是通过ITIL流程落地呢?还是去通过ISO20000认证呢?
聊到这个话题,首先必须定义什么的是项目的失败?在我看来,项目的失败是分为几个层面的: 1 战斗层面。指的是项目在具体实施时,出现一些技术层面的问题,例如实施时人员组织问题或技能不够导致局部实施有些不顺畅,出了一些问题,但基本还是达到了预期的目标和时间。 2 战术层面。指的是项目在实施时在项目整体上出现偏差,导致项目最终离预期有较大差距,时间和成本有耗费,验收有困难。例如一开始项目需求阶段需求收集有问题,没有完全将需求收集到,或者平台设计阶段有问题,没有完全实现用户的功能需求。 3 战略层面。指的是项目在实施时在项目整体目标上有偏差,导致项目费了好大力,但是确是无用功,让人失望之极。
运维自动化是从2010年以后起来的一个运维需求,10年之前,运维项目主要集中在监控和ITIL流程上,当时也有BMC Control-M等产品在推,但是客户接受程度和影响力不如监控和流程。10年之后,运维自动化提上日程,建行开始招运维自动化的标,IBM、BMC、HP都纷纷参与,测了三轮,最后HP opsware中标,只能说一句厉害!工商银行也在自己组织服务商做自己特色的运维自动化平台,做了3、4年,基本成型,服务商也做出了自己的运维自动化产品,正式推向市场。当时运维自动化的主要功能是五项:自动化巡检、配置管理、软件管理、合规审计、任务调度。配置管理主要是对网络设备配置的自动备份、恢复、配置比对等功能,和CMDB不是一回事!
运维项目千千万,今天重点讲一下IT服务管理的项目,也是在过去几年各个企业数据中心都在建设的东东:ITIL、综合监控和运维自动化。先看ITIL逻辑架构图:
从实际经验来看,每个企业的数据中心运维上都不会是十全十美的,因为毕竟企业业务发展是迅速的,对IT的要求相应也是也是越来越高,越来越复杂,所以无论是在运维团队架构上,还是在具体的管理层面上,尽管现实空间有限,但都有很多值得调整的空间和余地,且听我道来! 先看看这张运维模型,了解一下企业运维到底包括了那些东西:
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号