运维指互联网运维,通常属于技术部门,即运维部。

运维的职责是保证服务的稳定运行,考虑服务的可扩展性,从系统的稳定性和可运维性的角度,提出开发需求,定位系统的问题,并对突然出现的问题做到快速响应和处理。

运维的职责覆盖了产品从设计到发布、运行维护、变更升级及至下线的生命周期,与研发、测试、系统管理同为互联网产品技术支撑的4大部门。

运维的日常工作:

1、需要对系统的需求和设计方案进行分析,思考在保证稳定性方面有哪些可以加强的地方,并和系统的研发人员进行有效沟通

2、使用工具、或者写程序,对运营数据进行分析。

3、写程序以建立工具或平台,去加强系统的稳定性。

运维工程师最重要的是会运用编程和软件的方法来解决问题。发展的道路应该和软件工程师没有很大的区别,差异只是关注点和领域方向的不同。

在云时代,其实开发有几个趋势,一个就是快速开发越来越重要,整个需要敏捷,开发也需要非常快,这样才能降低风险,能快速交付。现在有一些大的趋势,做一些小的比较专注的应用,有一些APP有一定特点集中管一些事,能够快速的响应客户的需求和尝试,这些都是互联网的特点,迅速试一下,如果不行赶快换一个新的方法。开发测试现在是在IT里面最能够反应敏捷的环节,为什么?如何能够不受限制来访问这些资源,测试是最早开始反应产品在市场上,在客户上会怎么样的方法,想更快的上市,想提高效率。所有这些都使得开发测试变成整个IT里面非常能体现是否具有敏捷、快速优势的机会。

这个是我们运维平台的场景规划图,下面是我们一个核心的调动模块。包括执行、采集以及和其他流程的对接,中间是我们这个运维平台主要要做的事情,我们把这个叫做运维OS,图表管理实现自动化拓扑和自定义报表,全生命周期管理是实现应用系统从上线到下线通过我们这个平台实现一个自动化的实施。

运行环境管理和运维工具给实际的运维人员提供一个比较便利的一个操作环境,包括备份比对,作业编排以及参数管理等,容量管理我们是希望通过我们这个平台将监控的数据进行一个汇总,实现对容量的管控。

高可用管理对我们各个应用系统,各个层面的组件的可用性进行一个统一的管理,可用性监控,自动化可用性演练