WeOps赋能制造业数字化,助力坚美铝业IT高效管理_监控告警

佛山坚美铝业,是广东坚美铝型材厂(集团)旗下企业,是全国铝型材行业的龙头企业之一。坚美铝业集团年生产能力60万吨以上,铝材产品销售覆盖全国30+省市,远销全球70+国家和地区,品牌价值达112.17亿元。


01 建设背景


近年来,面对全球新冠疫情危机以及严峻复杂的国内外环境,传统铝型材制造业遭遇到了严峻挑战,但是作为南海区制造业头部企业,坚美铝业积极响应《广东省佛山市落实推动制造业数字化智能化转型发展》的政策号召,攻坚克难,加大对升级建设自动化生产基地的投入,扩大产能,保持企业良好的增长势头。


伴随着业务的蓬勃发展,应用系统及后台服务器数量成倍增加,应用架构越来越复杂,新技术带来的运维门槛越来越高。坚美铝业前期已建设零星的运维工具,如zstack自带监控、H3C(网管系统)等,相对分散,能力不够全面,对运维带来帮助如杯水车薪,运维困境日益凸显:


  1. 监控告警工具会产生大量无效告警,缺少有效手段收敛告警风暴,而且未能实现运维的联动,缺少配置-监控告警-工单-自动处理-告警自动关闭的故障闭环管理能力;
  2. 已有的运维工具属于竖井式建设,数据打通及联动困难,无法借助工具进一步提升运维运营服务能力,难以满足不断增长的业务系统运维需求;
  3. 缺少自动化运维工具,在巡检、资源交付、补丁管理等重复性较多的工作上,仍需要消耗大量的时间;
  4. 运维数据分散在各个工具系统,无法统一进行可视化展示、统计和分析,运维服务无法持续度量和优化。


如何快速提升运维管理水平,以更好地保障业务系统稳定运行,是坚美铝业IT部门迫切需要解决的问题。IT部门负责人曹部长高瞻远瞩,希望通过引进先进的技术和理念,基于一体化运维平台数据打通、扩展性强等特性,将线下的运维工作不断移植固化到平台上来,实现对同行业IT管理的弯道超车。


02 建设目标


基于一体化运维平台,实现IT资源对象可视、可控、可管的建设目标:


建立故障全生命周期的管理体系

提供覆盖资源管理、监控告警、健康巡检、故障自愈等多项功能为一体的运维平台,以故障定位和全生命周期管理为核心,持续保障公司业务连续性。

构建统一的告警中心,避免告警潮汐

接入zstack和H3C(网管系统)的告警信息到WeOps平台,实现告警统一展现,支持对告警进行收敛,避免告警潮汐。

构建主动服务能力,降低故障发生,提高系统稳定性

利用平台的健康扫描能力,可以定时自动对公司业务应用及IT资源进行健康扫描,提前发现系统性能故障及安全隐患,避免故障发生,提升业务应用运行的稳定性。

构建自动化运维能力,提升IT部运维工作效率

平台自带数十个自动化运维脚本,可解决常规运维问题,提高运维效率;也支持用户通过作业平台+标准运维,实现自动化脚本工具的自主开发;同时具备自动补丁安装能力,可以实现服务器补丁的批量安装,缓解运维压力。

构建可视化运维管理体系,随时掌握核心业务及应用运行状态

通过平台可实现资源状态大屏、应用墙、核心应用大屏等可视化大屏,可以实现公司整体资源运行健康状态、应用运行健康状态,实现运维的可视化。


03 落地嘉为蓝鲸WeOps


经过层层筛选,坚美铝业最终采用嘉为蓝鲸WeOps一体化运维平台,依托于“腾讯蓝鲸Paas平台先进技术支撑”和“嘉为20+年运维实践经验”这两大得天独厚的优势,帮助企业加快实现IT系统转型升级。

WeOps赋能制造业数字化,助力坚美铝业IT高效管理_监控告警_02

从前期的项目需求调研,技术方案设计,到平台的部署配置,再到平台功能的上线试运行,整体实施过程控制在2个月内完成,这得益于WeOps产品的资源管理、健康扫描、监控告警、数字大屏、知识库及自动化运维工具等模块功能开箱即用程度高,内置丰富的运维场景,一键启用。


目前,WeOps纳管了数百台服务器,覆盖数十套业务系统,通过模块功能之间相互联动,围绕故障全生命周期形成运维闭环管理。

WeOps赋能制造业数字化,助力坚美铝业IT高效管理_运维_03

04 落地嘉为蓝鲸WeOps


高效管理IT资产

WeOps自动生成发现采集和架构拓扑,覆盖了坚美铝业主机、基础软件等各个运维层面数十种IT对象,数百个IT资源;同时具有良好的扩展性,支持了第三方数据源的集成对接。

WeOps赋能制造业数字化,助力坚美铝业IT高效管理_运维_04

WeOps赋能制造业数字化,助力坚美铝业IT高效管理_运维_05

以往坚美铝业信息部门的资产管理,是每位管理员依靠Excel表记录各自负责的IT资产配置信息,并无统一汇总资源管理,这导致IT数据分散,信息准确率低、数据维护工作量大。WeOps上线使用后,CMDB实现从无到有的突破,运维人员告别手动操作,资产更新实现80%自动化,资产数据准确性提升5倍;并且每月可节约超过1天的人工维护成本,运维人员轻松应对半年度的资产盘点,可以花更多的时间精力在业务系统优化和建设上来。

WeOps赋能制造业数字化,助力坚美铝业IT高效管理_运维_06

全方位监控告警

WeOps灵活自定义监控仪表盘,涵盖健康扫描,及时感知故障

WeOps赋能制造业数字化,助力坚美铝业IT高效管理_数据_07

WeOps赋能制造业数字化,助力坚美铝业IT高效管理_运维_08

依托事件中心的聚类、抑制、收敛及屏蔽等告警算法,精准告警,避免告警潮汐

WeOps赋能制造业数字化,助力坚美铝业IT高效管理_监控告警_09

WeOps赋能制造业数字化,助力坚美铝业IT高效管理_监控告警_10

坚美铝业以往没有一套一体化运维平台来帮助监控告警,故障排查,运维人员通过人工巡检排查,难以快速定位故障原因,及时修复bug,从而影响业务的正常运行。8月下旬WeOps正式上线,经过一周的密切观察后,重新调整了告警策略,对生产存在的故障和隐患进行了集中处理,9月系统稳定运行。

WeOps赋能制造业数字化,助力坚美铝业IT高效管理_运维_11

总结WeOps近2个月的投产情况:监控的覆盖率提升190%,故障及时发现率提升220%,平均故障处理时长缩短72%,预计每年因故障影响业务运行状态的时间可减少72小时。

WeOps赋能制造业数字化,助力坚美铝业IT高效管理_数据_12

运维数据可视化、数字化

数据大屏动态汇总全局状态,运维全局一目了然,管理人员能直观审视业务运营与IT运维中的有效信息,提升IT管理的效能。

WeOps赋能制造业数字化,助力坚美铝业IT高效管理_监控告警_13

WeOps赋能制造业数字化,助力坚美铝业IT高效管理_运维_14

通过WeOps建设,嘉为科技成功助力坚美铝业业务实现可视、可管、可控,未来也将和坚美铝业持续合作生长,共同为铝型材生产业务注入科技动力,绘制制造业数字化蓝图!