1.1 介绍

  • 碧茂运维管理平台是针对大数据分布式集群系统设计的自动化运维管理平台,核心功能包括:
  • 集群资产管理
  • 监控系统
  • 告警系统
  • 系统巡检
  • 运维知识库系统等。

1.1.1 资产管理

  • 提供可视化界面实现对主机和集群资源的统一配置和管理,对各项监控管理任务进行调度配置、监控和管理。
  • 方便运维人员能随时掌握系统全貌,集群服务角色分布情况,硬件资源分配情况,能根据管理需求进行定制化定时任务调度。

1.1.2 监控系统

  • 主机的健康性能的监控
  • 集群服务的端口、健康性能指标的监控
  • 集群参数的监控,并自动给出调优建议
  • 集群日志的监控预警,自动化收集汇总集群进程和应用日志,并对错误日志进行预警

1.1.3 告警系统

  • 选择任意监控的指标和阈值,进行邮件告警

1.1.4 系统巡检(特色功能)

  • 对系统和集群进行健康和性能检查,自动化生成巡检报告。
  • 分为基础巡检和深度巡检。
  • 基础巡检指的是根据需求可以灵活选择需要巡检的服务、指标、参数,自动化生成巡检报告。
  • 深度巡检指的是对不同服务的结构对象进行深入分析诊断。

1.1.5 知识库系统(特色功能)

  • 一套高质量的集群管理运维相关的知识管理系统,包括运维工具箱、最佳实践和解决方案。
  • 知识库系统中的方案可以一键执行来实现复杂运维流程的自动化处理,包括:
  • 日常集群操作需求,包括服务启停、参数修改、备份恢复、集群扩容迁移、安全配置和升级
  • 自动化故障处理

1.2 功能详细介绍

1.2.1 登录界面

  • 用户首先需要获取license,激活产品后才能正常使用,提示如下:

智能工厂运维平台架构 智能运维管理平台方案_知识库系统

  • 点击激活,会自动生成机器码,请联系厂商获取激活码

智能工厂运维平台架构 智能运维管理平台方案_HDFS_02

  • 激活后,会提示到期日,产品可以正常进行登录了

智能工厂运维平台架构 智能运维管理平台方案_大数据_03

1.2.2 首页

  • 首页是向导页,以路线图的方式引导你进行集群配置和集群监控

智能工厂运维平台架构 智能运维管理平台方案_大数据_04

1.3 配置管理

1.3.1 全局配置

  • 用于配置全局参数和服务,包括
  • 数据保留配置
  • 告警服务
  • 告警配置
  • 数据库配置等

智能工厂运维平台架构 智能运维管理平台方案_HDFS_05

  • 修改全局参数

智能工厂运维平台架构 智能运维管理平台方案_智能工厂运维平台架构_06

1.3.2 数据库配置

  • 用于配置关系型数据库,支持Mysql和PostgreSQL等,通常是CM、Hive、Hue、Oozie等元数据库,方便管理和查询。

智能工厂运维平台架构 智能运维管理平台方案_HDFS_07

  • 支持添加和删除数据库配置

智能工厂运维平台架构 智能运维管理平台方案_HDFS_08

1.3.3 主机配置

  • 用于添加、修改和删除管理的主机信息
  • 查看主机配置

智能工厂运维平台架构 智能运维管理平台方案_知识库系统_09

  • 添加配置

智能工厂运维平台架构 智能运维管理平台方案_HDFS_10

1.3.4 服务配置

  • 用于添加修改或删除需要监控的集群类型、集群,包括服务、角色、主机、端口等
  • 目前支持的集群包括:CDH、HDP、ApacheHadoop、华为FusionInsight和星环
  • 目前支持的服务包括:HDFS、YARN、HBase、Hive、Zookeeper、Impala等
  • 查看监控服务配置

智能工厂运维平台架构 智能运维管理平台方案_知识库系统_11

  • 可以通过选择“集群名”或“服务名”来过滤查询
  • 查看主机角色分布

智能工厂运维平台架构 智能运维管理平台方案_知识库系统_12

  • 添加监控配置

智能工厂运维平台架构 智能运维管理平台方案_智能工厂运维平台架构_13

  • 集群类型

智能工厂运维平台架构 智能运维管理平台方案_智能工厂运维平台架构_14

  • 服务

智能工厂运维平台架构 智能运维管理平台方案_智能工厂运维平台架构_15

1.3.5 调度配置

  • 用于配置和监控集群监控所需的定时调度服务,包括:
  • 指标采集服务
  • 监控服务
  • 分析服务和其他需要定时调度的服务
  • 查看调度配置

智能工厂运维平台架构 智能运维管理平台方案_HDFS_16

  • 添加调度配置

智能工厂运维平台架构 智能运维管理平台方案_知识库系统_17

  • 查看调度日志

智能工厂运维平台架构 智能运维管理平台方案_大数据_18

1.4 集群监控

  • 此模块用于监控在“配置管理”模块中所添加的主机和服务

1.4.1 主机监控

  • 监控主机的健康状态和各项关键指标,包括:
  • CPU
  • 内存
  • 网络
  • IO
  • 进程等
1.4.1.1 主机监控概览
  • 所有集群主机的关键指标的展现,便于快速及时发现主机健康问题和资源问

智能工厂运维平台架构 智能运维管理平台方案_知识库系统_19

1.4.1.1单台主机监控页面
  • 用于展现单台主机所有监控指标,便于深入了解主机的配置情况和分析重要监控指标
  • 以下是部分截图:

智能工厂运维平台架构 智能运维管理平台方案_运维_20

智能工厂运维平台架构 智能运维管理平台方案_大数据_21

智能工厂运维平台架构 智能运维管理平台方案_大数据_22

1.4.2 服务监控

  • 监控集群服务的健康状态和性能指标。
  • 目前覆盖了HDFS、YARN、HBASE、HIVE等核心服务组件。
1.4.2.1 服务监控主页
  • 概览整个集群的所有服务状态、集群基本信息和各个组件的关键指标信息。
  • 另外,也提供了对集群的基本操作,包括服务启停等

智能工厂运维平台架构 智能运维管理平台方案_HDFS_23


智能工厂运维平台架构 智能运维管理平台方案_运维_24

  • 点击“操作”,可以对整个集群或服务进行启停操作

智能工厂运维平台架构 智能运维管理平台方案_运维_25


智能工厂运维平台架构 智能运维管理平台方案_知识库系统_26

1.4.2.2 服务监控详情页
  • 用于展现单个服务所有监控指标,便于深入了解服务的配置情况和分析重要监控指标。
  • 此外,也可以对特定主机的角色进行操作。
  • 以HDFS为例,以下是部分截图:

智能工厂运维平台架构 智能运维管理平台方案_HDFS_27

智能工厂运维平台架构 智能运维管理平台方案_运维_28

智能工厂运维平台架构 智能运维管理平台方案_知识库系统_29

  • 点击“操作”,对特定主机的角色进行启停

智能工厂运维平台架构 智能运维管理平台方案_知识库系统_30

1.4.3 参数监控

  • 监控集群服务的运行所配置的参数情况,用于及时掌握集群配置情况,参数分为4大类:
  • 文件目录参数
  • 主机端口参数
  • 运行环境参数
  • 性能参数
  • 每个参数都会有相应中文解释和调优建议,用户可以参考建议来优化集群。
  • 以HDFS为例,以下是部分截图:

智能工厂运维平台架构 智能运维管理平台方案_运维_31

智能工厂运维平台架构 智能运维管理平台方案_运维_32

1.4.4 日志监控

  • 监控集群服务的进程日志和应用日志
1.4.4.1 进程日志监控
  • 可以根据集群、服务、角色、日志级别和主机来选择要查看的日志类型,已经下载完整日志用于深入分析。

智能工厂运维平台架构 智能运维管理平台方案_运维_33

1.4.4.2 应用日志监控
  • 选择集群和日志级别,查看YARN应用日志

智能工厂运维平台架构 智能运维管理平台方案_智能工厂运维平台架构_34