第7章    平台运维管理


7.1    Hadoop集群监控


大数据平台以Web图形界面实现Hadoop集群监控,包括大数据平台的硬件资源、软件资源、数据资源的监控,以及整个Hadoop集群的工作负载。主要包括以下几个方面:


7.1.1    服务组件状态监控


通过管理平台可以看到所有目前已安装的服务组件的健康状况,绿色圈表示运行状态健康。


运维平台化 架构图 平台运维管理_数据



7.1.2    存储与存资源监控


包括获取存储量、剩余存储量以及存储系统整体情况信息。如果集群中的某台机器的磁盘或者存的使用率达到指定的阀值,系统可以通过或者短信的方式进行预警。


运维平台化 架构图 平台运维管理_Hadoop_02



7.2    系统负载管理


通过管理平台可以实时看到整个平台的资源负载情况,包括集群的CPU、集群磁盘IO、集群网络IO、HDFS IO,如下图所示:


运维平台化 架构图 平台运维管理_平台运维管理_03



通过对集群运行任务的实时监测,并根据任务优先级和耗时不同对任务进行动态调度,减少出现大量任务等待和重要任务无法及时完成的可能,可以使Hadoop集群的运行变得更加高效合理。

(1)系统根据各队列资源的最小值分配集群资源,这样可以按照需求对各任务队列获取的集群资源进行分配,而且不会出现集群资源的闲置浪费。

(2)可以实现对各任务队列获取的集群资源大小实时动态调整,及时保证高优先级任务所在队列获得更多的集群资源。

(3)可以实现在某个任务队列出现空闲时,将该任务队列获取的集群资源自动分配给其他繁忙的任务队列,以使得集群资源利用最大化。


7.3    操作系统管理


7.3.1    磁盘性能监控


对集群机器的硬盘进行监控,如下图所示,详细的展示出磁盘IO的利用率,读写速度,磁盘的等待时间。


运维平台化 架构图 平台运维管理_数据仓库建设_04



7.3.2    故障快速定位


大数据平台具备完整的告警监控和故障快速定位能力。能够将计算框架的每个作业进度、状态、资源利用情况进行监控,并通过可视化图形界面进行展示。

当大数据平台出现异常情况时,平台能够通过监控系统,对服务器节点宕机等集群异常、安全异常等异常事件进行预警、报警,并通过、短信等报警手段进行告警通知。提供预制的恢复规则和安全规则,对集群异常进行自动修复、自动限制非安全行为的操作。

大数据平台能够通过对告警信息的分析,快速定位平台部出现故障的节点,对于因故障无法继续提供服务器的节点进行标记,将平台的作业任务自动分配到其他的节点上运行,同时,大数据平台采用分布式体系结构及无单点故障设计,平台任何节点的宕机都不会影响平台的稳定运行和业务的正常使用。待故障节点恢复正常后,再将该节点纳入平台的资源中,将作业任务分配到恢复后的节点上运行。


7.3.3    运行日志监控


针对每个服务组件运行的实时日志信息可以从平台中查看,便于在服务组件运行中断时查找和追踪原因。例如,我们想要查看HBase服务组件中Mater角色的日志信息,如下图所示:


运维平台化 架构图 平台运维管理_数据仓库建设_05



7.4    平台安全管理


在Hadoop 2.x中加入了Kerberos认证机制。Kerberos可以将认证的密钥在集群部署时事先放到可靠的节点上。集群运行时,集群的节点使用密钥得到认证。只有被认证过节点才能正常使用,防止恶意的使用或篡改Hadoop集群的问题,确保Hadoop集群的可靠安全。


7.5    数据质量管理


7.5.1    数据标准化


数据标准化包括数据标准制定及数据标准化处理两个部分,数据标准制定是在专家系统业务统一规前提下,指导专家系统大数据标准,包括数据格式标准、数据交换标准、数据共享标准等;数据标准规化是指按照统一专家系统数据标准格式。将专家信息数据进行标准化处理,生成符合专家系统数据标准要求的信息数据。


7.5.2    数据质量检测


根据数据质量监测规则,通过数据质量检测引擎,对数据表中的增量数据进行扫描,调用规则算法或扩展程序进行数据质量检测,并提供问题数据库的建立、数据质量报告的生成、问题数据的处理、以及对问题数据的通报和反馈来保证数据的质量和实效性等功能。


7.5.3    数据关联


对采集的数据库根据数据间的业务关联关系实现数据的关联,通过数据的关联,增加实体数据的维度,将单个的数据扩展成行业信息资源,提高数据的价值。