长虹佳华-基于 AWS 和 CDH 的大数据处理平台企业级架构

  • 前言
  • 一、企业级大数据处理平台建设
  • 二、基于 AWS 和 CDH 的大数据处理平台企业级架构
  • 三、结语



前言

CDH是Cloudera的100%开源平台发行版,包括Apache Hadoop,专为满足企业大数据平台需求而构建。CDH提供开箱即用的企业大数据平台使用所需的一切。通过将Hadoop组件与十几个其他关键的开源项目集成,Cloudera创建了一个功能先进的系统,可帮助您执行端到端的大数据工作流程。简单来说:CDH 是一个拥有大数据集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得大数据集群的安装可以从几天的时间缩短为几个小时,运维人数也会从数十人降低到几个人,极大的提高了集群管理的效率。Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),基于Web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop,简化了大数据平台的安装、使用难度。

AWS 云服务和 CDH 集群部署得到了广泛应用。基于这种认识,结合企业级大数据平台建设问题,采用 AWS 和 CDH 实现了大数据处理平台企业级架构的部署,保证平台大数据处理性能,继而为企业业务的开展提供强有力技术支撑

在经济全球化发展背景下,企业业务覆盖范围越来越大,产生的数据量也逐渐增多,需要引入大数据技术实现数据处理,满足企业发展需求。而就目前来看,企业级大数据处理平台建设需要解决平台架构问题,需要加强先进技术的应用,满足企业业务开展需求。AWS 云服务和 CDH 等先进技术架构能够在企业级数据平台建设中得到应用。

一、企业级大数据处理平台建设

企业级大数据处理平台建设问题在企业级大数据处理平台建设方面,最为成熟的开源大数据框架为 Hadoop,其能够实现 MapReduce 编程,在框架支持的 HDFS 中实现海量源数据的存储,并利用集群中计算节点实现数据并行处理[1]。但就目前来看,对于开展国际业务的企业来讲,需要处理的源数据需在多个数据中心分布,采用传统集群部署方式在数据处理前需要完成海量数据移动,数据处理性能不仅受源数据大小限制,同时也受数据中心间网络带宽的限制,将影响数据处理效率,造成较大资源浪费。在通信技术取得快速发展情况下,云基础设施的建设得到了不断完善,能够为跨数据中心的大数据部署处理框架的建立提供支持。因此,还应尝试引入云服务 AWS 和 Hadoop CDH 等先进大数据技术实现企业级大数据处理平台的建设,满足企业业务开展对大数据处理性能的要求。

二、基于 AWS 和 CDH 的大数据处理平台企业级架构

云服务 AWS(Amazon Web Services)由亚马逊公司研发,其实就是面向用户提供的网络及基础设施服务,被称之为云计算服务。采用 AWS 服务,能够实现数据存储、分析计算和应用部署,为用户提供能够查看和配置服务的网页和接口。现阶段,AWS 提供的相对成熟的云服务主要有两种,即 EC2和 EMR,前者能够提供您可调节计算容量的 Web 服务,后者可以对运行在 AWS 上的托管 Hadoop 集群进行应用。结合企业级大数据处理平台建设需求,还要采用 EC2 进行平台软件架构的建立,即利用Amazon数据中心的服务器进行应用程序的开发和部署,可以不进行前期硬件投入,所以能够降低大据处理成本,满足企业业务需求。

CDH 概述:
CDH(Cloudera’s Distribution Including Apache Hadoop)是在 Hadoop 基础上提出的,对 Hadoop 做出了一定改变。Ha-doop 属于开源框架,能够通过编写和运行分布式应用程序进行数据大规模处理,包含 MapReduce、HDFS 等部分。而 CDH由 Cloudera 公司发行,能够用较短时间实现 Hadoop 集群的搭建,包含 Spark、Hive 等,能够提供强大的部署、管理和监控工具,提供的 Impala 项目能够实现大数据的实时处理。相较于Hadoop,CDH 拥有更佳的兼容性、安全性和稳定性,能够为集群部署提供便利,并且运维工作简单,能够提供诊断、配置修改和监控等各种工具,为多种版本安装方式提供支持,能够通过提供安全认证保证数据安全。

平台架构部署:
实际在企业级大数据处理平台架构部署时,可以云服务AWS 的 EC2 架构为核心,利用 CDH 实现整体架构的部署。从整体上来看,平台架构分为三层,分别为决策层、映射层和云应用层。决策层包含策略库、策略冲突解决、性能检测数据库等多个模块,能够实现数据处理相关性能的存放,同时也能进行任务调度、集群部署等相关策略的存放。采用规则评估模块,能够实现检测数据处理和触发策略的确定。利用策略冲突解决模块,能够进行性能评估和策略选择。决策层能够体现出平台大数据处理最优性能,实现最优集群部署策略、应用程序接口容错调用策略和任务调度策略的选择,主要需要对数据处理时间和云应用成本进行考虑。映射层包含操作映射器和事件指标映射器,需要发挥通用桥梁作用,实现特定云计算服务事件、指标和操作的转换,得到通用事件等。云应用系统层包含操作执行组件和监测组件,能够利用前者进行映射层结果接收,根据翻译得到的策略进行相应任务的执行,同时能够对决策需要的数据进行监测。将监测结果传输至映射层转换,可以为决策层选择决策提供数据支撑。

大华物联网管理平台无法上传数据 大华数据交互平台_企业级

平台架构实现:

在平台架构实现阶段,需要采用 CDH 提供的 MapRe-duce 模型实现需要处理的数据划分,得到若干个数据库,分配给不同计算节点进行处理,然后利用 Reduce 程序完成数据汇总整理,将结果提供监测组件。采用统一接口程序和Sqoop 数据传输工具组合应用,能够实现平台数据接入,实现数据存储、分析、建模计算,能够实现资源调度和服务协调。采用 Hive 数据仓库,能够实现数据存储。采用 MapRe-duce 批量计算和 Spark 内存计算等,能够实现平台数据分析、建模和计算。利用 Yarn 资源调度和框架管理器,能够对平台资源进行调度。采用 Zookeeper 协调工具,能够实现服务协调。

大华物联网管理平台无法上传数据 大华数据交互平台_大数据处理_02

在 AWS 云数据中心进行各种界面操作或工具执行时,都需要对提供的云应用程序接口进行调用,所以需要频繁进行云数据中心应用程序操作。为保证平台大数据处理性能,需要采用接口容错调用策略,从而实现接口容错处理。按照流程,在云数据中心提出调用接口请求后,会同时进行两个相同请求的发送。在规定时间内如果一个请求成功,平台可以直接进行写入时间文件的调用,标记为成功。请求未成功,平台会选择一个请求进行强制执行,同时进行另一个请求发送。如果在新的规定时间内有请求成功,可以标记成功,否则将采用代替方法确定是否实现成功调用,依然未能成功会标记为失败,对请求进行强制失效。

AWS上的大数据架构和传统架构稍有区别,特别之处是采用了计算存储分离的模式:

大华物联网管理平台无法上传数据 大华数据交互平台_企业级_03

所以AWS上大数据EMR模型是这样构成的

大华物联网管理平台无法上传数据 大华数据交互平台_大华物联网管理平台无法上传数据_04

大华物联网管理平台无法上传数据 大华数据交互平台_企业级_05

大华物联网管理平台无法上传数据 大华数据交互平台_大数据处理_06

三、结语

在通信技术取得快速发展的背景下,企业可以引入云服务 AWS 和 CDH 实现企业级大数据处理平台建设,继而为企业国际业务的开展提供支持。而通过研究基于 AWS 和 CDH的大数据处理平台企业级架构可以发现,采用 AWS 能够实现平台灵活配置,采用CDH 能够实现大数据快速、稳定处理,为用户提供强大应用程序服务。