文章目录

01 CDH概述

1.1 CDH简介

CDH(Cloudra’s Distribution Apache Of Hadoop) 是集成多种技术的一个框架,是​​Apache Hadoop​​和相关项目的最完整,经过测试和最流行的发行版,它提供:

  • 灵活性:存储任何类型的数据并使用各种不同的计算框架进行处理,包括批处理,交互式SQL,自由文本搜索,机器学习和统计计算。
  • 集成:在可与广泛的硬件和软件解决方案一起使用的完整Hadoop平台上快速启动并运行。
  • 安全性:处理和控制敏感数据。
  • 可扩展性:启用广泛的应用程序并进行扩展,并扩展它们以满足您的要求。
  • 高可用性:自信地执行关键任务业务任务。
  • 兼容性:利用您现有的IT基础架构和投资。

1.2 CDH架构

了解​​CDH​​​架构之前,先来看看​​hadoop​​的生态构成:

组件

描述

HDFS

分布式文件系统(ZKFC:为实现NameNode高可用,在NameNode和Zookeeper之间传递信息,选举主节点工具。NameNode:存储文件元数据DateNode:存储具体数据JournalNode:同步主NameNode节点数据到从节点NameNode)

MapReduce

开源的分布式批处理计算框架

Spark

分布式基于内存的批处理框架

Zookeeper

分布式协调管理

Yarn

调度资源管理器

HBase

基于HDFS的NoSql列式数据库

Hive

将SQL转换为MapReduce进行计算

Hue

是CDH的一个UI框架

Impala

是Cloudra公司开发的一个查询系统,类似于Hive,可以通过SQL执行任务,但是它不基于MapReduce算法,而是直接执行分布式计算,这样就提高了效率

oozie

是一个工作流调度引擎,负责将多个任务组合在一起按序执行

kudu

Apache Kudu是转为hadoop平台开发的列式存储管理器,和impala结合使用,可以进行增删改查。

Sqoop

将hadoop和关系型数据库互相转移的工具

Flume

采集日志

其它


前面已经说了,​​CDH​​​是集成多种技术的一个框架,其实就是​​Hadoop​​​的扩展版本,那么它究竟包含了什么,下面看看一张图:
CDH和CloudManager概述_hadoop

1.3 CloudManager

前面了解了​​cdh​​​为何物?那么是否有相关的可视化操作平台呢?当然有,也就是现在要讲的​​CM​​​(​​Cloudra Manager​​​),它的结构图如下:
CDH和CloudManager概述_批处理_02

​CM​​​是一个​​web​​​操作平台,可以安装​​CDH​​​然后再安装多种​​Hadoop​​框架,它的组件如下:

  • Clients:客户端,通过​​web​​​页面和​​ClouderaManager​​和服务器进行交互;
  • API:通过​​API​​​和​​ClouderaManagement​​和服务器进行交互;
  • Cloudera Repository:存储分发安装包;
  • Management Server:进行监控和预警;
  • Database:存储预警信息和配置信息;
  • Agent:分布在多台服务器,负责配置,启动和停止进程。监控主机。

02 CloudManager组件安装(CDH、Impala、Hue、oozie等服务 )

详细安装步骤参考:​​javascript:void(0)​

这里大致描述安装的的流程:

  1. 准备三台主机,安装CentOS(设置网络和主机名->修改主机别名->设置cdh1对其它主机免密钥->关闭防火墙->禁止开机启动->SELINUX关闭)CDH和CloudManager概述_hadoop_03
  2. 安装​​MySql​
  3. 安装​​JDK​
  4. 安装​​NTP​​(时间管理器,用于同步时间)
  5. 为​​CM​​​配置​​Repository​​​(就是​​rpm​​仓库)
  6. 安装​​Cloudera Manager​​服务
  7. 配置​​MySql​
  8. 设置​​Cloudea Manager​​数据库
  9. 安装​​CDH​​​和其它软件,登录​​CloudManager​​​操作CDH和CloudManager概述_批处理_04

03 文末

本文主要讲解了​​CDH​​​以及​​CloudManager​​的概念,希望能帮助到大家,谢谢大家的阅读!