1、Apache Hadoop 不足之处

  • 版本管理混乱
  • 部署过程繁琐、升级过程复杂
  • 兼容性差
  • 安全性低

2、Hadoop 发行版

  • Apache Hadoop
  • Cloudera’s Distribution Including Apache Hadoop(CDH)
  • Hortonworks Data Platform (HDP)
  • MapR
  • EMR
  • …

3、CDH能解决哪些问题

  • 1000台服务器的集群,最少要花费多长时间来搭建好Hadoop集群,包括Hive、Hbase、Flume、Kafka、Spark等等
  • 只给你一天时间,完成以上工作?
  • 对于以上集群进行hadoop版本升级,你会选择什么升级方案,最少要花费多长时间?
  • 新版本的Hadoop,与Hive、Hbase、Flume、Kafka、Spark等等兼容?

4、CDH简介 

  • Cloudera's Distribution, including Apache Hadoop
  • 是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建
  • 提供了Hadoop的核心
    – 可扩展存储
    – 分布式计算
  • 基于Web的用户界面

    

CDH简介_hadoop

5、CDH的优点  

  • 版本划分清晰
  • 版本更新速度快
  • 支持Kerberos安全认证
  • 文档清晰
  • 支持多种安装方式(Cloudera Manager方式)

6、CDH安装方式

  • Cloudera Manager
  • Yum
  • Rpm
  • Tarball

7、CDH下载地址

  • CDH5.4
​​​     http://archive.cloudera.com/cdh5/​​  •Cloudera Manager5.4.3: