集群的安装与使用、HDFS文件系统、Hive的配置
- 一、Hadoop集群的搭建
- 集群搭建方式
- 单机模式
- 集群模式
- Hadoop启动与关闭(单节点模式)
- Hadoop页面访问(集群模式)
- 二、HDFS文件系统
- HDFS简介
- HDFS特点
- HDFS架构
- 分块存储
- 副本机制
- 元数据管理
- 数据块存储
- HDFS shell操作
- 三、Apache Hive
- Apache Hive概述
- HIve的本质
- HIve基础架构
- Hive 的三种部署方式
- Hive初体验
- Hive客户端(idea实现)
一、Hadoop集群的搭建
集群搭建方式
- Standalone mode(独立模式)
独立模式又称为单机模式,仅1个机器运行1个java进程,主要用于调试。- Cluster mode(群集模式)单节点模式-高可用HA模式
集群模式主要用于生产环境部署,会使用n台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。
单机模式
集群模式
Hadoop启动与关闭(单节点模式)
- 一键启动大数据环境
/onekey/my-start-all.sh
- 一键关闭大数据环境
/onekey/my-stop-all.sh
Hadoop页面访问(集群模式)
- 查看启动进程:JPS
- 查看HDFS页面
查看NameNode页面地址:http://192.168.52.161:50070(IP地址根据实际情况更改更改) - 查看YARN页面
http://192.168.52.161:8088(IP地址根据实际情况更改更改) - 查看已经finished的mapreduce运行日志
http://192.168.52.161:19888(IP地址根据实际情况更改更改)
二、HDFS文件系统
HDFS简介
- HDFS(Hadoop Distributed File System),意为:Hadoop分布式文件系统。
是Apache Hadoop核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在,也可以说大数据首先要解决的问题就是海量数据的存储问题。
HDFS特点
HDFS架构
分块存储
- HDFS中的文件在物理上是分块存储的,默认大小是128M,不足128M则本身就是一块块的大小可以通过配置参数来规定,参数位于hdfs-default.xml中:dfs.blocksize
副本机制
- 文件的所有block都会有副本,副本系数可以在文件创建的时候指定,也可以在之后通过命令改变
副本数由参数dfs.replication控制,默认值是3,也就是会额外再复制2份,连同本身总共3份副本
元数据管理
在HDFS中,Namenode管理的元数据具有两种类型。
- 文件自身属性信息
文件名称,权限,修改时间,文件大小,复制因子,数据块大小。
- 文件块位置映射信息
记录文件块和Datanode之间的映射信息,即哪个块位于哪个节点上。
数据块存储
- 文件的各个block的具体存储管理由DataNode节点管理
每一个block都可以在多个DataNode上存储
HDFS shell操作
三、Apache Hive
Apache Hive概述
HIve的本质
- Hive 的本质就是将 HDFS 文件映射成一张 Hive 表.
HIve基础架构
Hive 的三种部署方式
- Hive 的三种部署方式分别为:内嵌模式、本地模式、远程模式.
1.内嵌模式
- 不需要手动开启和配置 metastore 服务.
- 客户端不能共享 Metastore 服务和元数据库 .
- 可以使用 Hive 内置的数据库 Derby 存储元数据.
2.本地模式
- 不需要手动开启和配置 metastore 服务.
- 可以共享源数据库,元数据库可以使用外置数据库.
- 不能共享 Metastore 服务.
3.远程模式
- 必须手动开启 Metastore 服务.
- 元数据可以存储在第三方数据库.
- Hive 的第一代客户端底层是 Shell 实现的,只需要手动启动 Metastore 即可.
- Hive 的第二代客户端底层是 Java 实现的,必须手动启动 HiveServer2 服务才可以正常使用.
Hive初体验
通过创建表并输入数据
运行结果为
Hive客户端(idea实现)
通过手动配置驱动,并填写相关的信息进行hive的实现
mysql的部署与hive的部署大致相同,但要注意的是,MySQL的连接需要填写密码