集群的安装与使用、HDFS文件系统、Hive的配置

  • 一、Hadoop集群的搭建
  • 集群搭建方式
  • 单机模式
  • 集群模式
  • Hadoop启动与关闭(单节点模式)
  • Hadoop页面访问(集群模式)
  • 二、HDFS文件系统
  • HDFS简介
  • HDFS特点
  • HDFS架构
  • 分块存储
  • 副本机制
  • 元数据管理
  • 数据块存储
  • HDFS shell操作
  • 三、Apache Hive
  • Apache Hive概述
  • HIve的本质
  • HIve基础架构
  • Hive 的三种部署方式
  • Hive初体验
  • Hive客户端(idea实现)


一、Hadoop集群的搭建

集群搭建方式

  • Standalone mode(独立模式)
    独立模式又称为单机模式,仅1个机器运行1个java进程,主要用于调试。
  • Cluster mode(群集模式)单节点模式-高可用HA模式
    集群模式主要用于生产环境部署,会使用n台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。

单机模式

hdfs下有文件但hive读不出来_hdfs下有文件但hive读不出来

集群模式

hdfs下有文件但hive读不出来_hadoop_02

Hadoop启动与关闭(单节点模式)

  • 一键启动大数据环境

/onekey/my-start-all.sh

  • 一键关闭大数据环境

/onekey/my-stop-all.sh

Hadoop页面访问(集群模式)

二、HDFS文件系统

HDFS简介

  • HDFS(Hadoop Distributed File System),意为:Hadoop分布式文件系统。
    是Apache Hadoop核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在,也可以说大数据首先要解决的问题就是海量数据的存储问题。

HDFS特点

hdfs下有文件但hive读不出来_大数据_03

HDFS架构

hdfs下有文件但hive读不出来_HDFS_04

分块存储

  • HDFS中的文件在物理上是分块存储的,默认大小是128M,不足128M则本身就是一块块的大小可以通过配置参数来规定,参数位于hdfs-default.xml中:dfs.blocksize

副本机制

  • 文件的所有block都会有副本,副本系数可以在文件创建的时候指定,也可以在之后通过命令改变
    副本数由参数dfs.replication控制,默认值是3,也就是会额外再复制2份,连同本身总共3份副本

元数据管理

在HDFS中,Namenode管理的元数据具有两种类型。

  • 文件自身属性信息

文件名称,权限,修改时间,文件大小,复制因子,数据块大小。

  • 文件块位置映射信息

记录文件块和Datanode之间的映射信息,即哪个块位于哪个节点上。

数据块存储

  • 文件的各个block的具体存储管理由DataNode节点管理
    每一个block都可以在多个DataNode上存储

HDFS shell操作

大数据:HDFS的Shell常用命令操作

三、Apache Hive

Apache Hive概述

HIve的本质

  • Hive 的本质就是将 HDFS 文件映射成一张 Hive 表.

HIve基础架构

hdfs下有文件但hive读不出来_hadoop_05

Hive 的三种部署方式

  • Hive 的三种部署方式分别为:内嵌模式、本地模式、远程模式.

1.内嵌模式

  • 不需要手动开启和配置 metastore 服务.
  • 客户端不能共享 Metastore 服务和元数据库 .
  • 可以使用 Hive 内置的数据库 Derby 存储元数据.

2.本地模式

  • 不需要手动开启和配置 metastore 服务.
  • 可以共享源数据库,元数据库可以使用外置数据库.
  • 不能共享 Metastore 服务.

3.远程模式

  • 必须手动开启 Metastore 服务.
  • 元数据可以存储在第三方数据库.
  • Hive 的第一代客户端底层是 Shell 实现的,只需要手动启动 Metastore 即可.
  • Hive 的第二代客户端底层是 Java 实现的,必须手动启动 HiveServer2 服务才可以正常使用.

Hive初体验

通过创建表并输入数据

hdfs下有文件但hive读不出来_HDFS_06


运行结果为

hdfs下有文件但hive读不出来_hadoop_07

Hive客户端(idea实现)

通过手动配置驱动,并填写相关的信息进行hive的实现

hdfs下有文件但hive读不出来_大数据_08


hdfs下有文件但hive读不出来_HDFS_09


mysql的部署与hive的部署大致相同,但要注意的是,MySQL的连接需要填写密码

hdfs下有文件但hive读不出来_HDFS_10