hdfs下有文件但hive读不出来

关注小屁孩

文章目录

集群的安装与使用、HDFS文件系统、Hive的配置
一、Hadoop集群的搭建
集群搭建方式
单机模式
集群模式
Hadoop启动与关闭(单节点模式)
Hadoop页面访问(集群模式)
二、HDFS文件系统
HDFS简介
HDFS特点
HDFS架构
分块存储
副本机制
元数据管理
数据块存储
HDFS shell操作
三、Apache Hive
Apache Hive概述
HIve的本质
HIve基础架构
Hive 的三种部署方式
Hive初体验
Hive客户端（idea实现）

hdfs下有文件但hive读不出来

转载

小屁孩 2024-09-15 20:06:33

文章标签 hdfs下有文件但hive读不出来 hadoop 大数据 HDFS Hive 文章分类 Hive 大数据

集群的安装与使用、HDFS文件系统、Hive的配置

一、Hadoop集群的搭建

集群搭建方式

单机模式
集群模式

Hadoop启动与关闭(单节点模式)
Hadoop页面访问(集群模式)

二、HDFS文件系统

HDFS简介
HDFS特点
HDFS架构

分块存储
副本机制
元数据管理
数据块存储

HDFS shell操作

三、Apache Hive

Apache Hive概述

HIve的本质
HIve基础架构
Hive 的三种部署方式
Hive初体验
Hive客户端（idea实现）

一、Hadoop集群的搭建

集群搭建方式

Standalone mode（独立模式）
独立模式又称为单机模式，仅1个机器运行1个java进程，主要用于调试。
Cluster mode（群集模式）单节点模式-高可用HA模式
集群模式主要用于生产环境部署，会使用n台主机组成一个Hadoop集群。这种部署模式下，主节点和从节点会分开部署在不同的机器上。

单机模式

hdfs下有文件但hive读不出来_hdfs下有文件但hive读不出来

集群模式

hdfs下有文件但hive读不出来_hadoop_02

Hadoop启动与关闭(单节点模式)

一键启动大数据环境

/onekey/my-start-all.sh

一键关闭大数据环境

/onekey/my-stop-all.sh

Hadoop页面访问(集群模式)

查看启动进程：JPS
查看HDFS页面
查看NameNode页面地址:http://192.168.52.161:50070（IP地址根据实际情况更改更改）
查看YARN页面
http://192.168.52.161:8088（IP地址根据实际情况更改更改）
查看已经finished的mapreduce运行日志
http://192.168.52.161:19888（IP地址根据实际情况更改更改）

二、HDFS文件系统

HDFS简介

HDFS（Hadoop Distributed File System），意为：Hadoop分布式文件系统。
是Apache Hadoop核心组件之一，作为大数据生态圈最底层的分布式存储服务而存在，也可以说大数据首先要解决的问题就是海量数据的存储问题。

HDFS特点

hdfs下有文件但hive读不出来_大数据_03

HDFS架构

hdfs下有文件但hive读不出来_HDFS_04

分块存储

HDFS中的文件在物理上是分块存储的，默认大小是128M，不足128M则本身就是一块块的大小可以通过配置参数来规定，参数位于hdfs-default.xml中：dfs.blocksize

副本机制

文件的所有block都会有副本，副本系数可以在文件创建的时候指定，也可以在之后通过命令改变
副本数由参数dfs.replication控制，默认值是3，也就是会额外再复制2份，连同本身总共3份副本

元数据管理

在HDFS中，Namenode管理的元数据具有两种类型。

文件自身属性信息

文件名称，权限，修改时间，文件大小，复制因子，数据块大小。

文件块位置映射信息

记录文件块和Datanode之间的映射信息，即哪个块位于哪个节点上。

数据块存储

文件的各个block的具体存储管理由DataNode节点管理
每一个block都可以在多个DataNode上存储

HDFS shell操作

大数据：HDFS的Shell常用命令操作

三、Apache Hive

Apache Hive概述

HIve的本质

Hive 的本质就是将 HDFS 文件映射成一张 Hive 表.

HIve基础架构

hdfs下有文件但hive读不出来_hadoop_05

Hive 的三种部署方式

Hive 的三种部署方式分别为：内嵌模式、本地模式、远程模式.

1.内嵌模式

不需要手动开启和配置 metastore 服务.
客户端不能共享 Metastore 服务和元数据库 .
可以使用 Hive 内置的数据库 Derby 存储元数据.

2.本地模式

不需要手动开启和配置 metastore 服务.
可以共享源数据库，元数据库可以使用外置数据库.
不能共享 Metastore 服务.

3.远程模式

必须手动开启 Metastore 服务.
元数据可以存储在第三方数据库.
Hive 的第一代客户端底层是 Shell 实现的，只需要手动启动 Metastore 即可.
Hive 的第二代客户端底层是 Java 实现的，必须手动启动 HiveServer2 服务才可以正常使用.

Hive初体验

通过创建表并输入数据

hdfs下有文件但hive读不出来_HDFS_06

运行结果为

hdfs下有文件但hive读不出来_hadoop_07

Hive客户端（idea实现）

通过手动配置驱动，并填写相关的信息进行hive的实现

hdfs下有文件但hive读不出来_大数据_08

hdfs下有文件但hive读不出来_HDFS_09

mysql的部署与hive的部署大致相同，但要注意的是，MySQL的连接需要填写密码

hdfs下有文件但hive读不出来_HDFS_10

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：积木报表mysql版本

下一篇：mysql加索引 add key

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

小屁孩

关注

精品课程

免费资料>

2024软考

高级中级初级

华为认证

数通云计算安全

厂商认证

K8s Oracle 红帽

IT技术

数据库网络安全 AIGC

近期文章

文章目录

集群的安装与使用、HDFS文件系统、Hive的配置
一、Hadoop集群的搭建
集群搭建方式
单机模式
集群模式
Hadoop启动与关闭(单节点模式)
Hadoop页面访问(集群模式)
二、HDFS文件系统
HDFS简介
HDFS特点
HDFS架构
分块存储
副本机制
元数据管理
数据块存储
HDFS shell操作
三、Apache Hive
Apache Hive概述
HIve的本质
HIve基础架构
Hive 的三种部署方式
Hive初体验
Hive客户端（idea实现）

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册