hdfs网页查看 localhost:9870
hadoop网页查看 localhost:50070
各种hadoop下载
知识点预览
1、hadoop起源
红色字是nutch
Mapreduce 并行计算框架
YARN 为分布式程序提供资源
HDFS 分布式文件系统
hadoop狭义上指的就是hadoop这一个软件
hadoop广义上指代大数据生态圈,包括很多软件
hdfs 文件系统,yarn计算分配空间
0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzUzNzM5NTQ4,size_16,color_FFFFFF,t_30)
hdfs 白话文理解
如果某一个block块宕机之后,namenode会控制与宕机处含有同意block块的datanode控制宕机处block的复制,从两个block块恢复成三个
Namenode
Datenode
SecondaryNamenode
hadoop namenode -format 尽量不要重复使用,搭建集群使用一次即可
需要进入路径查看,日志文件路径
日志文件在hive-site.xml文件中
###############################开课吧hdfs编程之前#########################
###############################开课吧hdfs编程之后#########################
读取流程
数据完整性
查看datenode文件路径
写入流程
如何容错
读取流程
源码方式讲解读取,写入,容错流程
笔记有误,红色线是圈3,紫色线是5,没有6
1. namenode工作机制
(1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,
直接加载编辑日志和镜像文件到内存。
(2)客户端对元数据进行增删改的请求
(3)namenode记录操作日志,更新滚动日志。
(4)namenode在内存中对数据进行增删改查
2. Secondary NameNode工作
(1)Secondary NameNode询问namenode是否需要checkpoint。直接带回namenode是否检查结果。
(2)Secondary NameNode请求执行checkpoint。
(3)namenode滚动正在写的edits日志
(4)将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode
(5)Secondary NameNode加载编辑日志和镜像文件到内存,并合并。
(6)生成新的镜像文件fsimage.chkpoint
(7) 拷贝fsimage.chkpoint到namenode
(8)namenode将fsimage.chkpoint重新命名成fsimage
日志文件在hive-site.xml文件中
小文件治理
hdfs适合存储大文件,因为namenode是由内存决定的block块数量,每个小文件都需要一个单独的block
har方案
Sequence File方案
hdfs集群快照命令
快照操作实例
基础介绍
ETL的好与坏决定了数据分析的好与坏
hive
核心操作