目录一、HDFS的优缺点(1)优点(2)缺点二、HDFS架构原理(1)NameNode详解(2)Secondary NameNode详解(3)HDFS NameSpace详解(4)DataNode详解(5)Client详解(6)HDFS通信协议(7)HDFS的安全模式三、HDFS文件读写的解析(1)文件读取流程(2)文件写入流程四、副本机制 HDFS(Hadoop Distributed Fi
转载
2024-04-28 07:14:26
79阅读
文章目录课程大纲(HDFS详解)学习目标:HDFS基本概念篇1.1HDFS前言1.2HDFS的概念和特性HDFS基本操作篇2.1HDFS的shell(命令行客户端)操作2.1.1 HDFS命令行客户端使用2.2 命令行客户端支持的命令参数2.3 常用命令参数介绍HDFS原理篇hdfs的工作机制3.1 概述3.2 HDFS写数据流程3.2.1 概述3.2.2 详细步骤图3.2.3 详细步骤解析3.3
文章目录HDFS Editslog FsImage Checkpoint1.FsImageFsImage文件内容2.EditsEdits文件内容3.CheckPointCheckpoint processNN和Secondary NN机制 HDFS Editslog FsImage Checkpoint【文件(目录)元数据】存储在【NameNode内存】中。1.FsImage为了防止NN断电,内
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢1文章编写目的在前面的文章Fayson介绍了《如何在CDH集群外配置非Kerberos环境的Gateway节点》和《如何在CDH集群外配置Kerberos环境的Gatew
HDFS HDFS 代表 Hadoop 分布式文件系统,主要是Hadoop的存储,用于海量数据存储。具有高容错的特点,提供高吞吐率的数据访问。HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode或以上(HA:一个NameNode处于active状态,另一个处于standby状态)和若干个DataNode组成的。1.Namenode是整个文件系统的管理节点
转载
2024-02-23 16:05:30
26阅读
具体步骤如下:开始下线前的自检# 自检 hdfs 文件是否有损坏
hdfs fsck / -list-corruptfileblocks -openforwrite -files -blocks -locations
# 如果文件有损坏,需要进行修复
hdfs fsck file_name -move选择需要下线的主机,开始下线。为了避免下线过程中出现数据丢失的风险,一次下线的主机数量要小于 h
转载
2023-10-17 22:05:22
300阅读
1,Hadoop-HA为什么存在? 正式引入Ha机制是从Hadoop2.0开始的。 因为集群中的Namenode存在单点故障,如果只针对于一个Namenode的 集群,Namenode宕机或者发生故障,就会导致整个集群瘫痪。除非我们 的Namenode恢复正常
转载
2024-10-13 10:12:37
124阅读
# Hive 查询所有 HDFS 节点数据
## 介绍
Hive 是一个构建在 Hadoop 之上的数据仓库基础架构,它提供了一个高级的查询接口,使用户可以使用类似 SQL 的语言来分析数据。Hive 支持将结构化的数据映射为表,并提供了用于查询和分析数据的工具。
HDFS(Hadoop Distributed File System)是一个分布式文件系统,它可以存储大规模数据集,并提供高吞
原创
2023-10-12 09:02:20
152阅读
1 概述 在hadoop1.0的架构中,HDFS的所有的元数据都放在一个namenode中,只有一个namespace(名字空间)。这样随着HDFS的数据越来越多,单个namenode的资源使用必然会达到上限,而且namenode的负载也会越来越高,限制了HDFS的性能。在hadoop2.0架构中,namenode federation(联合)通过多个namenode/namespac
本篇是『搜索/推荐工程』系列文章的第一篇,整个系列大致会围绕搜索和推荐工程中数据的产生、处理、迁移同步和应用展开,本篇主要阐述数据产生和迁移同步这两个环节。背景及需求分析对于搜索和推荐来说,没有数据就像是无源之水无本之木,而这里面的数据又可以粗略分为两大类:业务数据和行为数据。行为数据通常走 Kafka 这种 MQ,业务数据则通常走 MySQL 这种关系型数据库,对于搜索来说,通常是基于开源的 E
转载
2024-05-09 15:58:19
40阅读
自漫聊1.0发布以来,研究Hadoop也有一段时间了,目前环境已基本搭建好,规模为15台的小型集群,昨晚测试时是用wordcount统计一个1.2G的log文件,总耗时2分16秒,虽然测试文件不大,但其性能的优越性已经体现出来了。闲话不多说了,进正题。注:本文的环境搭建是针对双系统和linux系统的,而非win下的虚拟机!流程:装机阶段:安装ubuntu,jdk和hadoop创建一个名为hadoo
第六章 HDFS概述
6.1.2 HDFS体系结构
HDFS采用主从结构,NameNode(文件系统管理者,负责命名空间,集群配置,数据块复制),
DataNode(文件存储的基本单元,以数据块形式保存文件内容和数据块的数据校验信息,执行底层数据块IO操作),
Client(和名字节点,数据节点通信,访问HDFS文件系统,操作文件),
转载
2024-03-29 19:44:34
70阅读
有时有需要从ES集群中去除多个节点的需求,比如迁移一套ES集群到另外一套ES集群,这时可以先将新的ES节点加入到现有集群里,再将老ES节点下线。一 实验环境 二 实验步骤2.1 集群扩容-添加新节点该文章以新增一个节点node-4为例,请参考该文章为ES集群新增三个节点,令外两个节点名称分别是node-5及node-6.2.2 集群缩容-去除老节点删除符合主节点条件的节点时,不要同时删除
转载
2024-02-26 20:06:06
122阅读
[TOC]线上redis迁移思路背景实际应用中,我们的系统在上线后,总会遇到一些问题,需要对redis进行迁移,或者说切实例。但是由于是线上系统,一个是要谨慎,一个是要保证服务可用,在不停服的情况进行处理。比如,我们的redis实例的机器宕机、或者机器磁盘只读、或者redis服务异常;或者需要rename一些高危命令;或者业务底层redis存储机制更改。当我们遇到诸如此类的场景,那么就需要考虑切r
转载
2024-02-08 13:26:44
48阅读
在生产环境下,如果不修改elasticsearch节点的角色信息,在高数据量,高并发的场景下集群容易出现脑裂等问题。默认情况下,elasticsearch集群中每个节点都有成为主节点的资格,也都存储数据,还可以提供查询服务。这些功能是由两个属性控制的。node.master和node.data默认情况下这两个属性的值都是true。下面详细介绍一下这两个属性的含义以及不同组合可以达到的效果。node
转载
2024-08-04 15:33:57
55阅读
curl -s localhost:9200/_cat/indices
curl -XPOST localhost:9200/xxx_indices/_close
ps:xxx_indices为需要关闭的索引名称过滤基于时间的索引:
curl -s localhost:9200/_cat/indices?h=i | grep 2018.11.11 > /tmp/111
确认下索引:
转载
2024-08-26 16:44:59
69阅读
HDFS选择数据节点的方式越来越复杂,也越来越考虑到吞吐量,但是同样存在着一些问题。分配数据节点的所需的参数主要有文件副本数numOfReplicas、writer(客户端所在节点)、excludedNodes(客户端排除的节点)、chosenNodes(已经选择的节点)方法是BlockPlacementPolicyDefault类的DatanodeDescriptor[] chooseTarge
转载
2024-04-05 12:26:26
92阅读
ES6.2.3(3节点)460G数据迁移到ES7.4.1(5节点)目标现在有一个ES集群(3节点,3个节点既是master也是data),存储的数据约460G。现在需要升级ES版本为7.4.1,新集群采用12个节点(4个master,8个data节点)演练由于迁移的数据量蛮大的,基本不可能采用github的elasticdump工具,也不能采用es自带的数据备份恢复功能。允许es停机(这是很重要的
转载
2024-03-23 12:10:18
73阅读
存储模型文件线性桉字节切割成块(block),具有offset,id文件和文件的block大小可以不一样一个文件除最有一个block,其他block大小一致block的大小依据硬件的I/O特性调整block被分散存放在集群的节点中,具有locationblock具有副本(replication),没有主从概念,副本不能出现在同一个节点副本是满足可靠性和性能的关键文件上传可以指定block大小和副本
转载
2024-03-29 12:08:03
16阅读
本篇文章单节点安装 hdfs hive ,实乃学习大数据必备的教程,环境为:Centos7 JDK8.0 cdh5.15.1 下载地址: http://archive.cloudera.com/cdh5/cdh/5/ hadoop版本:hadoop-2.6.0-cdh5.15.1.tar.gz hi
原创
2022-01-06 16:27:46
449阅读