HDFS全称Hadoop Distributed File System。它是一个基于Java开发的分布式文件系统,用于在hadoop集群的多个节点上存储大数据量文件。HDFS是一个主-从(master-slave)架构,一个hadoop集群中HDFS只能有一个Namenode和多个Datanode组成,这两类节点分工明确:1、NameNode(名字节点):HDFS系统中只有一个,是一个中心服务器
转载 2023-07-12 10:54:03
85阅读
大数据hadoop系列
原创 2018-04-10 12:44:18
5287阅读
1点赞
Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。HDFSHDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。HDFS&n
转载 2023-07-12 11:09:43
75阅读
Hadoop入门教程:HDFS数据存储与切分,在Hadoop中数据的存储是由HDFS负责的,HDFSHadoop分布式计算的存储基石,Hadoop的分布式文件系统和其他分布式文件系统有很多类似的特质。那么HDFS相比于其他的文件系统有什么特征呢?简单总结有如下的基本特征: 对于整个集群有单一的命名空间。 数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功创建之前无法看到文件存在。
转载 2023-07-12 11:10:17
78阅读
 核心思路:在Active NN和Standby NN之间要有个共享的存储日志的地方,Active NN把EditLog写到这个共享的存储日志的地方,Standby NN去读取日志然后执行,这样Active和Standby NN内存中的HDFS元数据保持着同步。一旦发生主从切换Standby NN可以尽快接管Active NN的工作目录:一、SPOF(single point offai
转载 2023-08-18 19:29:31
41阅读
Hadoop手动升级HA配置手册1 Hadoop组件升级本文是Apache hadoop、Hbase升级至CDH版hadoop、Hbase,同时涵盖了Hadoop HA的配置的操作手册..2 Hadoop升级2.1 Hadoop升级准备2.1.1 环境说明Hadoop原始版本、升级版本分别为:Apache Hadoop 1.2.1,hadoop2.5.0-CDH5.3.
原创 2023-02-21 10:14:55
226阅读
Hadoop 1.0存在的问题:单点故障和内存受限 (1)NameNode单点故障(NameNode只有一个,一旦宕机了,则数据就会丢失,虽然有配置SecondaryNameNode,但是SecondardyNameNode 合并元数据和日志文件需要时间的,所有还是会有部分数据会丢失) (2)Nam
转载 2021-01-18 21:12:00
259阅读
2评论
本文主要介绍HDFS HA特性,以及如何使用QJM(Quorum Journal Manager)特性实现HDFS HA。    一、背景    HDFS集群中只有一个Namenode,这就会引入单点问题;即如果Namenode故障,那么这个集群将不可用,直到Namenode重启或者其他Namenode接入。&nbsp
原创 2016-08-18 10:14:42
2329阅读
1点赞
1.升级前,dpf 集群负责人 会发出升级通知。譬如:其中会给出 相应版本的 客户端地址wget -O hadoop-client-1.2.4.tar.gz http://k**a.***.com:8080/fc/getfilebyid?id=4826 2.RD线下测试 (同时 通知QA关注)在开发机db02上解压缩 到 相应的文件夹:  tar -zxvf hadoop-cl
在Kubernetes集群中实现HDFSHA(High Availability)是一个常见的需求,尤其是在大规模数据处理的场景下。在本文中,我将详细介绍如何在Kubernetes中配置HDFSHA,并提供相应的代码示例。 ### HDFS HA配置步骤 下面是在Kubernetes集群中配置HDFS HA的步骤: | 步骤 | 描述
原创 3月前
8阅读
HDFS-HA 的实现原理HA概述HA(High Available),即高可用实现高可用最关建的就是取消单点故障HA严格来讲分成各个组件的HAHDFSHA YARN的HAHDFS-HA的工作机制 通过双NN(namenode)消除单点故障HDFS-HA工作要点元数据管理方式的变化 内存中各自保持一份元数据 Edits日志只有avtive状态的nn可以写 两个nn都可以读Edits日志 共享
 
转载 2019-07-29 13:35:00
397阅读
2评论
sqoop 是一个开源工具,它允许用户将数据库提取到Hadoop 中用于进一步得处理,提取到HDFS 的数据可以被Mapreduce 程序使用,也可以被其他类似于Hive 的工具用,在得到这些分析结果之前,sqoop 还可以将这些结果再导回到数据库Sqoop 概述 Hadoop 数据传输工具Sqoop 是Apache 顶级项目,主要用于Hadoop 和关系型数据库、数据仓库、Nosql数
hadoop集群的core-site.xml和hdfs-site.xml放在flume的conf目录下 For HA, you must use the HA service name, such as hdfs://nameservice1/user/foo instead of hdfs://namenode-host:8020/user/foo. This will protect
原创 2023-05-07 10:49:07
90阅读
部署完全分布式高可用HadoophdfsHA+yarnHA标签(空格分隔):大数据运维专栏一:hadoopHDFSHA与yarnHA的概述二:部署环境概述三:部署zookeeper四:部署HDFSHA与yarnHA五:关于HA的测试一:hadoopHDFSHA与yarnHA的概述1.1HA的概述HA概述1)所谓HA(HighAvailable),即高可用(7*24小时不中断服务)。2)实现高可用最
推荐 原创 2021-05-13 06:06:27
1776阅读
背景概述单 NameNode 的架构使得 HDFS 在集群扩展性和性能上都有潜在的问题,当集群大到一定程度后,NameNode 进程使用的内存可能会达到上百 G,NameNode 成为了性能的瓶颈。因而提出了 namenode 水平扩展方案-- Federation。Federation 中文意思为联邦,联盟,是 NameNode 的 Federation,也就是会有多个NameNode。多个 N
此处是本人对官方文档的理解,如有不足请指正(官方文档位置在下图)HDFS存在的问题  NameNode单点故障,难以应用于在线场景  NameNode压力过大,且内存受限,影响系统扩展性 解决HDFS 1.0中单点故障和内存受限问题。解决单点故障  HDFS HA:通过主备NameNode解决  如果主NameNode发生故障,则切换到备NameNode上 解决内存受限问题  HDFS
转载 2023-07-23 23:40:14
7阅读
一、概述之前的博客写了搭建hadoop集群环境,今天写一写搭建高可用(HA)环境。Hadoop-HA模式大致分为两个(个人在学习中的理解):namenode 高可用yarn 高可用1、Namenode HANamenode在HDFS中是一个非常重要的组件,相当于HDFS文件系统的心脏,在显示分布式集群环境中,还是会有可能出现Namenode的崩溃或各种意外。所以,高可用模式就体现出作用了。 nam
转载 2023-07-25 00:01:00
109阅读
文章目录HDFS---分布式文件系统分布式文件系统简介HDFS相关概念HDFS体系结构HDFS命名空间HDFS存储原理HDFS数据读写过程读的过程-JAVA代码写入文件-JAVA代码代码分析读取数据的过程写入数据的过程HDFS编程实践shell方式shell命令总结Java API方式 HDFS—分布式文件系统解决海量数据的分布式存储和分布式处理问题分布式文件系统简介单机无法存储海量数据–&gt
转载 1月前
26阅读
HA背景对于HDFS、YARN的每个角色都是一个进程,比如HDFS:NN/SNN/DN   老大是NNYARN:RM/NM   老大是RM对于上面,都会存在单点故障的问题,假如老大NN或者RM挂了,那么就不能提供对外服务了,会导致整个集群都不能使用。大数据几乎所有的组建都是主从架构(master-slave)。比如hdfs的读写请求都是先经过NN节点。(但是hbase的读写请求不是经过老大的mas
原创 2019-09-23 16:42:20
1577阅读
  • 1
  • 2
  • 3
  • 4
  • 5