初始状态fsck健康检查参数说明:Status:代表这次hdfs上block检测的结果
Total size : hdfs集群存储大小,不包括复本大小。如:4568974435B/1024/1024/1024 = 4.26GB
Total dirs:代表检测的目录下总共有多少个目录
Total blocks (validated) : 总共的块数量,不包括复本。212 * 21551766B /
转载
2023-08-07 11:08:30
114阅读
HDFS 的基本架构Hadoop 中的分布式文件系统 HDFS 为大数据平台提供了统一的存储,它主要由三部分构成,分别是 NameNode、DataNode 和 SecondaryNameNode。如果是 HA 架构,那么还有 StandbyNameNode 和 JournalNode。NameNode(名字节点,或者元数据节点)是 HDFS 的管理节点,专门用来存储元数据信息,所谓元数据指的是除
转载
2023-09-01 09:21:33
102阅读
Hadoop NameNode 高可用官方网站namenode可以手动进行切换也可以使用zookeeper进行自动的切换,下面只有第二种方法。配置zookeeper基本环境配置此时存在多台namenode,这些namenode之间需要进行免密配置。修改配置文件1. hdfs-site.xml<configuration>
<property>
<
转载
2023-08-23 20:35:25
44阅读
文章目录一、概述二、Hudi 架构三、Hudi的表格式1)Copy on Write(写时复制)2)Merge On Read(读时合并)3)COW vs MOR四、元数据表(Metadata Table)五、索引(Indexing)六、查询类型(Query Type)1)Snapshot Queries(快照查询)2)Incremental Queries(增量查询)3)Read Optimi
转载
2023-07-25 00:07:53
120阅读
使用目的传统的方式去数据的处理对于大量数据是非常低效的,因此,使用一种称为MapReduce的算法谷歌解决了这个问题。这个算法将任务分成小份,并将它们分配到多台计算机,并且从这些机器收集结果并综合,形成了结果数据集。传统:Hadoop:Hadoop的架构在其核心,Hadoop主要有两个层次,即:加工/计算层(MapReduce),以及存储层(Hadoop分布式文件系统)。MapReduceMapR
转载
2023-09-20 10:52:37
67阅读
文章目录一、概述二、架构1)数据导入(RDBMS->Haoop)2)数据导出(Haoop->RDBMS)三、安装1)下载2)配置环境变量3)配置sqoop代理用户4)安装JDBC5)修改`conf/sqoop.properties`6)存储库初始化7)启动sqoop服务端8)启动sqoop客户端9)设置客户端的各种属性四、简单使用1)常用命令2)数据从MYSQL导入到HDFS(Imp
转载
2023-07-20 17:35:33
350阅读
大数据之Hadoop入门 一、Hadoop特点:volume(大量) velocity(高速) variable(多样) value(低价值密度)二、Hadoop优势: 1.高可靠性--hadoop底层维护多个数据版本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据丢失。 2.高扩展性--在集群间分配任务数据,可方便的扩展数以千计的节点。 3.高效性--在MapReduc
转载
2023-07-10 22:11:13
237阅读
Hadoop是什么?hadoop是一个开源的大数据框架;hadoop是一个的分布式计算的解决方案;hadoop=HDFS(分布式文件操作系统)+MapReduce(分布式计算)。 Hadoop的核心?HDFS分布式文件系统:存储是大数据技术的基础;MapReduce编程模型:分布式计算是大数据应用的解决方案。 Hadoop基础架构?HDFS概念:HDFS有三部分构成:数据块、N
转载
2023-09-20 10:52:43
47阅读
首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件,磁盘访问延迟约为内存访问延迟的75000倍。所以Storm更快。注释:1. 延时 , 指数据从产生到运算产生结果的时间,“快”应该主要指这个。2. 吞吐, 指系统单位时间处理的数据量。storm的网
转载
2024-08-22 15:40:21
40阅读
1、Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构,也是一个开源的大数据框架,通俗点说,是一个分布式计算的解决方案。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计是从单个服务器扩展到数千个机器,每个都提供本地计算和存储。可以这
转载
2023-09-20 10:51:32
39阅读
1、分区是必须要经历Shuffle过程的,没有Shuffle过程无法完成分区操作2、分区是通过MapTask输出的key来完成的,默认的分区算法是数组求模法: --------------数组求模法: -----------将Map的输出Key调用hashcode()函数得到的哈希吗(hashcode),此哈希吗是一个数值类型 ,将此哈希吗数值直接与整数的最大值(Integer.MAXVALU
转载
2023-09-06 19:25:35
47阅读
系列前三篇文章中介绍了分布式存储和计算系统Hadoop以及Hadoop集群的搭建、Zookeeper集群搭建、HBase分布式部署等。当Hadoop集群的数量达到1000+时,集群自身的信息将会大量增加。Apache开发出一个开源的数据收集和分析系统—Chukwa来处理Hadoop集群的数据。Chukwa有几个非常吸引人的特点:它架构清晰,部署简单;收集的数据类型广泛,
转载
2023-10-14 23:20:20
87阅读
一、hadoop简介一、概述Hadoop是Apache提供的一个开源的、可靠的、可扩展的系统架构,可以利用分布式架构来进行海量数据的存储以及计算。需要注意的是Hadoop处理的是离线数据,即在数据已知以及不要求实时性的场景下使用。二、版本Hadoop1.0:只包含HDFS以及MapReduce两个模块Hadoop2.0:完全不同于1.0的架构,包含HDFS、MapReduce以及Yarn三个模块H
转载
2023-09-20 07:18:45
70阅读
主要内容:hdfs的核心工作原理:namenode元数据管理机制,checkpoint机制;数据上传下载流程1、hdfs的核心工作原理1.1、namenode元数据管理要点1、什么是元数据?hdfs的目录结构及每一个文件的块信息(块的id,块的副本数量,块的存放位置<datanode>) 2、元数据由谁负责管理?namenode 3、namenode把元数据记录在哪
转载
2023-10-30 14:14:53
80阅读
首先,回一下Hadoop的基础概念,从概念入手恢复集群。HDFS metadata以树状结构存储整个HDFS上的文件和目录,以及相应的权限、配额和副本因子(replication factor)等。本文基于Hadoop2.6版本介绍HDFS Namenode本地目录的存储结构和Datanode数据块存储目录结构,也就是hdfs-site.xml中配置的dfs.namenode.name.dir和d
转载
2023-07-12 14:55:29
221阅读
1、Hadoop解决了哪些问题?###由于硬盘存储能力的提升速度远大于数据读取的提升速度,1T硬盘对应的读取速度为100M/s,因此需要花费两个多小时的时间来读取所有数据,而如果我们拥有100个硬盘并行读取,则只需要花费大约两分钟,所以我们更加愿意去共享硬盘来获取更快的读取速度,而这样就会出现两个问题:数据存储问题:由于硬盘数量变大,硬盘出错的可能性也会相应变大,这就需要我们对数据进行备份,Had
转载
2024-01-16 18:08:43
68阅读
元数据元数据职责: 1.维护虚拟访问目录 2.储存数据块信息.副本个数.物理块的位置 3.储存块描述信息,起始位置,大小namenode对元数据的管理1.客户端在发起读取数据的请求时,需要元数据要在很高的效率下找出数据储存的位置,所以元数据储存在内存中,并以Tree型数据结构储存,但储存设备宕机后,内存中的数据会消失,所以元数据就也会写入到磁盘中,做持久化储存.因此在内存中和磁盘中各有一份元数据.
转载
2023-08-18 19:56:55
262阅读
本文主要介绍Hive的数据类型。为hive的语法学习打下基础。 目录1.基本数据类型2.集合数据类型集合数据类型实例3.数据类型转化3.1 隐式类型转换规则3.2 CAST 操作显示进行数据类型转换4.参考资料 1.基本数据类型Hive数据类型和java数据类型很像,只有几个不同。重点需要记忆的类型是INT、 BIGINT、 BOOLEAN、STRING类型。2.集合数据类型一般使用较少。 Hiv
转载
2023-07-30 21:08:38
60阅读
sqoop简介sqoop是一个数据交换工具,最常用的两个方法是导入导出;导入导出的参照物是hadoop,向hadoop导数据就是导入。前提条件:必须保证hive、hadoop集群正常启动安装上传安装包[root@localhost usr]# mkdir sqoop
[root@localhost usr]# cd sqoop
[root@localhost sqoop]# sqoop-1.4.7
转载
2023-09-04 21:13:39
87阅读
大数据分析——Hadoop大数据分析一、hadoop的简介 hadoop是整个大数据的根基,没有Hadoop就没有其它任何大数据相关的内容和应用。1.介绍为了搭建 可靠的 可扩展的 分布式的计算机框架所做的开源的项目框架
这个软件是一个允许分布式的框架,使用简单的编程模型处理跨计算机框架的大数据集。
我们的网站日志文件就有2TB/天,那么我一台计算机已经不可能完成任务。在我们机房搭建计算机集群,
转载
2023-06-28 17:34:38
176阅读