我们知道hdfs是hadoop体系上的文件系统,负责具体的数据文件存储,且如果一旦hdfs文件被误删除后,尤其是重要数据,对公司来说影响非常大。所以需要提前做一些安全预防措施,例如使用Hdfs Trash机制,或者重要目录应用Hdfs SnapShot功能,然后针对于删除的文件或者目录可以通过trash或者SnapShot机制来进行恢复,如果数据确实已经删除了(例如直接通过hadoop api进行
转载
2024-02-29 10:07:31
81阅读
最近公司因为断电之前没有关闭Hadoop集群,造成数据丢失,namenode坏了,无法启动,所以我尝试恢复。方法一:使用hadoop namenode -importCheckpoint 1、删除name目录: 1 [hadoop@node1 hdfs]$ rm -rf name dfs.name.dir: [hadoop@node2
转载
2024-05-26 10:20:46
136阅读
一、HAWQ高可用简介 HAWQ作为一个传统数仓在Hadoop上的替代品,其高可用性至关重要。通常硬件容错、HAWQ HA、HDFS HA是保持系统高可用时需要考虑并实施的三个层次。另外实时监控和定期维护,也是保证集群所有组件健康的必不可少的工作。 总的来说,HAWQ容错高可用的实现方式包
转载
2024-06-21 22:41:48
117阅读
大数据再出发-06Hadoop(优化&特性&HA) 文章目录大数据再出发-06Hadoop(优化&特性&HA)一、Hadoop数据压缩1.1 概述1.2 MR支持的压缩编码1.3 压缩方式选择1.3.1 Gzip压缩1.3.2 Bzip2压缩1.3.3 Lzo压缩1.3.4 Snappy压缩1.4 压缩位置选择1.5 压缩参数配置二、Hadoop企业优化2.1 Ma
手动故障切换到备用NameNode使用Cloudera Manager手动故障转移到备用NameNode如果您正在运行启用了HA的HDFS服务,则可以手动使活动的NameNode故障切换到备用NameNode。这对计划中的停机时间很有用 - 用于主要主机的硬件更改,配置更改或软件升级。 1.转到HDFS服务。 2.单击实例选项卡。 3.点击联合和高可用性。 4.找到要在NameNode上进
转载
2024-03-20 20:39:15
51阅读
大家好,今天分享一款OLAP神器的安装方法。学习靠努力和坚持。能动手的地方不要动嘴(实操胜于一切)。 01—Apache Kylin是什么 Apache Kylin是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。Kylin也是国内首个贡
转载
2024-03-18 11:14:43
44阅读
1.MapReduce shuffle处理程序和IFile阅读器使用本机Linux调用,在安装了Hadoop本机库的Linux系统上。
2.改善随机处理程序
1.您可以通过启用shuffle readahead来改进MapReduce shuffle处理程序的性能。
这会导致TaskTracker或节点管理器在通过套接字将其发送到reducer之前预读取
转载
2024-07-19 18:34:19
50阅读
一、准备工作1.1 前言 这是博主在升级过程中遇到的问题记录,大家不一定遇到过,如果不是 CDH 平台的话,单是 hive 服务升级应该是不会有这些问题的,且升级前博主也参考过几篇相关 CDH 升级 hive 服务的博文,前面的升级步骤基本一致,但是升级过程只有我遇到了这些问题吗?显然不是的,但是其他博文
转载
2024-03-25 13:55:49
437阅读
前期准备
配置hosts
192.168.245.105 scm-node1
192.168.245.106 scm-node2
192.168.245.107 scm-node3设置hostname
在192.168.245.105上执行
sudo hostnamectl --static --transient set-hostname scm-node1
在192.168.245.106
转载
2024-05-11 22:51:57
54阅读
Hadoop的高可用安装本文主要讲hadoop的高可用安装过程以及一些本人在安装过程中遇到的错误和解决方法。1.HA安装方案2.分发jdk到node04,05,06scp jdk-7u67-linux-x64.rpm node04:`pwd`
scp jdk-7u67-linux-x64.rpm node05:`pwd`
scp jdk-7u67-linux-x64.rpm node06:`pwd
转载
2024-06-09 09:52:11
75阅读
集群部署情况HOSTJNNNSNNDNZKFCZKnode01##--#-node02######node03#--#-#node04---#-#基础操作环境centos7.5 jdk1.8 zookeeper 3.7.1 hadoop 2.6.5基础设施安装jdk基本操作,不会的自行百度。关闭防火墙systemctl stop firewalld
systemctl disable firew
转载
2024-04-19 17:41:04
51阅读
HDFS高可用对于保证NameNode元数据的一致性和编辑日志的安全性,采用Zookeeper来存储编辑日志文件。两个NameNode一个是Active状态的,一个是Standby状态的,一个时间点只能有一个Active状态的。NameNode提供服务,两个NameNode上存储的元数据是实时同步的,当Active的NameNode出现问题时,通过Zookeeper实时切换到Standby的Nam
转载
2024-05-01 21:53:21
40阅读
详解HDFS Short Circuit Local ReadsHadoop的一大基本原则是移动计算的开销要比移动数据的开销小。因此,Hadoop通常是尽量移动计算到拥有数据的节点上。这就使得Hadoop中读取数据的客户端DFSClient和提供数据的Datanode经常是在一个节点上,也就造成了很多“Local Reads”。最初设计的时候,这种Local Reads和Remote Reads(
转载
2024-04-05 21:22:15
31阅读
ls格式:hdfs dfs -ls URI作用:类似于linux的ls命令,显示文件列表lsr格式:hdfs dfs -lsr URI作用:在整个目录下递归执行lsmkdir格式:hdfs dfs 【-p】 -mkdir <path>作用:以《path》中的URI作为参数,创建目录,使用-p参数可以递归创建目录put格式: hdfs dfs -put
转载
2024-02-20 18:39:15
27阅读
1.HDFS高可用对于HDFS ,NN存储元数据在内存中,并负责管理文件系统的命名空间和客户端对HDFS的读写请求。但是,如果只存在一个NN,一旦发生“单点故障”,会使整个系统失效。虽然有个SNN,但是它并不是NN的热备份因为SNN无法提供“热备份”功能,在NN故障时,无法立即切换到SNN对外提供服务,即HDFS处于停服状态。HDFS2.x采用了HA(High Availability高可用)架构
转载
2024-04-10 14:27:04
0阅读
概念备份就是将已有的内容复制一份,存储在其他的服务器上!MySQL中提供的备份的方式有很多,常见的有: 文本备份 数据备份(单表) SQL备份一.文本备份文本备份是最简单的!就是复制和粘贴!我们一般认为,文本备份只适合Myisam存储引擎的数据表! 还原的时候就是把上面的三个文件复制到对应的数据库目录下就行了! 缺点:每次都要备份全部的文件,非常浪
第二部分:HDFS第三部分:MapReduce第四部分:项目案例实战《Hadoop》Hadoop常用命令命令说明jps查看进程service iptables stop关闭防火墙start-all.sh启动Hadoop服务1、Hadoop介绍Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 Hadoop框架应用工程提供跨计算机集群的
转载
2024-03-25 16:17:16
75阅读
1.概述在CDH的默认安装包中,是不包含Kafka,Kudu和Spark2的,需要单独下载特定的Parcel包才能安装相应服务。本文档主要描述在离线环境下,在CentOS6.5操作系统上基于CDH5.12.1集群,使用Cloudera Manager通过Parcel包方式安装Kudu、Spark2和Kafka的过程。内容概括Kudu安装Spark2安装Kafka安装服务验证测试环境操作系统版本:
转载
2024-03-22 08:51:54
198阅读
1.设计基础目标 (1) 错误是常态,需要使用数据冗余 (2)流式数据访问。数据批量读而不是随机速写,不支持OLTP,hadoop擅长数据分析而不是事物处理。 (3)文件采用一次性写多次读的模型,文件一旦写入就无法修改。所以一致性模型非常简单。 (4)程序采用 数据就近 原则分配节点执行。(MapReduce)2.hdf体系结构
1.基础环境准备1.1创建一个新的虚拟机1.2安装虚拟机,设置ROOT密码并创建用户名为cdh的用户。 1.3修改配置文件 1.4测试是否可以联网 1.5安装常用命令 1.6关闭防火墙 1.7复制两台虚拟机并修改名称 1.8生成MAC地址并记录此地址之后取消 1.9启动第二台虚拟机 1.10修改配置文件,修改以下三处内容(MAC地址为之前记录的)。 1.11修改MAC地址与配置文件中一致 1.12
转载
2024-04-24 11:29:42
208阅读