一、本文说明:    本文参照网上的一些资料做了对hadoop节点的添加和删除实验。二、删除节点:    1.集群配置:      修改/conf/hdfs-site.xml文件[jack@node1 conf]$ cat hdfs-site.xml 
<?xml vers            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-05-19 16:39:48
                            
                                511阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前言:由于配置不兼容等原因,导致需要卸载原有hadoop等机器软件。思路:你怎么安装的就逆着执行就好。步骤一:暂停所有服务。【思路】:正常关闭所有运行的服务,并利用指令查看是否产出服务关闭时的效果。 步骤二:由从到主服务器删软件 步骤三:根据,软件安装的前提环境删【思路-举例】:删“zookeeper” => 删“hbase” => 删“hadoop” => 删jdk步骤四:根据            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-21 22:17:05
                            
                                169阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录一、动态添加节点1.前提准备2.系统配置3.hadoop动态添加节点二、动态删除节点1.动态删除DataNode节点与NodeManager节点2.动态删除DataNode节点与NodeManager节点的另一种方式一、动态添加节点1.前提准备假设之前有三台服务器来安装Hadoop192.168.0.102 hadoop102
192.168.0.103 hadoop103
192.168.0            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-12 12:20:00
                            
                                72阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            首先来了解一下HDFS的一些基本特性HDFS设计基础与目标硬件错误是常态。因此需要冗余 流式数据访问。即数据批量读取而非随机读写,Hadoop擅长做的是数据分析而不是事务处理 大规模数据集 简单一致性模型。为了降低系统复杂度,对文件采用一次性写多次读的逻辑设计,即是文件一经写入,关闭,就再也不能修改 程序采用“数据就近”原则分配节点执行 HDFS体系结构NameNode DataNode 事务日志            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-16 21:37:33
                            
                                73阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、基于文件的数据结构   HDFS和MR主要针对大数据文件来设计,在小文件处理上效率低,解决方法是原则一个容器,将这些小文件包装起来,将整个文件作为一条记录,可以获取更高效率的储存和处理,避免多次打开关闭流耗费计算资源。  具体流程:①在原有HDFS基础上添加一个小文件处理模块。②当用户上传文件时,判断该文件是否属于小文件,如果是,则交给小文件处理模块处理,否则,交            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-25 17:15:20
                            
                                143阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、Hadoop节点扩容随着公司业务不断的发展,数据量也越来越大,此时需要对Hadoop集群规模进行扩容,在现有Hadoop 3台集群的基础上动态增加node4服务器上的DataNode与NodeManager节点。操作方法和步骤如下:1、Hosts及防火墙设置node1、node2、node3、node4节点进行如下配置:cat >/etc/hosts<<EOF
127.0.0            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-16 10:10:05
                            
                                57阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            -- 清空表中的数据,保留表结构
truncate table tmp_userid;
insert into tmp_userid values('123456');
-- 搜索库或表支持正则表达式
show tables 'sa*';
show tables in basename;
-- 创建数据库时,默认位置是'/user/hive/warehouse/basename.db',可以创            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-13 16:50:57
                            
                                108阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             hdfs文件的相关操作主要使用hadoop fs、hadoop dfs、hdfs dfs 命令,以下对最常用的相关命令进行简要说明。
hadoop fs -help tail 帮助
hadoop fs -ls  显示当前目录结构,-ls -R 递归显示目录结构
hadoop fs -mkdir  创建目录
hadoop fs -touchz <path> 创建文件@@@@@            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-03 15:13:45
                            
                                122阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            在hadoop第前几个版本中是没有快照功能的,2.x中是有这个特性的Hadoop 2.x HDFS新特性   HDFS快照 HDFS快照     在2.x终于实现了快照     设置一个目录为可快照:         h            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-13 08:46:00
                            
                                168阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            近期由于Hadoop集群机器硬盘资源紧张,需要把 Hadoop 集群上的历史数据进行压缩(历史数据都是未压缩的数据),于是我开始从网上查找有没有压缩相关的教程,结果查到的都是关于各种压缩机制的对比,很少有关于怎么压缩的教程(可能我没找到。。),再此特记录下本次压缩的过程,方便以后查阅,利己利人。本文涉及的所有 jar包、脚本、native lib 见文末的相关下载 ~我的压缩版本:J            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-26 13:07:00
                            
                                42阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # Hadoop 删除流程及代码示例
## 概述
Hadoop 是一个分布式文件系统,可以存储和处理大规模的数据集。当我们需要删除 Hadoop 上的文件或目录时,可以通过以下流程进行操作。本文将为你介绍如何使用 Hadoop 删除文件和目录,并提供代码示例和注释说明。
## Hadoop 删除流程
下面的流程图展示了使用 Hadoop 删除文件和目录的步骤:
```mermaid
flow            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-08-22 05:33:43
                            
                                57阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、Hadoop简介2003 年 Google 发表三篇论文也就是所谓的“三架马车”,分别是 《The Google File System》 《MapReduce: Simplified Data Processing on Large Clusters》 《Bigtable: A Distributed Storage System for Structured Data》,分别对应后来出现的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-20 12:15:31
                            
                                81阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            关于用户的操作添加用户:useradd hadoop查看用户: id hadoop 创建的为普通用户,默认创建的这个名称hadoop的用户组为hadoop,切主组为hadoop,该用户的根目录在/home/hadoop下删除用户:userdel bigdata 删除用户bigdata当该用户组bigdata只有他自己时,会自动的删除相应的用户组bigdata。删除用户时对应根目录下的文件夹不会删除            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-17 13:32:49
                            
                                132阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            hadoop fs -help --查看帮助
hadoop fs -put /mydir/dept.txt hdfs://hadoop-master:9000/mytable/test/  ---把数据文件上传到hadoop
hadoop fs -mkdir hdfs://hadoop-master:9000/mytable/test ---创建目录下的文件夹 
hadoop fs -mkdir            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-18 11:37:21
                            
                                219阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前言     Java编写Hadoop第一个MapReduce任务  因为在做网站案例的时候,想学习如何处理海量数据,所以想接触大数据相关的知识,之前对于大数据的了解,仅仅是停留在知道Hadoop,Hive,HBase,Spark的层面上,所以如何学习确实对我造成了困扰,所幸我所在公司部门存在大数据开发,于是不断的请教大佬,大佬说第一步是学一点Linux和Java,然后Hadoop,再然后....            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-17 18:52:16
                            
                                51阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            定义      Hive是一个构建在Hadoop上的数据仓库框架。可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。metastore  &            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-18 08:07:11
                            
                                30阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录前言一、文件删除过程1.提交删除任务2.文件删除总流程3.删除命名空间4.心跳生成删除命令5.块的删除二、Namenode的增量块机制1.IBR(增量块汇报)的延时批处理后记 前言前文我们提到线上Hadoop集群因为频繁大批量删除文件导致集群卡顿,后期使用了Namenode的异步增量汇报解决了该故障。本文就简单介绍下文件删除的过程以及Namenode的增量块机制。一、文件删除过程该章节着            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-01 22:49:47
                            
                                177阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            【hadoop】hadoop常用操作一、文件夹的查询、创建和删除二、文件的创建、查询、删除三、常用命令一览       一、文件夹的查询、创建和删除1、创建文件夹:hdfs dfs -mkdir /test,对应linuxmkdir   2、查看根目录有多少文件夹:hdfs dfs -ls /,对应linuxls /   3、查看文件夹中的文件(此时为空):hdfs dfs -ls /test,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-30 19:52:56
                            
                                506阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、HDFS的shell命令简介 我们都知道HDFS 是存取数据的分布式文件系统,那么对HDFS 的操作,就是文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对HDFS 的操作命令类似于lLinux 的shell 对文件的操作,如ls、mkdir、rm 等。 我们在执行HDFS的shell操作的时候,一定要确定hadoop 是正常运行的,我们可以使用使用j            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-06 09:33:17
                            
                                193阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            首先建议datanode和tasktracker分开写独立的exclude文件,因为一个节点即可以同时是datanode和tasktracker,也可以单独是datanode或tasktracker。 1、删除datanode修改namenode上的hdfs-site.xml  <property>
<name>dfs.hosts</name>            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-29 10:44:04
                            
                                27阅读