1.Hadoop是一个分布式系统基础架构,应用于大数据处理。它实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。  2.分布式系统:在一个分布式系统中,一组独立的计算机展现给用户的是一个统一的整体,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-06 15:19:11
                            
                                58阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Hadoop Shell介绍bin目录下的Hadoop脚本是最基础的集群管理脚本,用户可以通过该脚本完成各种功能,如HDFS文件管理、MapReduce作业管理等。该脚本的使用方法为: hadoop[–config confdir]COMMAND  其中,–config用于设置Hadoop配置文件目录,默认目录为 ${HADOOP_HOME}/conf  而COMMAND是具体的某个命令。常用的有            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-03 14:30:33
                            
                                19阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            实验一:熟悉常用的Linux操作和Hadoop操作1.1 实验目的Hadoop运行在Linux系统上,因此,需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作和Hadoop操作,为顺利开展后续其他实验奠定基础。1.2 实验平台(1)操作系统:Linux(Ubuntu 16.04) (2)Hadoop版本:3.1.31.3 实验步骤1.3.1 熟悉常用的Linux操作1)cd命            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-30 23:21:32
                            
                                131阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            2.8 使用HDFS的Java APIHadoop MapReduce实战手册HDFS Java API可用于任何Java程序与HDFS交互。该API使我们能够从其他Java程序中利用到存储在HDFS中的数据,也能够使用其他非Hadoop的计算框架处理该数据。有时,可能也会遇到要直接从MapReduce应用程序中访问HDFS的用例。但是,如果你是在HDFS中直接通过map或reduce任务写入或修            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-01 08:50:12
                            
                                54阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            此博客为博主学习总结,内容为博主完成本周大数据课程的实验内容。实验内容分为两部分。1. 在分布式文件系统中创建文件并用shell指令查看;2. 利用Java API编程实现判断文件是否存在和合并两个文件的内容成一个文件。感谢厦门大学数据库实验室的实验教程,对博主的学习有很大的帮助。现在,就让我们一起完成实验内容吧!创建文件我们需要先启动下Hadoop,【Ctrl】+【Alt】+【t】打开终端,输入            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-24 11:26:44
                            
                                58阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            大数据编程期末大作业 文章目录大数据编程期末大作业一、Hadoop基础操作二、RDD编程三、SparkSQL编程四、SparkStreaming编程 一、Hadoop基础操作在HDFS中创建目录 /user/root/你的名字 例如李四同学 /user/root/lisi首先我们需要启动hdfs,我们直接在终端输入如下命令:start-dfs.sh我们在终端输入如下命令创建目录:hadoop fs            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-09 18:45:45
                            
                                626阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            实验目的要求目的:理解HDFS在Hadoop体系结构中的角色;熟练使用HDFS操作常用的Shell命令;了解Hadoop集群MapReduce程序的简单使用;(上传WordCount的jar执行程序;使用WordCount进行MapReduce计算)要求:完成Hadoop的高可用完全分布模式的安装;Hadoop的相关服务进程能够正常的启动;HDFS能够正常的使用;MapReduce示例程序能够正常            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-24 13:34:19
                            
                                76阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # Hadoop 合并小文件实操
在大数据处理中,Hadoop 是一个广泛使用的框架,它处理PB级别的大数据并提取有价值的信息。在使用Hadoop的过程中,我们常常会遇到一个问题——小文件问题。小文件不仅浪费存储空间,还会降低MapReduce的处理效率。因此,合并小文件是数据预处理的重要环节之一。
## 为什么要合并小文件
1. **存储效率**:Hadoop的HDFS文件系统为大文件而设            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-08-10 07:11:32
                            
                                149阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            关于hadoop的分享此前一直都是零零散散的想到什么就写什么,整体写的比较乱吧。最近可能还算好的吧,毕竟花了两周的时间详细的写完的了hadoop从规划到环境安装配置等全部内容。写过程不是很难,最烦的可能还是要给每一步配图,工程量确实比较大。原计划准备接上一篇内容写dkhadoop的监控页面的参数,突然觉得还是有必要把上两周写的内容做一个汇总,这样方便需要的朋友浏览。上两周写的五篇内容,汇总到一起            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-28 20:58:51
                            
                                15阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在开始之前,你需要做一些事情。 验证支持检查组件引用,以验证您的Kettle7.1版本支持您的MAPR集群版本。 建立MAPR集群Kettle7.1可以连接到安全的和不安全的MAPR集群。配置MAPR集群。如果需要帮助,请参阅MapR的文档。安装任何必需的服务和服务客户端工具。测试群集。 设置MapR客户端 安装MapR客户机,然后进行测试,以确保它正确地安装在计算机上,并且能够连接到MapR集群            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-17 22:12:51
                            
                                54阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1:start-all.sh开启hadoop相关进程2: start-hbase.sh启动hbase3: jps查看启动的进程情况3: hbase shell进入hbase4: list显示所有表http://localhost:16010/master-status5: create ‘rg34’,’f1’,’f2’,’f3’创建rg34表,f1,f2,f3为列族6: describe ‘rg3            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-20 10:45:52
                            
                                114阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录1、启动Hadoop服务2、创建文本文件3、上传文本文件4、显示文件内容5、完成排序任务6、计算最大利润和平均利润7、统计学生总成绩和平均成绩8、总结1、启动Hadoop服务在master虚拟机上执行命令: start-all.sh 启动hadoop服务进程2、创建文本文件在master虚拟机上创建本地文件students.txt 李晓文 女 20
张晓航 男 19
郑小刚 男 21
吴文华            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-18 23:40:40
                            
                                85阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Hadoop 序列化案例实操1 需求与分析统计每一个手机号耗费的总上行流量、下行流量、	18271575951	192.168.1            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-09-15 19:47:27
                            
                                65阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录0x00 文章内容0x01 Hadoop压缩机制1. 压缩的关键2. Hadoop支持的压缩工具0x02 代码实操1. 原理2. 代码及校验0xFF 总结0x00 文章内容Hadoop压缩机制代码实操压缩是一种通过特定的算法来减小计算机文件大小的机制。这种机制是一种很方便的发明,尤其是对网络用户,因为它可以减小文件的字节总数,使文件能够通过较慢的互联网连接实现更快传输,此外还...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-01-30 09:35:36
                            
                                90阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录0x00 文章内容0x01 Hadoop压缩机制1. 压缩的关键2. Hadoop支持的压缩工具0x02 代码实操1. 原理2. 代码及校验0xFF 总结0x00 文章内容Hadoop压缩机制代码实操压缩是一种通过特定的算法来减小计算机文件大小的机制。这种机制是一种很方便的发明,尤其是对网络用户,因为它可以减小文件的字节总数,使文件能够通过较慢的互联网连接实现更快传输,此外还...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-06-10 17:59:01
                            
                                376阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Hadoop基本介绍hadoop 的组成部分HDFS辅助管理者:SecondaryNameNode工作者:DataNodeMapReduceYarnHDFS 副本存放机制第一份第二份第三个Namenode作用DataNode作用RPC remote procedure callHDFS数据写入流程(重点)HDFS数据读取流程(重点)HDFS数据完整性HDFS适用场景 hadoop 的组成部分HD            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-04 23:10:52
                            
                                75阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1 Yarn生产环境核心参数配置案例 1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4 ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-09-05 12:59:00
                            
                                399阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            3 公平调度器案例 3.1 需求 创建两个队列,分别是test和atguigu(以用户所属组命名)。期望实现以下效果:若用户提交任务时指定队列,则任务提交到指定队列运行;若未指定队列,test用户提交的任务到root.group.test队列运行,atguigu提交的任务到root.group.at ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-09-05 13:05:00
                            
                                390阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            文章目录1.strace简介2.strace的2种用法3.strace使用案例1.strace简介 Strace是Linux中            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-03-09 09:27:02
                            
                                272阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、NMAP二、DAS三、NAS四、SAN五、FC1、FC-AE协议集
2、FC-AV(ARINC818)
3、光纤总线特点:
六、MEMERY
七、LVM
八、SCSI
特点:
九、SMB
十、stordge
十一、NFS
十二、block
特点:
十三、扇区
一、NMAP
nmap是一个网络连接端扫描软件,用来扫描网上电脑开放的网络连接段。确定哪些服务运行在哪些连接端,并且推断计算机运行哪个操