Common简介从Hadoop 0.20版本开始,原来Hadoop项目的Core部分更名为Hadoop Common。Common为Hadoop的其他项目提供一些常用工具,主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。配置信息处理一般的软件都会有一个配置模块,来作为扩展、定制的手段和方式。Hadoop使用配置文件将系            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-24 10:57:28
                            
                                233阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Hadoop学习笔记[5]-Yarn介绍分布式计算简单的说就是要将计算任务分发给不同的计算节点,这其中很自然的就会遇到两个问题:资源管理任务调度   资源管理负责监控计算节点的负载情况,任务调度负责派发具体的任务到计算节点,本文说的Yarn主要就是用于资源管理1、Yarn之前Hadoop在2.X之后进行了比较大规模的重构,比较大的一块就是集群新增了Yarn这个角色,在Hadoop1.X的时候,负责            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-20 12:05:25
                            
                                65阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1.数据流  MapReduce作业(job)是客户端需要执行的一个工作单元:它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个任务(task)来执行,其中包括两类任务:map任务和reduce任务。这些任务运行在集群的节点上,并通过YARN进行调度。如果一个任务失败,它将在另一个不同的节点上自动重新调度执行。  Hapoop将MapReduce的输入数据划分成等长的小            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-26 12:52:30
                            
                                75阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Apache Hadoop 3.3.1 – Overview英文太渣,看得脑瓜疼,有时间就看了一遍,整理了一下下。appendToFile用法:hadoop fs -appendToFile <localsrc> ... <dst> 将单个 src 或多个 src 从本地文件系统附加到目标文件系统。还从 stdin 读取输入并附加到目标文件系统。 hadoop fs -ap            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-20 02:31:24
                            
                                107阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1. datanode介绍1.1 datanodedatanode是负责当前节点上的数据的管理,具体目录内容是在初始阶段自动创建的,保存的文件夹位置由配置选项{dfs.data.dir}决定1.2 datanode的作用datanode以数据块的形式存储HDFS文件
datanode响应HDFS 客户端读写请求
datanode周期性向NameNode汇报心跳信息,数据块信息,缓存数据块信息1.3            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-06 18:39:01
                            
                                88阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一。MapReduce概念  Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;  Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。1.1 为什么要MapReduce  1)海量数据在单机上处理因为硬件资源限制,无法胜任  2)而一旦将单机版程序扩展到集群来分            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-24 17:58:39
                            
                                30阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录Hive基本概念一、Hive介绍1、什么是Hive2、Hive的优缺点3、Hive的特点二、Hive架构1、架构图2、基本组成3、Hive与传统数据库对比 Hive基本概念一、Hive介绍1、什么是HiveHive是一个构建在Hadoop上的数据仓库框架。最初,Hive是由Facebook开发,后来移交由Apache软件基金会开发,并作为一个Apache开源项目。Hive是基于Hadoo            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-24 11:00:06
                            
                                47阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Pig 简介:     Pig 是 Apache 项目的一个子项目,Pig 提供了一个支持大规模数据分析的平台,Pig 突出的特点就是它的结构经得起大量并行任务的检验,使得它能够处理大规模数据集Pig  特点:    Pig 可简化 MapReduce 任务的开发&nb            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-06 10:43:28
                            
                                44阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            问题导读: 1.Context能干什么? 2.你对Context类了解多少? 3.Context在mapreduce中的作用是什么? 本文实在能够阅读源码的基础上一个继续,如果你还不能阅读源码,请参考 从零教你如何获取hadoop2.4源码并使用eclipse关联hadoop2.4源码 http://www.aboutyun.com/thread-8211-1-1.html 如何通过eclipse            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-14 21:55:12
                            
                                63阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Hadoop NameNode 高可用官方网站namenode可以手动进行切换也可以使用zookeeper进行自动的切换,下面只有第二种方法。配置zookeeper基本环境配置此时存在多台namenode,这些namenode之间需要进行免密配置。修改配置文件1. hdfs-site.xml<configuration>
    <property>
        <            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-23 20:35:25
                            
                                44阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1、Zookeeper基本安装配置该项的所有操作步骤使用专门用于集群的用户admin进行 此项只在一台主机操作,然后在下一步骤进行同步安装与配置 首先,Zookeeper软件包“Zookeeper-3.4.9.tar.gz”,上节课已经上传到用户家目录的“setups”目录下。 然后进行解压和环境变量设置 $mkdir ~/zookeeper #创建用户存放Zookeeper相关文件的目录 $cd            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-01 08:04:04
                            
                                56阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             1、MapReduce理论简介 1.1 MapReduce编程模型  MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。  在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTrack            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-19 10:31:49
                            
                                33阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            概述:实现强强联合,助力实时分析
Elasticsearch-Hadoop (ES-Hadoop) 连接器将 Hadoop 海量的数据存储和深度加工能力与 Elasticsearch 实时搜索和
分析功能进行连接。它能够让您快速深入了解大数据,并让您在 Hadoop 生态系统中更好地开展工作。
对 Hadoop 数据进行交互分析
Hadoop 是出色的批量处理系统,但是要想提供实时结果则颇具挑战            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-24 10:58:41
                            
                                90阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            安装Hadoop的详细过程(1)创建虚拟机Ubuntu2(可自定义)内存大小可自定义(建议大一点较好) 建议虚拟硬盘大一点 上述完成后先别启动,更改一下设置! 存储 - 选择没有盘片,并添加已下载好的Ubuntu镜像 在安装期间关闭网络,等安装完再启用 创建一个共享文件夹,并且记住这个文件夹的名字和路径! 按住Alt键,右击鼠标往上拖,点击“新建分区表”(2)安装完虚拟机后,点击“现在重启”,进入            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-19 13:22:37
                            
                                77阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1 搭建环境部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiyanl            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-06 20:44:44
                            
                                92阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、先看简单理解对于hadoop的map端配置项"mapreduce.task.io.sort.mb"和"mapreduce.map.sort.spill.percent"应该都比较熟悉了,如图解释(http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduce            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-03 15:31:21
                            
                                105阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Pig为大型数据集的处理提供了更好层次的抽象。Pig为MapReduce提供了更丰富的数据结构,这些数据结构往往都是多值和嵌套的,Pig还提供了一套更强大的数据变换操作。Pig包括两部分:(1)用于描述数据流的语言,Pig Latin。(2)用于运行Pig Latin程序的执行环境。当前有两个环境:单JVM中的本地执行环境和Hadoop集群上的分布式执行环境。Pig Latin程序由一系列“操作”            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-06 21:09:13
                            
                                45阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、Hive基本概念1、概念
   Hive:由Facebook开源用于解决海量结构化日志的数据统计。 
  Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。  本质是:将HQL转化成MapReduce程序          HQL转化成MapReduce  (1)Hive处理的数据存储在HDFS(2)Hive分析数据底层的实            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-30 19:26:13
                            
                                106阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            zookeeper概念介绍ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。官方文档上这么解释zookeeper,它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-30 19:23:29
                            
                                7阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、问题描述海量空间数据存储要求服务器水平扩展性强,基于Hadoop的NoSQL数据库具有水平扩展性强的特点,其高效的并行存储机制也为空间检索提供快速响应的能力。二、方案选择由于将数据存入Hbase中需要考虑如何存储,空间数据处理的基本单位是二维或三维坐标,HBase只支持一维行键检索。行键的设置是HBase存储和处理空间数据首要解决的问题。不同于Hilbert、Geohash等降维方法,此次使用            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-11 07:10:28
                            
                                54阅读