第1章 MapReduce概述1.1 MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1.2 MapReduce优缺点1.2.1 优点MapReduce 易于编程 它简单的实现一些接口,
转载 2024-07-09 10:58:26
18阅读
 1. 副本副本的目的主要是保障数据的高可用性,即使一台ClickHouse节点宕机,那么也可以从其他服务器获得相同的数据。1.1 副本写入流程 client从clickhouse-a节点写数据,提交写入日志给zookeeper,clickhouse-b有一个监听器来监听zookeeper接收到日志之后从clickhouse-a中下载数据。1.2 副本的配置步骤①启动zooke
转载 2023-08-20 12:50:37
129阅读
package hadoopTest;import java.io.IOException;import java.util.Scanner;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;import org.apache.hadoop.fs.FSDataInputStre
原创 2015-12-20 10:28:02
374阅读
package hadoopTest;import java.io.IOException;import java.util.Scanner;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;import org.apache.hadoop.fs.FSDataInputStre
转载 精选 2015-10-15 14:02:43
399阅读
HDFS倒排索引Hadoop代码操作的描述 在这篇博文中,我将详细介绍如何在Hadoop环境中实现HDFS倒排索引的操作过程。这一过程包含多个步骤,从环境准备到配置详解,确保在构建此索引时能够顺利进行。 ## 环境准备 首先,我们需要确保 Hadoop 环境的搭建与配置准备妥当。接下来,我将列出一些前置依赖的安装。 - **前置依赖安装**: - Java JDK 1.8及以上版本
原创 7月前
17阅读
1. 查看HDFS文件或目录 [xiaoyu@hadoop02 ~]$ cd hadoop-1.1.2[xiaoyu@hadoop02 hadoop-1.1.2]$ ./bin/hadoop fs -ls[xiaoyu@hadoop02 hadoop-1.1.2]$ echo $?0[xiaoyu@hadoop02 hadoop-1.1.2]$ ./bin/hadoop fs -lsr[xiao
原创 2013-09-10 14:35:04
1022阅读
1、创建目录import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class MakeDir { public static void m
转载 2021-08-27 16:36:36
339阅读
hadoop 运行模式一、ssh二、Hadoop伪分布模式<1>设置三种模式的切换( 配置文件 + 守护进程的启动 = hadoop集群 )<2>web的端口<3>Hadoop的启动脚本 ( hdfs + yarn )三、完全分布式搭建<1> 概念<2> 部署 一、sshSSH:安全的远程连接 xshell/putty工具连接l
转载 2023-09-06 10:53:38
54阅读
文章目录CentOS01的安装和配置下载CentOS 7.2镜像系统安装创建新的虚拟机安装操作系统环境配置给予 Hadoop用户 root 权限关闭防火墙配置Vmware虚拟网络编辑器的NAT设置给centos01设置固定IP本地 ping 地址 测试修改主机名创建资源目录/opt/modules/、/opt/software/Java环境配置卸载系统自带的JDK,后查询不到jdk相关文件上传j
转载 2023-08-29 22:54:17
70阅读
功能实现功能:统计文本文件中所有单词出现的频率功能。下面是要统计的文本文件【/root/hadooptest/input.txt】foo foo quux labs foo bar quux abc bar see you by test welcome testabc labs foo me python hadoop ab ac bc bec python编写Map代码Map代码,它会从标准输
目录一:MapReduce概述1.MapReduce定义2.MapReduce优势3.MapReduce劣势二:MapReduce核心思想三:如何自定义一个map-reduce程序1.建好Hadoop集群环境2.参考官方WordCount案例3.自定义WordCount案例3.1 新建maven工程3.2 日志配置log4j2.xml3.3 编写Mapper类3.4 编写Reducer类3.5
转载 2023-09-22 07:01:24
92阅读
前面2篇文章知道了HDFS的存储原理,知道了上传和下载文件的过程,同样也知晓了MR任务的执行过程,以及部分代码也已经看到,那么下一步就是程序员最关注的关于MR的业务代码(这里不说太简单的):一、关于MapTask的排序  mapTask正常情况,按照key的hashcode进行从小到大的排序操作,形成map输出,交给reduce,(据某篇博文说,hashcode排序使用的是快排,这个无从考证),这
转载 2023-06-01 18:10:59
135阅读
即使不考虑数据节点出错后的故障处理,文件写入也是HDFS中最复杂的流程。本章以创建一个新文件并向文件中写入数据,然后关闭文件为例,分析客户端写文件时系统各节点的配合,如下图所示。 客户端调用DistributedFileSystem的create()方法创建文件,上图的步骤1,这时,DistributedFileSystem创建DFSOutputStream,并由远程过程调用,让名字节点执行同名
转载 2023-07-12 13:57:35
324阅读
目录:1、hdfs 读数据流程2、hdfs 写数据流程3、hadoop的RPC框架3.1、定义一个接口3.2、编写接口的业务实现类3.3、使用RPC框架API将业务实现发布为RPC服务3.4、客户端通过RPC框架API获取跟RPC服务端通信的socket代理,调用远端服务4、hdfs 读数据源码分析5、hdfs 写数据源码分析6、远程debug跟踪Hadoop服务端代码6.1、需要在$HADOOP
转载 2023-07-12 13:57:24
117阅读
1.简要描述一个apache如何安装配置hadoop.        1.创建hadoop 帐户。    2.setup.改IP。    3.安装java,并修改/etc/profile 文件,配置java 的环境变量。    4.修改Host 文件域名。
转载 2024-03-14 07:30:28
22阅读
运行spark on yarn时,Hadoop 8088UI界面上所有可以点击的链接均无法打开:可能存在的几种情况: 第一:配置存在问题。 第二:jobhistory没有启动。 第三:本机的host文件没有配置别名。如果是配置存在问题,请参考如下配置:core-site.xml文件<configuration> <!-- hadoop默认访问nameNode元数据的路径 --&
转载 2023-08-21 07:12:44
70阅读
(一)完成相关的HDFS的基本shell命令0.命令基础①执行命令启动Hadoop(版本是Hadoop3.1.3)。 ②Hadoop支持很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。在终端输入如下命令可以查看fs全部支持的命令。 ③在终端输入如下命令,可以查看具体某个命令的作用。例如查看put命令如何使用,可以输入如下命
转载 2023-07-24 09:24:04
92阅读
写在前面:mapreduce 任务的提交方式1. 打成JAR包,上传Linux,hadoop jar 执行2. 嵌入某个应用程序:IDE 直接提交3. local模式,在Windows上本地执行以下代码,先使用IDEA直接提交,再打包成jar包后上传Linux执行一、编写word count代码注:依赖下载的jar包的配置文件pom.xml放在文末1.驱动程序WordCountDriver.cla
原创 2022-11-02 15:10:42
370阅读
# 了解Hadoop代码 ## 什么是HadoopHadoop是一个开源的分布式系统框架,用于存储和处理大规模数据集。它基于MapReduce编程模型,允许用户在集群中并行处理数据。Hadoop由两部分组成:Hadoop Distributed File System(HDFS)和Hadoop MapReduce。HDFS用于存储数据,而MapReduce用于处理数据。 ## Hadoo
原创 2024-06-15 03:38:10
41阅读
  • 1
  • 2
  • 3
  • 4
  • 5