在上一篇文章《Hadoop核心源码剖析系列(一)》中,我们给大家介绍了Hadoop底层通信原理RPC的模型,了解了Hadoop RPC服务之间的通信原理。主要分享了自己工作以来学会的阅读剖析技术源码的方法——场景驱动法,希望能解决小伙伴们 阅读源码难、无从下手的问题,并且为大家剖析了NameNode初始化的核心流程,大家有兴趣可以点击阅读,如果想深入了解的话需要自己动手去查看代码细节。 
转载 2023-08-04 10:58:43
77阅读
http://svn.apache.org/repos/asf/hadoop/
原创 2022-07-19 11:28:35
67阅读
2021SC@SDUSC1.Hadoop配置信息处理1.1 Windows 操作系统的配置文件Windows 系统广泛使用一种特殊化的 ASCII 文件(以“ini”为文件扩展名)作为它的主要配置文件标准。INI文件被称为初始化文件(Initialization File)或概要文件(profile)。应用程序可以拥有自己的配置文件,存储应用的设置信息,也可以访问 Windows 的基本
本节介绍两种调试Hadoop源代码的方法:利用Eclipse远程调试工具和打印调试日志。这两种方法均可以调试伪分布式工作模式和完全分布式工作模式下的Hadoop。本节主要介绍伪分布式工作模式下的Hadoop调试方法。(1)利用Eclipse进行远程调试下面以调试ResourceManager为例,介绍利用Eclipse远程调试的基本方法,这可分两步进行。步骤1 调试模式下启动Hadoop。在Had
原创 2015-03-29 11:37:46
1374阅读
关键字: 分布式云计算 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。 GoogleCluster:http://research.google.com/archive/googlecluster.html Chubby:http://labs.google.com/papers/chubby.html GFS:http://labs.go
转载 2021-08-18 10:06:57
318阅读
1.概述  在完成分析Hadoop2源码的准备工作后,我们进入到后续的源码学习阶段。本篇博客给大家分享,让大家对Hadoop V2有个初步认识,博客的目录内容如下所示:Hadoop的渊源Hadoop V2部分项目图各个包的功能介绍  本篇文章的源码是基于Hadoop-2.6.0来分析,其他版本的Hadoop的源码可以此作为参考分析。2.Hadoop的渊源  其实,早年Google的核心竞争力是它的
转载 2024-02-23 11:23:18
30阅读
Avro Source 监听Avro端口并从外部Avro客户端流接收事件。
转载 2023-05-25 22:34:26
89阅读
Hadoop源代码学习(完整版)  Hadoop源代码分析(一) Hadoop Mapreduce Google HBase Facebook  经济不行啦,只好潜心研究技术。 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。 GoogleClu
转载 2024-05-23 12:29:51
24阅读
在网上看到了很多此文章的装载,但是都是纯文字,这篇文章在没有图片的情况下阅读起来意义不大了。花了点时间上传了100多张图片,希望对大家学习hadoop有帮助。Hadoop源代码分析(一)关键字: 分布式 云计算  Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。  GoogleCluster: 
 Eclipse同maven进口hadoop源代码1)  安装和配置maven环境变量M2_HOME: D:\profession\hadoop\apache-maven-3.3.3PATH: %M2_HOME%\bin;2)  验证:mvn –version3)  下载protobuf-2.5.0.tar.gz 和 protoc-2.5.0-win32.zip 4)  将protoc-2.5.0
转载 2015-08-23 16:28:00
30阅读
2评论
 以写文件为例,串联整个流程的源码: FSDataOutputStream out = fs.create(outFile); 1. DistributedFileSystem继承并实现了FileSystem,该对象是终端用户和hadoop分布式文件系统交互的接口。原文说明: /****************************************************
转载 2023-12-01 22:19:15
19阅读
FFmpeg源代码
原创 2022-03-28 17:56:39
1047阅读
Hadoop框架详解Hadoop项目主要包括以下四个模块◆ Hadoop Common:  为其他Hadoop模块提供基础设施  ◆ Hadoop HDFS:  一个高可靠、高吞吐量的分布式文件系统  ◆ Hadoop MapReduce:  一个分布式的离线并行计算框架  ◆ Hadoop YARN:  一个新的MapRedu
转载 2023-09-14 13:04:31
16阅读
接下来我们来分析Task的两个子类,MapTask和ReduceTask。MapTask的相关类图如下: MapTask其实不是很复杂,复杂的是支持MapTask工作的一些辅助类。MapTask的成员变量少,只有split和splitClass。我们知道,Map的输入是split,是原始数据的一个切分,这个切分由org.apache.hadoop.mapred.InputSplit的子类
原创 2015-05-21 11:55:00
580阅读
Hadoop起源:hadoop的创始者是Doug Cutting,起源于Nutch项目,该项目是作者尝试构建的一个开源的Web搜索引擎。起初该项目遇到了阻碍,因为始终无法将计算分配给多台计算机。谷歌发表的关于GFS和MapReduce相关的论文给了作者启发,最终让Nutch可以在多台计算机上稳定的运行;后来雅虎对这项技术产生了很大的兴趣,并组建了团队开发,从Nutch中剥离出分布式计算模块命名为“
今天有朋友在群里找hadoop最新的2.6.0的源代码,其实这个源代码hadoop的官方网站是有下载的(应该是32位的),还有一个src,不过给的是maven版本,需要自己在机器上编译一下(我的机器用的是64位的,所以要在上面进行开发,就要自己编译成64位的).如果你需要32位的,请直接去官方下吧:地址http://mirrors.cnnic.cn/apache/hadoop/common/st
今天有同学问我,如何kill掉制定用户的所有job,有没有现成的命令?我看了一下hadoop job命令的提示,没有这样的命令。 其实实现kill指定用户的job也非常简单,本身hadoop job命令已经带有很多实用的job管理功能了。列出Jobtracer上所有的作业hadoop job -list使用hadoop job -kill杀掉指定的jobidhadoop job -kill job
转载 2023-05-24 14:29:00
85阅读
下面是和目彔树相关的方法。public boolean rename(String src, String dst) throws IOException;更改文件名。调用FSNamesystem的renameTo,干活的是renameToInternal,最终调用FSDirectory的renameTo方法,如果成功,更新租约的文件名,如下:changeLease(src, dst, dinfo
原创 2015-05-19 16:54:58
352阅读
1、提交JobMapReduce程序框架请参考 @Override public int run(String[] args) throws Exception { //读取配置文件 Configuration conf = getConf(); //设置参数 conf.set("fs.defaultFS", "hdfs:/
Mapper的输出,在发送到Reducer前是存放在本地文件系统的,IFile提供了对Mapper输出的管理。我们已经知道,Mapper的输出是<Key,Value>对,IFile以记录<key-len, value-len, key,value>的形式存放了这些数据。为了保存键值对的边界,很自然IFile需要保存key-len和value-len。和IFile相关的类图如
原创 2015-05-27 17:37:51
411阅读
  • 1
  • 2
  • 3
  • 4
  • 5