cookey77的博客_51CTO博客

原创 2017-11-22 23:09:58 158 阅读

hadoop配置过程（简化版，推荐）

折腾hadoop好久，期间几次完全推到重来，现在在这里写下来备份。本文不是写给别人作为教程，而是给我自己作提醒的，如果你碰巧看到了本文，那你可能需要一些linux基本知识才能正确理解。 1、安装linux 本文假设从裸机开始，所以要先装linux。本人是ubuntu对支持者，所以装的是ubuntu，废话没有，很容易就装好了。在安装过程中，要注意所有节点对主

职场

休闲

hadoop

配置过程

转载 2011-02-09 16:55:45 369 阅读

使用Linux和Hadoop进行分布式计算（版主精简）

先决条件 Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过

Linux

职场

休闲

Hadoop

分布式计算

转载精选 2011-02-09 16:40:34 594 阅读

hadoop作业调优参数整理及原理（2）

2 Reduce side tuning参数 2.1 ReduceTask运行内部原理 reduce的运行是分成三个阶段的。分别为copy->sort->reduce。由于job的每一个map都会根据 reduce(n)数将数据分成map 输出结果分成n个partition，所以map的中间结果中是有可能包含每一个reduce需要处理的部分数据的。所以，为了优化reduce

参数

原理

休闲

hadoop

作业调优

转载精选 2011-02-09 16:26:13 433 阅读

hadoop作业调优参数整理及原理（1）

1 Map side tuning参数 1.1 MapTask运行内部原理当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer来进行已经产生的部分结果的缓存，并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示，每一个map都会对应存在一个内存 buffer（MapOutputBu

参数

原理

休闲

hadoop

作业调优

转载精选 2011-02-09 16:24:39 449 阅读

Hadoop安装部署（3）

Hadoop环境变量在/home/dbrg/HadoopInstall/hadoop-conf目录下的hadoop_env.sh中设置Hadoop需要的环境变量，其中JAVA_HOME是必须设定的变量。HADOOP_HOME变量可以设定也可以不设定，如果不设定，HADOOP_HOME默认的是bin目录的父目录，即本文中的/home/dbrg/HadoopInstall/hadoop。我

安装

职场

休闲

Hadoop

转载精选 2011-02-09 16:20:31 401 阅读

Hadoop安装部署（2）

SSH设置在Hadoop启动以后，Namenode是通过SSH（Secure Shell）来启动和停止各个节点上的各种守护进程的，这就需要在节点之间执行指令的时候是不需要输入密码的方式，故我们需要配置SSH使用无密码公钥认证的方式。首先要保证每台机器上都装了SSH服务器，且都正常启动。实际中我们用的都是OpenSSH，这是SSH协议的一个免费开源实现。FC5中默认安装的OpenSSH版本是

安装

职场

休闲

Hadoop

转载精选 2011-02-09 16:17:53 307 阅读

Hadoop安装部署（1）

本文主要是以安装和使用hadoop-0.12.0为例，指出在部署Hadoop的时候容易遇到的问题以及如何解决。硬件环境共有3台机器，均使用的FC5系统，Java使用的是jdk1.6.0。IP配置如下： dbrg-1：202.197.18.72 dbrg-2：202.197.18.73 dbrg-3：202.197.18.74 这里有一点需要强调的就是，务必要确保每台机器的主

安装

职场

休闲

Hadoop

转载精选 2011-02-09 16:13:07 304 阅读

Hadoop简要介绍（3）

2、MapReduce的实现 MapReduce是Google 的一项重要技术，它是一个编程模型，用以进行大数据量的计算。对于大数据量的计算，通常采用的处理手法就是并行计算。至少现阶段而言，对许多开发人员来说，并行计算还是一个比较遥远的东西。MapReduce就是一种简化并行计算的编程模型，它让那些没有多少并行计算

职场

休闲

Hadoop基础

转载精选 2011-02-09 16:10:51 367 阅读

Hadoop简要介绍（2）

Hadoop包含两个部分： 1、HDFS 即Hadoop Distributed File System (Hadoop分布式文件系统) HDFS 具有高容错性，并且可以被部署在低价的硬件设备之

职场

休闲

Hadoop基础

转载精选 2011-02-09 16:09:29 384 阅读

Hadoop简要介绍（1）

这里先大致介绍一下Hadoop。先说一下Hadoop的来龙去脉。谈到Hadoop就不得不提到Lucene和Nutch。首先，Lucene并不是一个应用程序，而是提供了一个纯Java的高性能全文索引引擎工具包，它可以方便的嵌入到各种实际应用中实现全文搜索/索引功能。Nutch是一个应用程序，是一个以Lucene为基础实现

职场

休闲

Hadoop基础

转载精选 2011-02-09 16:07:29 371 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

hadoop讨论圈

欢迎

我的友情链接

hadoop配置过程（简化版，推荐）

使用Linux和Hadoop进行分布式计算（版主精简）

hadoop作业调优参数整理及原理（2）

hadoop作业调优参数整理及原理（1）

Hadoop安装部署（3）

Hadoop安装部署（2）

Hadoop安装部署（1）

Hadoop简要介绍（3）

Hadoop简要介绍（2）

Hadoop简要介绍（1）