hadoop单机和伪分布式区别

原创

mob649e8163f390 2024-01-07 04:52:03 ©著作权

文章标签 Hadoop 伪分布式单机模式 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者mob649e8163f390的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hadoop单机和伪分布式区别

Hadoop作为一个开源的分布式计算框架，被广泛应用于大数据处理领域。在使用Hadoop的过程中，我们通常会遇到两种部署方式，即单机模式和伪分布式模式。本文将对这两种模式进行详细介绍，并通过代码示例来展示它们的区别。

单机模式

单机模式是指Hadoop在一台机器上运行，用于学习和开发目的。在单机模式下，Hadoop的各个组件（如HDFS和MapReduce）都运行在同一台机器上，不存在真正的分布式计算。它的优点是部署简单，适合初学者快速入门。下面是一个示例的Hadoop单机模式部署图：

journey
    title 单机模式部署图
    section Hadoop机器
    section HDFS
    section MapReduce

在单机模式下，Hadoop的配置文件通常为/usr/local/hadoop/etc/hadoop目录下的core-site.xml和hdfs-site.xml。下面是一个单机模式下的Java代码示例，用于统计文件中各个单词的频率：

public class WordCount {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "word count");

        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

伪分布式模式

伪分布式模式是指Hadoop在一台机器上模拟分布式计算环境，用于测试和调试目的。在伪分布式模式下，Hadoop的各个组件仍然运行在同一台机器上，但是它们会以分布式的方式进行通信和协调。伪分布式模式的部署方式与单机模式类似，但需要修改配置文件，使得Hadoop能够识别其他虚拟的节点。下面是一个示例的Hadoop伪分布式模式部署图：

journey
    title 伪分布式模式部署图
    section Hadoop机器
    section HDFS
    section MapReduce

在伪分布式模式下，Hadoop的配置文件同样为/usr/local/hadoop/etc/hadoop目录下的core-site.xml和hdfs-site.xml。需要注意的是，这两个配置文件中的一些属性需要根据实际情况进行修改，例如dfs.replication的值应该设置为1，以减小数据复制的开销。下面是一个伪分布式模式下的Java代码示例，同样用于统计文件中各个单词的频率：

public class WordCount {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "word count");

        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}