mr和spark执行结果不一样

原创

mob64ca12f7e7cf 2024-09-07 05:57:55 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12f7e7cf的原创作品，请联系作者获取转载授权，否则将追究法律责任

理解 MR（MapReduce）与 Spark 执行结果不一样的原因

在大数据处理的世界中，我们常常会使用 Apache Hadoop 的 MapReduce (MR) 和 Apache Spark 这两种技术。尽管它们的目标相同，都是为了处理大规模数据集，但它们的执行步骤和结果却可能存在差异。今天，我们将逐步了解这个过程，并对其进行详细分析。

流程概述

我们将以下步骤分为两个主要部分：MR（MapReduce）和Spark。下面是一个简单的步骤和实现过程的表格：

步骤	操作	MR	Spark
1	读取数据	`InputFormat`	`spark.read`
2	处理数据	`Mapper` / `Reducer`	`map()` / `reduceByKey()`
3	输出结果	`OutputFormat`	`write`
4	执行	启动 MR Job	启动 Spark Job

步骤详解

1. 读取数据

在 MapReduce 中，读取数据通常通过 InputFormat 完成，而在 Spark 中，我们则使用 spark.read。

MapReduce 代码示例：

// MR 中读取数据示例代码
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

Job job = Job.getInstance(conf, "my job");
FileInputFormat.addInputPath(job, new Path("input/path"));

上述代码创建了一个新的 MapReduce 作业，并定义了输入文件的路径。

Spark 代码示例：

# Spark 中读取数据示例代码
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("MyApp").getOrCreate()
df = spark.read.text("input/path")

这里创建了一个 SparkSession 对象并读取文本数据。

2. 处理数据

使用 MapReduce 时，数据处理由两个主要部分（Mapper 和 Reducer）构成；而在 Spark 中，你可以用 map() 和 reduceByKey() 来处理数据。

MapReduce 示例：

// Mapper 类
public static class MyMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] words = value.toString().split(" ");
        for (String word : words) {
            context.write(new Text(word), new IntWritable(1));
        }
    }
}

// Reducer 类
public static class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) {
            sum += val.get();
        }
        context.write(key, new IntWritable(sum));
    }
}

上述代码中，MyMapper 类将输入文本中的每个词输出为键，每个词的计数为值；MyReducer 则将相同键的值相加并输出。

Spark 示例：

# Spark 数据处理示例代码
from pyspark import SparkContext

sc = SparkContext("local", "MyApp")
text_file = sc.textFile("input/path")
word_counts = text_file.flatMap(lambda line: line.split(" ")) \
                        .map(lambda word: (word, 1)) \
                        .reduceByKey(lambda a, b: a + b)

word_counts.saveAsTextFile("output/path")

这段代码将输入文本中的每个单词映射为键，每个单词的数量为值，并通过 reduceByKey 函数进行相加。

3. 输出结果

在 MapReduce 中，输出结果通常通过 OutputFormat 来完成，而在 Spark 中，使用 write 方法。

MapReduce 示例：

// MR 中输出结果示例代码
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

FileOutputFormat.setOutputPath(job, new Path("output/path"));

通过 FileOutputFormat 设置作业的输出路径。

Spark 示例：

# Spark 输出结果示例代码
word_counts.saveAsTextFile("output/path")

在 Spark 中，使用 saveAsTextFile 方法将结果保存到指定路径。

4. 执行

最后，在 MapReduce 中启动作业，通过实例化 Job 类并调用 .waitForCompletion() 方法完成作业；而在 Spark 中，直接运行 action 操作。例如 count()。

结果差异分析

由于 MapReduce 是基于磁盘 IO 处理的，而 Spark 则大部分在内存中操作。这意味着 Spark 有更快的处理速度和更高的并发执行能力。当数据量庞大时，MR 的多次磁盘读写和写入会导致性能下降，从而影响最终的执行结果。

结论

通过上面的步骤和代码示例，我们了解了 MapReduce 和 Spark 的处理流程及其差异。理解这两者之间的不同，有助于选择合适的工具来处理具体的情况。在大数据处理的领域，选择合适的算法与工具是至关重要的。通过不断实践，相信你会在大数据的世界中越走越远。

journey
    title 从 MR 到 Spark 的过程
    section 读取数据
      MR: 5: MR
      Spark: 3: Spark
    section 处理数据
      MR Map： 4: MR
      MR Reduce: 4: MR
      Spark Map: 3: Spark
      Spark Reduce: 3: Spark
    section 输出结果
      MR Output: 5: MR
      Spark Output: 3: Spark

希望这篇文章能帮助你理解 MapReduce 与 Spark 在数据处理中的差异。如果有任何疑问，随时欢迎提问！

上一篇：R语言log封装

下一篇：java连接池参数最大最小连接数一般设置多少

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯