sparkle库如何使用 sparkle.

转载

mob64ca14017c37 2024-02-03 04:51:55

文章标签 sparkle库如何使用 spark 数据 lua SPARK 文章分类 Spark 大数据

1.shuffle操作

Shuffle是MapReduce框架中的一个特定的phase，介于Map phase和Reduce phase之间，当Map的输出结果要被Reduce使用时，输出结果需要按key哈希，并且分发到每一个Reducer上去，这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输，因此shuffle性能的高低直接影响到了整个程序的运行效率。

2.SPARK 阔依赖和窄依赖 transfer action lazy策略之间的关系

宽依赖和窄依赖说明该操作是是否有shuffler 操作成长(lineage )的来源

最有趣的部分是DAGScheduler。下面详解它的工作过程。RDD的数据结构里很重要的一个域是对父RDD的依赖。如图3所示，有两类依赖：窄（Narrow）依赖和宽（Wide）依赖。

窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用，表现为一个父RDD的分区对应于一个子RDD的分区，和两个父RDD的分区对应于一个子RDD 的分区。图3中，map/filter和union属于第一类，对输入进行协同划分（co-partitioned）的join属于第二类。

宽依赖指子RDD的分区依赖于父RDD的所有分区，这是因为shuffle类操作，如图3中的groupByKey和未经协同划分的join。

lazy evaluation 另外 scala 空间和rrd 空间的限制

这里容易受到mr 模型的理解限制，直观上以为要shuffer 了就一定要执行，但实际是只有 action 方法（要输出到rdd 以外的域(输出不是rdd) ,和要不要shuffer,要不要reduce没有关系，这里ACTION 的方法的reduce 和MR reduce 不是同一个东西）才会导致提交作业并执行。

sparkle库如何使用 sparkle._lua