ambri和spark关系 mr spark区别

转载

mob6454cc634aa4 2023-12-12 13:54:44

文章标签 ambri和spark关系 spark big data hadoop 资源调度 文章分类 Spark 大数据

文章目录

前言
1. Spark core
2. Spark sql
3. Spark streaming

前言

为什么要学习Spark？
1. Spark比MapReduce快

spark可以将数据缓存在内存中进行计算 (cache)
spark是粗粒度资源调度，MR是细粒度资源调度
DAG有向无环图 (spark两个shuffle中间结果不需要落地，MR需要数据落地)

2. Spark简单

1. Spark core

spark比MR快的三个原因
RDD五大特性：

RDD由一组分区组成，默认一个block对应一个分区
算子实际上是作用在每一个分区上的，每一个分区都会由一个task处理
RDD之间有一系列的依赖关系，宽依赖和窄依赖，宽窄依赖用于切分stage, stage是一组可以并行计算的task
分区类的算子只能作用在KV格式的RDD上，reducebyKey、groupBykey、sortBykey
spark为task的执行提供了最佳计算位置，移动计算而不是移动数据

常用算子

map mapPartition mapValues
flatMap
filter
union
join
sample
reduceBykey 会在map端进行预聚合
groupBykey groupBy
sortBykey sortBy
foreach foreachPartition
take
collect
save

环境搭建

local(一般用于测试)
独立集群
yarn

yarn-client
Driver在本地（执行spark-submit的服务器）启动
如果在本地提交了大量的任务，会导致本地网卡流量剧增
yarn-cluster
driver在随机一台nodemanger中启动
在本地看不到详细执行日志，一班用于上线使用
有一个高可用模式，如果driver挂了，会自动重启一个

ambri和spark关系 mr spark区别_spark