pyspark连接hadoop集群 pyspark和hadoop

转载

mob6454cc77b8eb 2024-01-12 00:34:56

文章标签 pyspark连接hadoop集群 spark 依赖关系 mapreduce 文章分类 Spark 大数据

一、Hadoop与spark区别

Hadoop虽然已经成为大数据技术的事实标准，但其本身存在很多缺陷。比如，mapreduce计算模型延迟过高，无法实现实时快速计算的需求，只适用于离线批处理，I/O磁盘开销大。

spark在借鉴mapreduce优点同时，很好解决了mapreduce存在的缺陷：

1、spark计算也属于mapreduce计算，但不局限于map和reduce操作；

2、spark提供内计算，中间结果放入内存，提高迭代运算效率；

3、基于DAG的任务调度执行机制，优于mapreduce调度机制。

二、优点

1、运行速度快； 2、容易使用； 3、通用性； 4、运行模式多样性。

三、运行框架

spark Core包含spark最基础、核心功能

在学习spark之前，我们首先要明白以下名词的意思：

RDD：弹性分布式数据集
DAG：有向无环图，反映RDD之间的依赖关系
Executor：运行在工作节点上的一个进程，负责运行任务，并为应用程序存储数据
应用：
任务：运行在Executor上的工作单元
作业：一个作业包含多个RDD以及作用于相应RDD各种操作
阶段：作业的基本调用单位

四、架构

主从架构，即一个master（driver）和若干个worker构成；

（1）首先为应用构建起基本的运行环境，即由Driver创建一个SparkContext，进行资源的申请、任务的分配和监控

（2）资源管理器为Executor分配资源，并启动Executor进程

（3）SparkContext根据RDD的依赖关系构建DAG图，DAG图提交给DAGScheduler解析成Stage，然后把一个个TaskSet提交给底层调度器TaskScheduler处理；Executor向SparkContext申请Task，Task Scheduler将Task发放给Executor运行，并提供应用程序代码

（4）Task在Executor上运行，把执行结果反馈给TaskScheduler，然后反馈给DAGScheduler，运行完毕后写入数据并释放所有资源

pyspark连接hadoop集群 pyspark和hadoop_依赖关系