Spark源码阅读思路
- 下载源码
- 导入源码到IDEA
- 源码阅读的两条线
- 线路1-建立连接-申请资源
- 线路2-构建DAG-划分Stage-提交Task流程
- Driver中寻找入口
- SparkContext
- RDD
- SparkContext
- DAGScheduler
- EventLoop
- DAGSchedulerEventProcessLoop
- DAGScheduler
- TaskScheduler
- TaskSchedulerImpl
- CoarseGrainedSchedulerBackend
- CoarseGrainedExecutorBackend
下载源码
http://spark.apache.org/downloads.html
导入源码到IDEA
- 1.下载源码/或使用资料中的添加好注释的源码压缩包并解压
- 2.导入到IDAE中
- 3.选择pom.xml
- 4.一路下一步直到finish
- 5.等待下载依赖解析项目看到如下目录结构即可
- 注意:时间会比较长,耐心等待,如果最后还是报红,不用管,因为我们只去阅读,不去运行
源码阅读的两条线
线路1-建立连接-申请资源
线路2-构建DAG-划分Stage-提交Task流程
Driver中寻找入口
SparkContext
RDD
SparkContext
DAGScheduler
EventLoop
DAGSchedulerEventProcessLoop
DAGScheduler
TaskScheduler
TaskSchedulerImpl
CoarseGrainedSchedulerBackend
CoarseGrainedExecutorBackend