hffzkl的博客_spark_51CTO博客

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册

# spark

spark DAGScheduler、TaskSchedule、Executor执行task源码分析

摘要spark的调度一直是我想搞清楚的东西，以及有向无环图的生成过程、task的调度、rdd的延迟执行是怎么发生的和如何完成的，还要就是RDD的compute都是在executor的哪个阶段调用和执行我们定义的函数的。这些都非常的基础和困难。花一段时间终于弄白了其中的奥秘。总结起来，以便以后继续完善。spark的调度分为两级调度：DAGSchedule和TaskSchedule。DAGSchedule是根据job来生成相互依赖的stages，然后把stages以TaskSet形式传递给TaskSchedule来进行任务的分发过程，里面的细节会慢慢的讲解出来的，比较长

DAGScheduler

TaskSchedule

Executor

原创精选 2018-03-26 16:36:55 10000+阅读 4点赞 1收藏 1评论

DataSet数据集在使用sql()时，无法使用map，flatMap等转换算子的解决办法

摘要我们在使用spark的一个流程是：利用spark.sql()函数把数据读入到内存形成DataSet[Row]（DataFrame）由于Row是新的spark数据集中无法实现自动的编码，需要对这个数据集进行编码，才能利用这些算子进行相关的操作，如何编码是一个问题，在这里就把这几个问题进行总结一下。报的错误：error: Unable to find encoder for type stored

String

error: Unable to fin

etc) and Product ty

原创精选 2017-08-08 16:40:28 10000+阅读 2点赞 2收藏 2评论