1.Spark概述
1.1spark发展历史
2009年诞生
2014成为Apache顶级项目
2016发布2.0
2019发布3.0
2020九月份发布3.0.1
1.2使用现状
1.3官网介绍
spark是一个大数据领域统一的数据分析、计算、处理引擎
1.3.1流行原因
1.5组成模块
补充:Hadoop和spark的对比
2009年诞生
2014成为Apache顶级项目
2016发布2.0
2019发布3.0
2020九月份发布3.0.1
spark是一个大数据领域统一的数据分析、计算、处理引擎
D的一个分区会依赖于父RDD的1个分区–错误父EDD的一个分区会被子RDD的1个分区所依赖–正确为什么要区分宽窄依赖对窄依赖:并行化+容错宽依赖:进行阶段划分,(shuffle后的阶段需要
据,封装到RDD数据集中,调用Transformation函数和Action函数进行处理不同业务统计分析三、分词工具测试使用比较流行好用的中文分区:HanLP,面向生产环境的自
学习致谢https://www.bilibili.com/video/BV1Xz4y1m7cv?p=45添加链接描述代码实现pack
mo02_Source_Socket { def
ming-programming-guide.html代码演示
Spark通过减少磁盘IO来达到性能的提升 为了适应迭代计算,Spark将经常被
import pymongo 目录 1、连接MongDB 2、指定数据库 3、指定集合 4、插入数据 5、查询 6、计数 7、排序 8、偏移 9、更新 10、删除 正文 1、连接mongodb 连接mongodb需要用到pymongo的Mon
举报文章
请选择举报类型
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M