南瓜数据客栈的博客_spark

hive join、spark join 、flink join

hive里面map join优化小表数据-> HashtableFiles-> Distributed Cache->遍历匹配离线Batch SQL Join三种方式Nested-loop Join 内嵌遍历的方式Sort-Merge Join 归并排序要求是有序数据集Hash Join 将一个数据集转换为Hash Table，再进行遍历匹配实时Streamin...

大数据

flink

spark

hive

缓存

原创 2021-08-05 13:54:28 451 阅读

spark和mapreduce的区别

　　spark是通过借鉴Hadoop mapreduce发展而来，继承了其分布式并行计算的优点，并改进了mapreduce明显的缺陷，具体表现在以下几方面：　　1.spark把中间计算结果存放在内存中，减少迭代过程中的数据落地，能够实现数据高效共享，迭代运算效率高。mapreduce中的计算中间结果是保存在磁盘上的，这样必然影响整体运行速度。　　2.spark容错性高。spark支持D...

mapreduce

spark

大数据

数据

依赖关系

原创 2021-08-05 13:54:27 792 阅读

spark复习笔记（二）——spark sql

Spark SQL特点1、易整合整合SQL查询和Spark编程2、统一的数据访问方式使用相同方式连接不同的数据源3、继承Hive在已有的仓库上直接运行SQL或者HQL4、标准的连接方式通过JDBC或者ODBCDataFrame分布式数据容器schema 数据的结构信息(类似于desc table)支持嵌套数据类型 struct array map从API易用性，Dat...

hadoop

spark

hive

大数据

sql

原创 2021-08-05 13:54:23 166 阅读

hive join、spark join 、flink join

hive里面map join优化小表数据-> HashtableFiles-> Distributed Cache->遍历匹配离线Batch SQL Join三种方式Nested-loop Join 内嵌遍历的方式Sort-Merge Join 归并排序要求是有序数据集Hash Join 将一个数据集转换为Hash Table，再进行遍历匹配实时Streamin...

大数据

flink

spark

hive

缓存

原创 2021-08-05 13:54:20 528 阅读

IDEA打包scala和java依赖

<build> <finalName>statis-jobs-scala</finalName> <sourceDirectory>src/main/scala</sourceDirectory> <resources>  <...

maven

jar

spark

java

scala

原创 2021-08-05 13:52:39 728 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

wx610b634747ec3的博客

hive join、spark join 、flink join

spark和mapreduce的区别

spark复习笔记（二）——spark sql

hive join、spark join 、flink join

IDEA打包scala和java依赖