参考:https://github.com/rklick-solutions/spark-tutorial/wiki/Spark-SQL#introductionSkip to coSpark SQL is a component on top of Spark Core that introduces a new data abstraction called SchemaRDD, w...
转载 2023-07-14 17:21:00
107阅读
Apache Spark RDMA插件Apache Spark™是一种用于大规模数据处理
翻译 2022-11-14 19:05:09
296阅读
一、参考说明1、该功能自spark-1.5.0版本后有,发行说明https://issues.apache.org/jira/secu
原创 2022-11-03 14:40:15
178阅读
文章目录累加器广播变量基于分区操作与外部程序的管道RDD的操作累加器共享变量,
原创 2022-12-03 00:07:42
183阅读
1、Spark系统架构与Hadoop MapReduce 的结构类似,Spark 也是采用 Master-Worker 架构。Master 节点与Worker 节点的职责如下:1)、Master 节点上常驻Master 进程。该进程负责给Worker 进程分发Spark 任务,监控Worker 进程的存活情况以及监控Worker 进程上任务的执行情况。2)、Worker 节点上常驻Worker 进
转载 2023-08-21 10:30:48
126阅读
深入Spark "Locality level"1、可以在Spark job ui上查看到2、Locality level解释说明:为了保证不带来
原创 2022-11-03 14:08:06
244阅读
Spark版本:spark-2.3.1官方原文:https://spark.apache.org/docs/2.3.1/rdd-programming-guide.html
原创 2022-11-03 14:07:52
78阅读
第一种:不可变类型package com.scalaimport org.apache.spark.SparkConfimport org.apache.spark.SparkContex
原创 2022-11-03 14:43:33
76阅读
官方定义:spark是一个基于内存的分布式计算框架它会使得计算速度以及开发速度快!特点:One stack rule them all !一站解决所有问题热查询(Hive)批处理(MapReduce)实时流计算(Storm)回顾MapReduce 的 Shuffle过程 见图  hadoop慢的原因:DISK IO 输入输出DISK IO,Shuffle阶段也是DI...
原创 2022-12-30 09:39:08
188阅读
Spark EcoSystem几乎都是以 Spark Core为核心而构建起来的,那么,先看看 Spark Core的
原创 2022-11-03 14:45:18
154阅读
置系统:Spark属性...
转载 2022-11-14 19:06:08
331阅读
# Spark SQL完整进阶流程 ## 导言 Apache Spark是一个快速、通用的集群计算系统,提供了高效的数据处理能力。其中的Spark SQL模块则是用于处理结构化数据的组件,它允许在Spark程序中使用SQL语句进行数据查询和分析。本文将介绍Spark SQL的完整进阶流程,包括数据准备、创建数据源、执行SQL查询、数据可视化等步骤。 ## 数据准备 在使用Spark SQL进行
原创 2024-06-24 04:26:48
29阅读
举例区别
原创 2022-11-03 14:41:20
56阅读
前言Spark 的内存管理是内存分布式引擎中的一个重要角色,了解内存管理机制和原理,才能
原创 2022-11-03 14:49:31
473阅读
教程目录0x00 教程内容0x011.0xFF 总结缺图0xFF 总结0x00 教程内容0x011.a.b.c.0xFF 总结现在我们学完了 spark 利用 spark SQL 进行结构化和半结构化数据处理的方式。
原创 2022-01-17 10:03:34
310阅读
教程目录0x00 教程内容0x011.0xFF 总结缺图0xFF 总结0x00 教程内容0x011.a.b.c.0xFF 总结现在我们学完了 spark 利用 spark SQL 进行结构化和半结构化数据处理的方式。很多时候,我们会把 SQL 语言和其它编程语言结合起来使用,以充分利用 SQL 的简洁性和编程语言擅长表达复杂逻辑的优点。因此在spark进行数据处理的过程中,我们依然可以利用 spark SQL 对数据查询进行优化。实验知识点Spark SQL 简介Spar
原创 2021-06-10 18:16:57
970阅读
今天在阅读Spark源码的时候看到了checkpoint方法,之前也在处理数据的的时候用到过,但是没有深入理解这个方法,今天结合官方文档以及网上博客重新认识了一下这个方法,这里做个总结。主要从两个方面讲解: 1.官方对这个方法的解释 2.这个方法的使用场景checkpoint官方源码以及解释/** * Mark this RDD for checkpointing. It will be
转载 10月前
43阅读
摘要在Spark中,有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上,通常Yarn-cluster适用于生产环境,而Yarn-Client更适用于交互,调试模式,以下是它们的区别 Spark插拨式资源管理Spark支持Yarn,Mesos,Standalone三种集群部署模式,它们的共同点:Master服务(Yarn ResourceManager,M...
转载 2022-11-03 14:55:02
418阅读
我们应该都很熟悉 checkpoint 这个概念, 就是把内存中的变化刷新到持久存储,斩断依赖链 在存储中 checkpoint 是一个很常见的概念, 举几个例子数据库 checkpoint 过程中一般把内存中的变化进行持久化到物理页, 这时候就可以斩断依赖链, 就可以把 redo 日志删掉了, 然后更新下检查点,hdfs namen
原创 2023-01-09 17:33:16
329阅读
并且满负载时,硬件部分实际上是因为并非所有作业在性能方面都是相同的。不幸的是,要以最佳方式实...
翻译 2022-11-14 19:04:56
106阅读
  • 1
  • 2
  • 3
  • 4
  • 5