Spark基础及架构一、为什么使用Spark二、Spark优势三、Spark技术栈四、Spark架构设计五、Spark架构核心组件六、Spark API1.SparkContext2.SparkSession3.Spark RDD4.Spark RDD概念七、Spark RDD的创建八、Spark RDD分区九、Spark RDD的操作1.RDD转换算子2.RDD动作算子 一、为什么使用Spar
转载 2023-07-13 19:18:45
50阅读
二、主成分分析(PCA)1、概念介绍主成分分析(PCA) 是一种对数据进行旋转变换的统计学方法,其本质是在线性空间中进行一个基变换,使得变换后的数据投影在一组新的“坐标轴”上的方差最大化,随后,裁剪掉变换后方差很小的“坐标轴”,剩下的新“坐标轴”即被称为 主成分(Principal Component) ,它们可以在一个较低维度的子空间中尽可能地表示原有数据的性质。主
转载 2024-06-22 16:10:49
40阅读
Spark作业运行架构原理解析
原创 精选 2018-10-05 11:50:41
10000+阅读
2点赞
3评论
从SQL的解析、执行与调优到Sparksql的解析与应用SparkSQL总体流程介绍在阐述Join实现之前,我们首先简单介绍SparkSQL的总体流程,一般地,我们有两种方式使用SparkSQL,一种是直接写sql语句,这个需要有元数据库支持,例如Hive等,另一种是通过Dataset/DataFrame编写Spark应用程序。如下图所示,sql语句被语法解析(SQL AST)成查询计划,或者我们
转载 2024-02-04 22:46:31
102阅读
文章目录一、Spark SQL的进化之路二、认识Spark SQL2.1 什么是Spark SQL?2.2 Spark SQL的作用2.3 运行原理2.4 特点2.5 Spark SQL数据抽象三、Spark SQL API3.1 SparkSession3.2 DataSet ( Spark1. 6 + )1、创建 DataSet2、使用case Class 创建 DataSet3、使用Dat
转载 2023-09-18 21:56:41
84阅读
1. 背景  由于公司业务线的不断拓展,创建了很多MySQL实例,为了安全起见每个实例之间不能直接互相访问,但是业务部门又需要整合各个业务线的数据进行分析、制定风控策略等。因此需要将不同业务线数据进行归集。  当然一下方案不是最优的,MySQL实例之间数据互通,有很多成熟且稳定的方式,因此我觉得我们选择了一种不是非常理想的方式! 2.  处理流程 
Spark on Yarn作业运行架构原理解析
原创 2018-10-07 20:34:18
10000+阅读
1点赞
前言Spark SQL架构工作原理及流程解析spark sql从shark发展而来,Shark为了实现Hive兼L底层架构Spark SQL架构与Hive架
转载 2023-01-27 08:15:18
154阅读
更好的理解spark——spark通信架构此篇摘抄自某教程的ppt,希望大家可以更深刻的理解sparkspark既然是分布式集群,那么他的master和worker节点之间是怎么进行通信的?spark1.3之前的通信框架是什么?之后为什么不使用这个通信框架了?1、Spark内部的通信架构使用Actor模型进行开发,在Spark1.3之前直接使用AKKA来作为具体的通信框架。为了解决shuffle过
转载 2023-09-21 07:42:02
103阅读
[spark] [XML] [scala] 一、要求将XML中的account_number、model数据提取出来,并以account_number:model格式存储1、XML文件数据格式<activations>   <activation timestamp="1225499258" type="phone">   &lt
转载 2023-06-11 14:47:32
146阅读
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。关于Spark首先抛出几个问题:Spark是什么?Spark的优势?(存在价值)Spark主要功能?剩下的关于Spark的框架原理与具体使用,之后再与大家介绍。Spark是什么Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验
转载 2024-06-04 08:09:56
27阅读
我们知道,如果直接对密码进行散列,那么黑客可以对通过获得这个密码散列值,然后通过查散列值字典(例如MD5密码破解网站),得到某用户的密码。   加Salt可以一定程度上解决这一问题。所谓加Salt方法,就是加点“佐料”。其基本想法是这样的:当用户首次提供密码时(通常是注册时),由系统自动往这个密码里撒一些“佐料”,然后再散列。而当用户登录时,系统为用户提供的代码撒上同样的“佐料”,然后散
转载 2023-12-30 13:06:55
40阅读
文章目录1.运行架构2.核心组件1.Driver2.Executor3.Master & Worker4.ApplicationMaster3.核心概念1.Executor与Core2.并行度(Parallelism)3.有向无环图(DAG)4.提交流程1.Yarn Client模式2.Yarn Cluster模式 1.运行架构Spark 框架的核心是一个计算引擎,整体来说,它采用了标准
1 Shuffle的核心要点1.1 ShuffleMapStage与ResultStage图ShuffleMapStage与ResultStage在划分stage时,最后一个stage称为finalStage,它本质上是一个ResultStage对象,前面的所有stage被称为ShuffleMapStage。ShuffleMapStage的结束伴随着shuffle文件的写磁盘。ResultStag
推荐 原创 2023-01-31 09:09:34
726阅读
4点赞
1.RDD概念:RDD(Resilient Distributed Dateset),弹性分布式数据集。RDD 的五大特性:1 .RDD 是由一系列的 partition 组
原创 2022-07-01 17:31:26
63阅读
解析Spark SQL是一项重要的技能,许多数据工程师和数据科学家在处理大规模数据时常常会面临解析和执行Spark SQL的挑战。本文将重点讨论在解析Spark SQL时可能遇到的问题,本文将讨论如何快速定位和解决这些问题,为避免再次发生提供一些良好的实践。 ### 问题背景 在某次数据处理任务中,我们团队使用Spark SQL来分析用户行为数据。然而,任务执行时却出现了错误,导致数据无法正常
原创 6月前
145阅读
## Spark 解析 Protocol Buffers(PB) 完整指南 在这一篇文章中,我将向你介绍如何在 Apache Spark解析 Protocol Buffers(简称 PB)。我们将具体探讨整个流程和每一个步骤所需的代码。 ### 流程概述 以下是解析 PB 的基本流程: | 步骤 | 描述 | |------|----------
原创 2024-10-27 04:45:08
37阅读
spark rddRDD介绍1、RDD是什么?2、RDD的特性RDD的创建1、由集合创建RDD2、加载文件成RDD3、通过RDD的转换形成新的RDDRDD的转换算子1、RDD转换概述2、常用的RDD转换算子RDD的动作算子1、RDD动作概述2、常用的RDD动作算子RDD的依赖关系1、遗传2、依赖3、窄依赖4、宽依赖5、宽依赖和窄依赖的对比 RDD介绍1、RDD是什么?RDD:即弹性分布式数据集,
构造函数和构析函数的作用到底啥是构造函数?到底啥是构析函数?构造函数,说白了,就是起到取款机的作用,用户取钱都要通过取款机去执行一、 构造函数起到传递参数和访问私有数据成员的作用,如以下代码#ifndef BOX_H_H #define BOX_H_H class Box { public: Box(int = 10, int = 10, int = 10); int volume(); pr
转载 2024-07-17 21:13:54
44阅读
什么是spark 定义:spark是一种基于内存快速、通用、可扩展的大数据分析引擎。spark内置模块底层的调度器区分三种:基于独立调度器,yarn,mesos中间层:spark core 提供几种类:spark sql ,spark streaming 实时计算,spark mlib 机器学习,spark graghx图计算spark core实现了spark 的基本功能,包括任务调度,内存管理
原创 2021-04-25 22:41:05
231阅读
  • 1
  • 2
  • 3
  • 4
  • 5