新词发现并不是一个新的课题,但最有意思的一点是如果采用无监督的算法,可以完全脱离人工的经验由算法自动找到有语意的“词语”,而不是胡乱拼凑的汉字片段(归因于算法的有效性和语料本身是由有意义的词语构成的)。本文参考了matrix67的一篇文章,互联网时代的社会语言学:基于SNS的文本数据挖掘,采用无监督方法来发现新词,基本原理就是通过N-gram找到可能的词,然后计算这些词的词频、紧密度和自由度,最终
转载 2024-07-26 09:26:40
31阅读
# 如何实现“spark sql fetchsize” ## 概述 在Spark SQL中,fetchsize参数用于控制每次从数据库中取回的记录条数。设置适当的fetchsize可以在大数据处理中提高性能。本文将教你如何在Spark中设置fetchsize参数。 ### 步骤 下面是实现“spark sql fetchsize”的整体流程: ```mermaid pie title
原创 2024-03-03 05:49:19
282阅读
什么时候需要 shuffle writer假如我们有个 spark job 依赖关系如下我们抽象出来其中的rdd和依赖关系:E <-------n------,                    C <--n---D---n-----F--s---,    &nb
转载 2024-06-08 22:23:13
33阅读
本书在5.7节曾介绍过存储体系的创建,那时只为帮助读者了解SparkEnv,现在是时候对Spark的存储体系进行详细的分析了。简单来讲,Spark存储体系是各个Driver、Executor实例中的BlockManager所组成的。但是从一个整体出发,把各个节点的BlockManager看成存储体系的一部分,那么存储体系还有更多衍生内容,比如块传输服务、map任务输出跟踪器、Shuffle管理器等
Spark SQL 架构Spark SQL 的整体架构如下图所示从上图可见,无论是直接使用 SQL 语句还是使用 DataFrame,都会经过如下步骤转换成 DAG 对 RDD 的操作Parser 解析 SQL,生成 Unresolved Logical Plan由 Analyzer 结合 Catalog 信息生成 Resolved Logical PlanOptimizer根据预先定义好的规则对
转载 2024-08-19 14:36:03
51阅读
目录Spark特点Spark生态系统Spark CoreSpark SQLSpark StreamingStructured StreamingMLlibGraphXSprak应用场景Spark运行架构1、一些名词2、架构设计3、Spark的基本运行流程4、RDD的设计与运行原理RDD设计背景RDD概念RDD特性RDD之间的依赖关系阶段的划分RDD运行过程Spark的四种部署模式习题 Spark
转载 2024-04-23 14:35:03
54阅读
文章目录1. Spark的主从结构1.1 驱动器程序Driver1.2 执行器程序Executor2. 集群管理器概念区分3. 运行流程小结Reference 本文是在阅读《Spark快速大数据分析》后,根据里面提到的知识点,对Spark的运行原理进行总结概括。 说明:这本书使用的spark版本是1.2,目前最新版本已经是3.0,所以可能笔记中有些内容在新版中已经不再适用。1. Spark的主
转载 2024-02-19 19:59:26
42阅读
上篇博文《深入理解Spark 2.1 Core (六):资源调度的实现与源码分析》中我们讲解了,AppClient和Executor是如何启动,如何为逻辑上与物理上的资源调度,以及分析了在Spark1.4之前逻辑上资源调度算法的bug。这篇博文,我们就来讲讲Executor启动后,是如何在Executor上执行Task的,以及其后续处理。执行Task我们在《深入理解Spark 2.1 Core (
转载 2024-06-11 03:14:17
43阅读
因为大型公司都有使用spark/hadoop的官方配置,不太需要个人工程师关心,这个博客用来给予自己搭建或者小公司使用集群时使用先复习下yarn-site.xml中几个参数的含义[3]:配置文件配置设置默认值计算值yarn-site.xmlyarn.nodemanager.resource.memory-mb8192 MB= containers * RAM-per-containeryarn-s
转载 2023-11-30 17:34:31
98阅读
# Spark 执行原理详解 ## 介绍 Spark 是一个强大的分布式计算框架,它提供了高效的数据处理和分析能力。了解 Spark执行原理对于开发者来说是非常重要的,因为它可以帮助我们优化我们的代码,并更好地理解 Spark 的内部工作机制。在本文中,我将详细介绍 Spark执行原理,并提供一些示例代码来帮助你更好地理解。 ## 执行原理概述 下面是 Spark 执行原理的整体流
原创 2024-01-21 05:49:46
22阅读
原理剖析SparkSQL工作原理剖析.png 执行计划 只要是在数据库类型的技术里面,比如传统的MySql、Oracle等,包括现在大数据领域的数据仓库,比如Hive,它的基本的SQL执行的模型,都是类似的,首先都是要生成一条SQL语句的执行计划 比如,select name from students => 从哪里去查询,students表,在那个文件里,从文件中查询哪些数据,比
转载 2023-08-13 20:50:46
108阅读
核心 1、Spark运行原理 2、RDD1、Spark运行原理 spark应用程序基本概念 application:基于spark的用户程序,包含了driver program和集群中多个executor driver program:运行application的main()函数并且创建sparkcontext,通常用sparkcontext代表driver program executor
转载 2023-08-08 11:17:59
86阅读
在学习完Spark架构原理-Master源码分析和Spark架构原理-Worker源码分析,我们来结合源码学习一下Spark启动消息通信的整个过程。Spark启动过程中主要是进行Master和Worker之间的通信,其消息发送关系如下图所示。首先由Worker节点向Master发送注册消息,然后Master处理完毕后,返回注册成功消息或失败消息,如果成功注册,则Worker定时发送心跳消息给Mas
1、前言  本文是对自己阅读Spark SQL源码过程的一个记录,主线是对尚硅谷Spark SQL最后练习中建立的表的一个简单SQL编写的源码实现流程的跟读。通过自问自答的方式,学习完了整个Spark SQL的执行过程。   Spark SQL最终是通过Spark Core的RDD进行计算。所以在阅读Spark SQL源码之前,一定要深刻掌握Spark Core原理,而阅读源码的思路就是理解Spa
转载 2023-08-26 16:58:05
169阅读
了解了RDD概念后,介绍下Spark的工作机制:1、惰性计算首先,值得一提的是,Spark的RDD的Transformation操作都是惰性计算的,也就是只有在执行Action操作的时候才会真正开始计算。转化操作不会立刻执行,而是在内部记录下所要执行的操作的相关标识,等到了A
# Spark 底层执行原理 Apache Spark 是一款快速、通用的大数据处理引擎,它提供了高级的API,支持Scala、Java、Python和R等多种编程语言。Spark 的底层执行原理是其高效处理大数据的关键所在。本文将介绍 Spark 的底层执行原理,并通过代码示例来解释其中的一些关键概念。 ## Spark 执行原理概述 Spark 底层执行原理主要涉及到 Spark 的任务
原创 2024-03-22 07:15:53
48阅读
## Spark任务执行原理 ### 流程图 ```mermaid flowchart TD A[创建SparkSession] --> B[创建DataFrame] B --> C[执行转换操作] C --> D[执行行动操作] ``` ### 1. 创建SparkSession 在开始之前,首先需要创建一个SparkSession对象来与Spark进行交互。
原创 2023-09-19 05:07:58
51阅读
spark.shuffle.file.buffer,默认32k spark.shuffle.memoryFraction,0.2 map端内存缓冲,reduce端内存占比;很多资料、网上视频,都会说,这两个参数, 是调节shuffle性能的不二选择,很有效果的样子,实际上,不是这样的。 以实际的生产经验来说,这两个参数没有那么重要,往往来说,shuffle的性能不是因为 这方面的原因导致的 但是,
转载 2024-09-18 13:34:54
23阅读
# Spark作业执行原理 Spark是一个快速、通用的大数据处理引擎,支持高效地大规模数据处理。在Spark中,作业是由多个任务组成的,而任务则会被分配到集群中的多个Executor上并行执行。本文将介绍Spark作业执行原理,包括作业的提交、调度和执行过程。 ## 作业提交 当用户编写完Spark应用程序后,需要将应用程序提交给Spark集群进行执行。作业提交的流程如下: ```ma
原创 2024-04-28 03:45:49
35阅读
# Spark SQL 执行原理详解 ## 1. 概述 在Spark中使用Spark SQL可以方便地查询和分析大规模数据。Spark SQL的执行原理是非常重要的,对于理解和优化Spark应用程序至关重要。本文将详细介绍Spark SQL的执行原理,并指导如何实现。 ## 2. 执行流程 下面是使用Spark SQL执行查询的基本流程: ```mermaid journey tit
原创 2024-03-01 04:06:19
51阅读
  • 1
  • 2
  • 3
  • 4
  • 5