一 RDD概念1 RDD为什么会产生2 RDD概述21 什么是RDD22 RDD的属性3 13 RDD弹性4 RDD特点41 分区42 只读43 依赖44 缓存45 checkpoint二 RDD编程1 编程模型2 22 创建RDD 一、 RDD概念1.1 RDD为什么会产生RDD是Spark的基石,是实现Spark数据处理的核心抽象。那么RDD为什么会产生呢?Hadoop的MapRed
 hadoop工作流程,用两张简单的map, reduce图来解释一下,主要集中讲述hadoop shuffle map阶段 reduce阶段:   
转载 2023-04-20 15:31:03
70阅读
目录一、Yarn的组件作用1、ResourceManager2、NodeManager3、ApplicationMaster4、Container二、Yarn的job提交流程1、客户端提交作业,申请jobID2、ResourceManager返回一个jobID,并将存放资源的HDFS路径返回给客户端3、客户端把运行作业的资源上传到RM返回的HDFS路径上,上传内容为jar包、配置信息、分片信息
转载 2023-07-12 15:12:03
94阅读
Spark工作原理分析 Spark应用程序 指的是用户编写的Spark应用程序,包含了Driver功能代码分布在集群中多个节点上运行的Executor代码。 Spark应用程序,由一个或多个作业JOB组成 Driver:驱动程序 Spark中的Driver即运行上述Application的Main()函数并且创建SparkContext,其中创
仅作复习时使用。MapReduce工作流程第一步,准备好文件; 第二步,切片分析; 第三步,客户端会提交3个信息:Job的切片、jar包(集群模式才有)、Job运行相 关的参数信息; 第四步,Yarn会开启一个Mr appmaster(整个任务的老大),Mr appmaster会读 取客户端提交的信息,根据切片信息开启对应个数的MapTask; 后续讲解一个MapTask的工作内容: 第
一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配监控等。程序执行完毕后关闭SparkContext(3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行某些task
转载 2023-07-18 22:30:56
67阅读
yarn是什么?1、它是一个资源调度及提供作业运行的系统环境平台 资源:cpu、mem等 作业:map task、reduce Taskyarn产生背景?它是从hadoop2.x版本才引入1、hadoop1.x版本它是如何资源调度及作业运行机制原理a、JobTracker(主节点) (a):接受客户端的作业提交 (b):交给任务调度器安排任务的执行 (c):通知空闲的TaskTracker去处理
原创 2021-06-03 13:26:10
485阅读
HDFS文件存储系统,负责文件的上传与下载,包含NameNode(一个)DataNode(多个)两个部分,其中,NameNode存储的是源文件,即文件的存放位置,根据这个位置定位到节点;而DataNode才是真正负责存储数据文件的节点; mapreduce计算引擎,启动工作任务对数据进行加工处理 ...
转载 2021-09-17 02:58:00
169阅读
2评论
   Spark工作流程由4个主体联系构成(如上图所示):Application:指用户编写的Spark应用程序,其中包括一个Driver功能的代码分布在集群中多个节点上运行的Executor代码Master:主节点,布置作业 Block Tracker用于记录计算数据在Worker节点上的块信息Shuffle Blocker用于记录RDD在计算过程中遇到Shuff
转载 2023-06-11 15:31:05
47阅读
HDFS作为Hadoop的分布式文件系统,其在大数据平台当中的地位是显而易见的。面对越来越大规模的数据存储任务,HDFS的高可靠性高性能依然值得称赞,这也与HDFS的数据读写机制有关。今天的大数据开发分享,我们具体来讲讲HDFS数据写入流程。HDFS数据写入客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后客户端按顺序将文件逐个
转载 2023-07-24 10:56:04
32阅读
简述本文主要介绍springMVC工作原理。工作原理客户端发送HTTP请求,DispatcherServlet控制器拦截到请求,调用HandlerMapping 解析请求对应的Handler,HandlerAdapter根据Handler来调用真正Controller处理请求,并处理相应的业务逻辑,Controller返回一个模型视图ModelAndView,ViewResolver进行解析,返回
MapReduce是什么?  Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成地大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别地海量数据集。MapReduce工作机制Mapreduce 的4个对象1、客户端:编写mapreduce程序,配置任务,提交任务。2、JobTracker:初始化作业,分配作业,与
转载 2023-09-01 08:15:44
66阅读
Hive 功能介绍Hive 是基于 Hadoop 的一个外围数据仓库分析组件,可以把 Hive 理解为一个数据仓库,但这传统的数据库是有差别的。传统数据库是面向业务存储,比如 OA、ERP 等系统使用的数据库,而数据仓库是为分析数据而设计的。同时,数据仓库是在数据量巨大的情况下,为了进一步挖掘数据资源、为了企业决策需要而产生的,它不是所谓的“大型数据库”。Hive 通过将结构化的数据文件映射到一
Spark工作流程1.使用Spark-submit提交代码至服务器上2.创建SparkContext,在SparkContext初始化的时候会创建DAGSchedule
原创 2022-12-28 15:16:19
131阅读
1.流程示意图,如图4-6,4-7所示 图4-6 MapReduce详细工作流程(一) 图4-7 MapReduce详细工作流程(二) 2.流程详解 上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下: 1)MapT
转载 2020-07-18 22:20:00
200阅读
2评论
1 概述本文介绍spark sql的几种执行方式:SQL,DataFramesAPI与Datasets API(但会使用同一个执行引擎),Spark2.0中引入了SparkSession的概念。该篇文章只是做一个简单的了解,让大家有一个感官性的认识。下一篇会对RDD、DataFrame、Dataset进行一个详细的介绍。spark sql是为了处理结构化数据的一个spark 模块。不同于spark
Apache Kafka是一个分布式发布 - 订阅消息系统一个强大的队列,可以处理大量的数据,并使你能够将消息从一个端点传递到另一个端点。 Kafka适合离线和在线消息消费。 Kafka消息保留在磁盘上,并在群集内复制以防止数据丢失。 Kafka构建在ZooKeeper同步服务之上。 它与Apache StormSpark非常好地集成,用于实时流式数据分析。
转载 1月前
13阅读
MapReduce流程 MapReduce流程1.MapReduce架构2.简述MapReduce工作流程3.深入MapReduce工作流程1.Map TaskMap Task工作流程Collect过程Spill过程Combine过程2.Reduce TaskReduce Task工作流程ShuffleMerge过程SortReduce过程4.Shuffle阶段涉及的两次排序1.map端的快速
转载 2023-08-31 20:27:07
109阅读
Openstack入门精讲之架构详解-----轻松过面试,高薪不是梦!!!一、OpneStack 概念架构二、OpenStack 逻辑架构三、OpenStack组件通信关系四、OpenStack 物理架构1、网络节点 一、OpneStack 概念架构 全局组件: 身份认证服务(Keystone)、计量服务(Ceilometer)与控制面板服务(Horizon)核心组件: OpenStack 中创
1.工作流程 1.1.产品 1.1.1.流程图 draw.io 1.1.2.XMind ZEN 1.1.3.axure rp产品原
原创 2022-08-29 16:46:04
257阅读
  • 1
  • 2
  • 3
  • 4
  • 5