目录01_尚硅谷大数据技术之SparkCore第05章-Spark核心编程P022【022.尚硅谷_SparkCore - 分布式计算模拟 - 搭建基础的架子】12:48P023【023.尚硅谷_SparkCore - 分布式计算模拟 - 客户端向服务器发送计算任务】10:50P024【024.尚硅谷_SparkCore - 分布式计算模拟 - 数据结构和分布式计算】11:39P025【025.尚
转载
2023-12-13 22:06:55
59阅读
本节书摘来自华章计算机《Spark大数据处理:技术、应用与性能优化》一书中的第1章,第1.1节,作者:高彦杰 第1章 Spark 简 介本章主要介绍Spark大数据计算框架、架构、计算模型和数据管理策略及Spark在工业界的应用。围绕Spark的BDAS 项目及其子项目进行了简要介绍。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streami
转载
2023-09-25 08:44:27
101阅读
# 学习Spark大数据技术与应用的入门指南
对于刚入行的小白来说,学习Spark大数据技术可能会觉得有些复杂。但只要掌握了必要的流程和代码示例,你也能顺利上手。下面我将为你提供一个学习Spark的流程步骤以及每一步的具体实现。
## Spark学习流程
| 步骤 | 描述 |
|------|--------------------------|
|
Apache Spark是一个在集群上运行的统一计算引擎以及一组并行数据处理软件库。 1.Spark应用程序Spark应用程序由一个驱动器进程和一组执行器进程组成。 驱动进程运行mian()函数,位于集群中的一个节点上:维护Spark应用程序的相关信息;回应用户的程序或输入;分析任务并分发给若干执行器进行处理执行器负责执行驱动器分配给它的实际计算工作:执行驱动器分配给他的代码;将执行器的计算状态报
转载
2023-12-03 10:06:26
77阅读
Spark的基础编程Spark的一些基本概念1.RDD:弹性分布式数据集,是分布式内存的一个抽象概念,提供了一种高度受限的共享内容模型,即RDD是只读的记录分区的集合,只能基于稳定的物理存储中的数据集来创建RDD,或者通过其它RDD上执行确定的转换操作(如map,join,group by)来创建,这些限制使得实现容错的开销很低。一个RDD 就是一个分布式对象集合,作为数据结构,RDD本质上是一个
转载
2023-11-01 20:24:27
170阅读
本文为 对刘鹏著《大数据库》一书学习后对课后部分习题的个人理解,欢迎同学们与我讨论。1. 主流的大数据SQL引擎有哪几种?SQL引擎可以理解为具有数据存储、查询(类SQL语言)与数据处理分析能力为一体的数据仓库,应区别于Hadoop(分布式系统基础架构)、MapReduce(分布式计算(处理)架构)、HDFS(分布式文件系统)与HBase等NoSql(数据库)等。Shark/Spark SQL、I
转载
2024-09-20 15:38:33
35阅读
问题重述• 基于Eclipse或IDEA完成Spark大数据分析 • Spark1.x或2.x版本均可 • 能够读取给定的数据文件 • 出租车GPS数据文件(taxi_gps.txt) • 北京区域中心坐标及半径数据文件(district.txt) • 能够输出以下统计信息 • A:该出租车GPS数据文件(taxi_gps.txt)包含多少量车? • B:北京每个城区的车辆位置点数(每辆车有多个位
转载
2024-10-26 20:03:25
21阅读
大数据技术原理与应用学习笔记(十)SparkSpark简介Spark与Hadoop对比Spark生态系统Spark运行架构基本概念运行架构基本流程RDDRDD特性RDD依赖关系和运行过程Spark SQLSpark部署应用方式Spark编程实践 SparkSpark简介Spark的特点:运行速度快容易使用通用性运行模式多样Spark采用Scala语言1为Spark主要编程语言,同时还支持Java
转载
2023-11-26 20:47:14
448阅读
大数据生态圈-Spark理论知识(一)官网地址:http://spark.apache.org/ Apache Spark 是用于大规模数据分布式计算的框架。内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。扩展了广泛使用的MapReduce计算模型。Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。(二)
转载
2024-08-14 17:36:51
0阅读
系列文章全国大学生大数据技能竞赛(Hadoop集群搭建)全国大学生大数据技能竞赛(数仓部署) 文章目录系列文章前言资料链接Spark on Yarn安装3.1安装Scala3.2安装Spark 前言本篇博客根据往年全国大学生大数据技能竞赛资料搭建,每一个步骤都有相应的执行的截图。以下博客仅作为个人搭建过程的记录~如有不足之处欢迎指出,共同学习进步。附上资料链接。资料链接青椒课堂(红亚)网站链接:h
转载
2024-06-03 10:26:02
296阅读
第一课 大数据技术之Spark-环境和快速入门 文章目录第一课 大数据技术之Spark-环境和快速入门第一节 Spark 概述1.1 Spark介绍1.2 Spark和Hadoop选择1.3 核心模块介绍第二节 环境搭建和快速上手2.1 增加 Scala 插件2.2 快速上手wordcount2.3 wordcount优化用聚合的逻辑2.4 wordcount常用方法第三节 执行日志和常见异常3.
转载
2024-06-30 17:37:20
95阅读
文章目录1. SparkSQL 概述1.1 SparkSQL 是什么1.2 Hive and SparkSQL1.3 SparkSQL 特点1.3.1 易整合1.3.2 统一的数据访问1.3.3 兼容 Hive1.3.4 标准数据连接1.4 DataFrame 是什么1.5 DataSet 是什么2. SparkSQL 核心编程2.1 新的起点2.2 DataFrame2.2.1 创建 Data
转载
2024-08-14 16:20:35
119阅读
大数据技术概述复习(二)Spark原理简单介绍1.Mapreduce引擎的缺陷MapReduce主要三点缺陷:表达能力有限。计算必须转化成Map和Reduce的操作,不够通用,难以描述复杂的数据处理过程。实际开发时需要编写不少相对底层的代码,效率低、不方便编写。磁盘IO开销大。每次执行都需要从磁盘 中读取数据,计算完成后的中间结果也要写入磁盘。进行迭代运算时非常耗资源。计算延迟高。一次计算中,任务
转载
2024-08-14 19:06:12
48阅读
1.Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。答:Spark具有如下4个主要特点:①运行速度快;②容易使用;③通用性;④运行模式多样。 2.Spark的出现是为了解决Hadoop MapReduce的不足,试列举Hadoop MapReduce的几个缺陷,并说明Spark...
原创
2022-04-01 10:52:50
1139阅读
1.Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。答:Spark具有如下4个主要特点:①运行速度快;②容易使用;③通用性;④运行模式多样。 2.Spark的出现是为了解决Hadoop MapReduce的不足,试列举Hadoop MapReduce的几个缺陷,并说明Spark...
原创
2021-06-01 17:47:55
1044阅读
大数据技术总结大纲概念应用难题技术栈大数据架构1. 数据收集Sqoop/CanalFlumeKafka2. 数据存储HDFSHBaseKudu3. 分布式协调与资源管理ZookeeperYarn4. 数据计算MapReduceSparkImpala/PrestoStormFlink5. 数据分析HivePigSparkSQLMahout/MLLibApache BeamMOLAPHadoop发行
转载
2023-12-25 19:10:37
72阅读
第1章 Spark概述 什么是SparkSpark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。Spark内置模块 Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。
转载
2023-10-12 10:45:49
89阅读
1.试述MapReduce和Hadoop的关系。Google公司最先提出了分布式并行编程模型MapRedece ,Hadoop是一个实现了MapReduce模式的开源的分布式并行编程框架。Google的MapReduce运行在分布式文件系统GFS上,与Google类似,HadoopMapReduce运行在分布式文件系统HDFS上。相对而言,HadoopMapReduce要比GoogleMapRed
转载
2023-10-05 22:02:40
1034阅读
基本信息作者: 高彦杰 丛书名: 大数据技术丛书出版社:机械工业出版社ISBN:9787111483861上架时间:2014-11-5出版日期:2014 年11月开本:16开页码:255版次:1-1所属分类: 计算机 > 数据库 > 数据库存储与管理 编辑推荐 根据最新技术版本,系统、全面、详细讲...
转载
2015-03-26 14:14:00
132阅读
2评论
Spark手稿一、简介Spark集批处理、实时流处理、交互式查询、机器学习与图计算于一体。大多数现有的集群计算系统都是基于非循环的数据流模型。即从稳定的物理存储(分布式文件系统)中加载记录,
记录被传入由一组确定性操作构成的DAG(有向无环图),然后写回稳定存储。DAG数据流图能够在运行时自动实现任务调度和故障恢复。基于数据流的框架没有明确支持工作集,所以需要将数据输出到磁盘,
然后在每次查询时重
转载
2024-07-18 05:45:04
112阅读