本来没打算学Spark 的,不过时机很逗。最膜拜的大神做spark分享,还是其中最好玩的notebook。这不就是另外一个 HUE吗,但感觉更好玩。刚好新的Spark 2.x 要问世了,大神在组织战队一起迭代。就此开始跟着大神脚后跟一点点的了解,学习争取入门吧。https://github.com/endymecy/spark-programming-guide-zh-cn (官
转载
2024-04-11 11:32:22
73阅读
1、特点快如闪电的集群计算:是Hadoop的100倍,磁盘计算快10倍大规模快速通用的计算引擎:支持Java/scala/python/R 提供80+种操作符,容易构建并行应用 组合SQL 流计算 复杂分析运行环境:Hadoop mesos,standalone等2、spark模块 spark core 核心模块spark SQL&
转载
2024-01-12 14:35:22
47阅读
Action动作算子reduce: 通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的collect: 在驱动程序中,以数组的形式返回数据集的所有元素count: 返回RDD的元素个数first: 返回RDD的第一个元素(类似于take(1))take: 返回一个由数据集的前n个元素组成的数据takeSample:返回一个数组,该数组由从数据集中随机采样的num个元素组成,可以
转载
2023-11-20 11:17:21
42阅读
Ansible学习笔记(一)1、说明OSdebian-7.4.0-amd64 Python 2.7.3Ansibleansible-1.5.tar.gz客户端IP192.168.0.102、安装2.1 Installing ansible on Debian 7.4### 个人习惯安装是基础软件包
# apt-get install -y build-essential
1、Ecplise hibernate插件安装: 下载zip格式的Eclipse插件,(http://sourceforge.net/projects/jboss/files/JBossTools/JBossTools4.1.x/hibernatetools-Update-4.1.1.Final_2013-12-08_01-06-33-B605.zi
版本:Scala 版本:2.12.15Spark 版本:3.1.3Hadoop 版本:2.7.71. Scala 安装我们从官网 https://www.scala-lang.org/download/all.html 下载 2.12.15 版本:解压到 /opt 目录:tar -zxvf scala-2.12.15.tgz -C /opt创建软连接便于升级:ln -s scala-2.12.15
转载
2023-08-01 13:51:23
137阅读
如何安装Spark安装和使用Spark有几种不同方式。你可以在自己的电脑上将Spark作为一个独立的框架安装或者从诸如Cloudera,HortonWorks或MapR之类的供应商处获取一个Spark虚拟机镜像直接使用。或者你也可以使用在云端环境(如Databricks Cloud)安装并配置好的Spark。在本文中,我们将把Spark作为一个独立的框架安装并在本地启动它。最近Spark刚刚发布了
转载
2024-01-31 22:19:17
46阅读
JavaScript介绍JavaScript是一种专为与网页交互设计的客户端脚本语言。JavaScript的引入方式1.内部引用,直接在html中编写<script type="text/javascript">
alert("这是一个弹出框");
document.write("这是页面中的一句话");
</script>2.在外部引入js<script t
转载
2023-10-13 16:04:58
48阅读
该环境适合于学习使用的快速Spark环境,采用Apache预编译好的包进行安装。而在实际开发中需要使用针对于个人Hadoop版本进行编译安装,这将在后面进行介绍。Spark预编译安装包下载——Apache版 下载地址:http://spark.apache.org/downloads.html (本例使用的是Spark-2.2.0版本) 接下来依次
转载
2023-10-14 11:17:35
538阅读
目录1. spark简介:2. spark特点:2.1 Speed:速度快2.2 Easy of Use:易用性2.3 Generality:通用性2.4 Runs Everywhere:到处运行3. Spark的应用场景4. 环境要求及准备工作5. spark搭建模式:5.1 local模式在解压缩安装后5.2 Standalone模式搭建(基于hdfs文件存储)5.1.1 首先配置s
转载
2023-09-07 23:00:57
155阅读
一、代码流程步骤整体流程图如下所示 :步骤1:在 Spark client 机器上编写并提交我们写的 Spark 程序 application。 步骤2:我们使用 spark-submit 命令提交后,该命令会以反射的方式,创建一个 Driver 进程。这个 Driver 进程执行我们编写的代码。 步骤3: 当 Driver 进程执行到我们代码中 Spark
转载
2023-10-18 19:58:24
40阅读
软考ETL记忆法与实践策略
在软件行业的众多认证中,软考(软件水平考试)一直被视为衡量IT从业人员专业技能的重要标准。其中,ETL(Extract, Transform, Load)作为数据处理的关键环节,在软考中也占据着不可忽视的地位。那么,面对复杂且细致的ETL知识,我们应该如何记忆并应用于实际考试中呢?
首先,我们需要理解ETL的基本含义和流程。Extract(抽取)是指从源系统中获取数
原创
2024-03-21 17:54:58
83阅读