上一篇文章中提到SpringBoot中实现自动配置时,用到了SPI机制。不知道会不会有有心人去看看我推荐的那篇博文。本篇文章将从代码的层次深入解读Springboot的SPI机制。   首先,是一个很重要的注解@EnableAutoConfiguration,它的源码如下:@Target(ElementType.TYPE) @Retention(Re
转载 2024-06-04 12:55:44
11阅读
全文共10887字,预计阅读时间70分钟。第二章  Spark入门介绍与基础案例1.  第一步:下载Apache Spark安装包    1.1  Spark的目录和文件2.  第二步:使用Scale或者PySpark Shell    2.1  使用本地机器3.  第三步:理解Spark应用的概念
大家好呀,我是阿瞒,感谢大家收看我的博客,今天给大家带来的是一个众所周知的推荐系统的小demo,废话不多说,上才艺!!!首先简单的看一下项目结构,很简单。你得会创建SpringBoot项目详细教程走这个链接,写得非常详细了IDEA 如何快速创建 Springboot 项目1.SparkApplication:SpringBoot的启动类package com.study; import org.
Spark生态圈1. Spark Core(重点)1.1 Spark特点1.2 spark的体系构架1.3 spark的安装配置1.3.1 准备工作:1.3.2 伪分布1.3.3 全分布1.3.4 HA1.3.5 spark任务的提交1.4 Spark Shell1.4.1 两种运行模式1.4.2 wordcount案例1.5 RDD弹性分布式数据集(重点)1.5.1 RDD特性1.5.2 Tr
转载 2023-08-07 22:09:26
565阅读
Spark下载与入门下载Spark访问 http://spark.apache.org/downloads.html, 选 择 包 类 型 为“Pre-built for Hadoop 2.4 and later”,然后选择“Direct Download”直接下载。得到文件名为 spark-1.2.0-bin-hadoop2.4.tgz.cd ~ # x 标记指定 tar 命令执行解压缩操作,f
转载 2023-09-27 15:30:52
83阅读
一:版本预备:Scala :2.11 版Spark: 2.2.3 版二:版本之间的差异: Spark 2.x 版中将使用Dataset 取代Spark 1.x 版 DataFrame三:项目工程搭建构建一个SpringInitializr 项目在pom.xml 文件中添加依赖<dependency> <groupId>org.apache.spark</groupI
转载 2023-11-29 09:06:39
493阅读
在云服务器上做的,由于白嫖的云服务器性能比较差,就设计了如下架构。功能与设计(大数据集群+架构设计+功能分析与设计) 总体架构图 功能: 订单成交量统计分析 历史成交总金额 热门分类的实时和离线统计分析 热门商品的实时和离线统计分析 活跃用户统计分析项目实现SpringBoot tmall商城部署在服务器git拉取tmall springboot项目到本地,配置mysql,创建对应数据库,运行sq
转载 2023-12-19 17:27:02
135阅读
好的,下面是Spark入门教程:# 1. Spark概述Spark是一种基于内存计算的大数据处理框架,它提供了高效的分布式数据处理能力,使得处理大规模数据变得更加容易。Spark最初是由加州大学伯克利分校AMPLab实验室开发的,后来被捐赠给了Apache软件基金会,成为了Apache的顶级项目。Spark最主要的特点是内存计算,它能够将数据存储在内存中进行计算,大大提高了计算速度。此外,Spar
转载 2023-07-28 20:32:54
1350阅读
Scala开发,这里只是Spark local模式的简单示例,工作也没有需求 http请求去执行Spark yarn,所以暂时没有去管。pom.xml需要注意的是去除掉 SpringBoot 默认的日志引擎。 <properties> <project.build.sourceEncoding>UTF-8</project.b...
原创 2021-08-31 14:13:26
540阅读
一、ML组件ML的标准API使用管道(pipeline)这样的方式,可以将多个算法或者数据处理过程整合到一个管道或者一个流程里运行,其中包含下面几个部分: 1. dataFrame:用于ML的dataset,保存数据 2. transformer:将一个dataFrame按照某种计算转换成另外一个dataFrame,例如把一个包含特征的dataFrame通过模型预测,生成一个包
转载 3月前
33阅读
Spark安装:厦大数据库实验室Spark安装Scala安装:厦大数据库实验室Scala安装相应软件的安装环境: jdk 1.8.0_161scala 2.12.12spark 2.4.7maven 3.6.3zookeeper 3.6.1kafka_2.12-2.5.0apache-tomcat-8.5.61nginx-1.17.10.tar.gzjdk的安装在 /usr/local/ 下创建
转载 2024-08-06 18:30:53
53阅读
环境:<java.version>1.8/17</java.version> <scala.version>2.12.15</scala.version> <scala.binary.version>2.12</scala.binary.version> <spark.version>3.1.2/3.3.2<
转载 2024-01-17 17:43:44
572阅读
概论 在高层中,每个 Spark 应用程序都由一个驱动程序(driver programe)构成,驱动程序在集群上运行用户的mian 函数来执行各种各样的并行操作(parallel operations)。Spark 的主要抽象是提供一个弹性分布式数据集(RDD),RDD 是指能横跨集群所有节点进行并行计算的分区元素集合。 RDDs 从 Hadoop 的文件系统中的一个文件中创建而来(或其他 H
转载 2024-02-06 21:57:42
39阅读
目录背景准备工作主要流程效果截图主要代码外部引用 背景一直很好奇web后台如何启动Spark应用程序,查找Api后发现可以使用org.apache.spark.launcher.SparkLauncher来做到这一点。我想得动手测试一下,而且要做的体面一些,所以搞个简易的web工程吧,顺便学习熟悉一下使用springboot框架。在这里将整个折腾的过程记录下来准备工作1. 搭建hadoop集群,
Spark Streaming是构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。Spark Streaming可结合批处理和交互查询,适合一些需要对历史数据和实时数据进行结合分析的应用场景。Spark Streaming设计Spark Streaming是Spark的核心组件之一,为Spark提供了可拓展、高吞吐、容错的流计算能力。如下图所示,Spark Stream
转载 2024-01-30 00:45:13
43阅读
前言之前项目是基于springboot整合spark,在standalone上运行,现在使用同样的方案,不过是在生产环境yarn集群上提交spark,并且需进行kerbores验证,如下。背景公司项目需求,通过手机信令位置数据,做一个分析性平台。基于目前线上环境spark+hadoop+yarn做分析。数据量10亿用户。spark on yarn 问题总结首先在开发过程中,前提保证版本的一致性,否
转载 2023-07-05 21:07:40
167阅读
前言昨晚本来想把这部分的博客内容,完成的,结果只写到了设计,时间就不早了,今天把具体的实现,还有实现过程中所遇到的所有的问题写在这里。引入依赖这次我用了Spark2.x的java api,并且了解到spark底层是scala实现了,然后上层的api有scala版本和java版本,这里我使用了它提供的java的api,并且java底层调用的函数都是scala实现的,非常的方便,可以与java进行无缝
 1. spark集群及版本信息服务器版本:centos7hadoop版本:2.8.3spark版本:2.3.3使用springboot构建rest api远程提交spark任务,将数据库中的表数据存储到hdfs上,任务单独起一个项目,解除与springboot项目的耦合2. 构建springboot项目1. pom配置<properties> <jav
转载 2023-12-07 14:04:58
498阅读
需求描述:前后端分离系统,用SpringBoot整合Spark API,调用大量数据(几百GB,上TB)进行处理计算,单机环境难以达到性能要求,此,需整合直接调用spark跑程序,且在集群跑…在此,一台测试服务器模拟,搭建伪分布spark集群,用standalone模式运行。 文章目录一、集群环境二、项目配置环境 一、集群环境包版本: 1.java1.8 2.spark 2.3.1 3
转载 2023-11-23 22:56:10
125阅读
Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark特点Spark具有如下几个主要特点:运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比Hadoop MapReduce快上百倍,基于磁盘
原创 2023-09-12 19:18:42
48阅读
  • 1
  • 2
  • 3
  • 4
  • 5