目录背景准备工作主要流程效果截图主要代码外部引用 背景一直很好奇web后台如何启动Spark应用程序,查找Api后发现可以使用org.apache.spark.launcher.SparkLauncher来做到这一点。我想得动手测试一下,而且要做的体面一些,所以搞个简易的web工程吧,顺便学习熟悉一下使用springboot框架。在这里将整个折腾的过程记录下来准备工作1. 搭建hadoop集群,
 1. spark集群及版本信息服务器版本:centos7hadoop版本:2.8.3spark版本:2.3.3使用springboot构建rest api远程提交spark任务,将数据库中的表数据存储到hdfs上,任务单独起一个项目,解除与springboot项目的耦合2. 构建springboot项目1. pom配置<properties> <jav
转载 2023-12-07 14:04:58
498阅读
本篇和大家分享的是springboot打包并结合shell脚本命令部署,重点在分享一个shell程序启动工具,希望能便利工作;profiles指定不同环境的配置maven-assembly-plugin打发布压缩包分享shenniu_publish.sh程序启动工具linux上使用shenniu_publish.sh启动程序profiles指定不同环境的配置通常一套程序分为了很多个部署环境:开发,
转载 2024-04-15 12:06:50
40阅读
SpringBoot使用RestTemplate远程调用其他服务接口说明远程服务接口代码项目结构如下pom.xml文件代码UserParam请求对象代码TestController代码application.yml代码PostMan本地调用接口效果RestTemplate调用服务代码项目结构如下pom.xml文件代码UserParam请求对象代码RestTemplateConfig配置代码Htt
转载 2023-11-17 23:27:18
84阅读
本文以单机的环境演示如何将Kafka和Spring集成。 单机的环境最容易搭建, 并且只需在自己的PC上运行即可, 不需要很多的硬件环境,便于学习。 况且,本文的目的不是搭建ZooKeeper的集群环境, 而是重点介绍Kafka和Spring的应用。 具体的软件环境如下: OS: CentOS 6.4 Zookepper: zookeeper-3.4.6 Kafka:
转载 2024-01-29 10:42:56
67阅读
SpEL1. 求值(Evalutation)(1) 理解EvaluationContext1) 类型转换(2) 解析器配置(3) SpEL编译1)编译器配置2) 编译器限制2. Bean定义中的表达式(1) XML配置(2) 注解配置3. SpEL语言参考(1) 常量表达式(2) Properties、Arrays、Lists、Maps及Indexers(3) 内联Lists(4) 内联Maps
转载 2023-08-12 15:36:43
125阅读
Spark为什么只有在调用action时才会触发任务执行呢(附算子优化和使用示例)?mp.weixin.qq.com Spark算子主要划分为两类:transformation和action,并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到,Spark RDD的缓存和checkpoint是懒加载操作,只有actio
转载 2024-08-29 13:50:23
26阅读
大家好呀,我是阿瞒,感谢大家收看我的博客,今天给大家带来的是一个众所周知的推荐系统的小demo,废话不多说,上才艺!!!首先简单的看一下项目结构,很简单。你得会创建SpringBoot项目详细教程走这个链接,写得非常详细了IDEA 如何快速创建 Springboot 项目1.SparkApplication:SpringBoot的启动类package com.study; import org.
要介绍LauncherBackend,首先介绍下LaucherServer。当Spark应用程序没有在用户应用程序中运行,而是运行在单独的进程中时,用户可以在用户应用程序中使用LauncherServer与Spark应用程序通信。LauncherServer将提供Socket连接的服务端,与Spark应用程序中的Socket连接的客户端通信。LaucherServer的工作原理如下图:TaskSc
转载 2023-07-04 11:34:33
2977阅读
第二章 Spark RDD以及编程接口目录Spark程序"Hello World"Spark RDD创建操作转换操作控制操作行动操作注:学习《Spark大数据处理技术》笔记1. Spark程序"Hello World"1. 概述计算存储在HDFS的Log文件中出现字符串"Hello World"的行数2. 代码实现3. 行解第一行对于所有的Spark程序而言,要进行任何操作,首先要创建一个Spar
转载 2023-08-21 11:20:39
86阅读
一:版本预备:Scala :2.11 版Spark: 2.2.3 版二:版本之间的差异: Spark 2.x 版中将使用Dataset 取代Spark 1.x 版 DataFrame三:项目工程搭建构建一个SpringInitializr 项目在pom.xml 文件中添加依赖<dependency> <groupId>org.apache.spark</groupI
转载 2023-11-29 09:06:39
493阅读
在云服务器上做的,由于白嫖的云服务器性能比较差,就设计了如下架构。功能与设计(大数据集群+架构设计+功能分析与设计) 总体架构图 功能: 订单成交量统计分析 历史成交总金额 热门分类的实时和离线统计分析 热门商品的实时和离线统计分析 活跃用户统计分析项目实现SpringBoot tmall商城部署在服务器git拉取tmall springboot项目到本地,配置mysql,创建对应数据库,运行sq
转载 2023-12-19 17:27:02
135阅读
Scala开发,这里只是Spark local模式的简单示例,工作也没有需求 http请求去执行Spark yarn,所以暂时没有去管。pom.xml需要注意的是去除掉 SpringBoot 默认的日志引擎。 <properties> <project.build.sourceEncoding>UTF-8</project.b...
原创 2021-08-31 14:13:26
540阅读
一、ML组件ML的标准API使用管道(pipeline)这样的方式,可以将多个算法或者数据处理过程整合到一个管道或者一个流程里运行,其中包含下面几个部分: 1. dataFrame:用于ML的dataset,保存数据 2. transformer:将一个dataFrame按照某种计算转换成另外一个dataFrame,例如把一个包含特征的dataFrame通过模型预测,生成一个包
转载 3月前
33阅读
 1、使用Sparkconf配置Spark  对Spark进行性能调优,通常就是修改Spark应用的运行时配置选项。  Spark中最主要的配置机制通过SparkConf类对Spark进行配置,当创建出一个SparkContext时,就需要创建出一个SparkConf实例。  Sparkconf实例包含用户要重载的配置选项的键值对。调用set()方法来添加配置项的设置,然后把这个对象传给Spark
转载 2023-06-11 15:58:37
408阅读
环境:<java.version>1.8/17</java.version> <scala.version>2.12.15</scala.version> <scala.binary.version>2.12</scala.binary.version> <spark.version>3.1.2/3.3.2<
转载 2024-01-17 17:43:44
572阅读
Spark安装:厦大数据库实验室Spark安装Scala安装:厦大数据库实验室Scala安装相应软件的安装环境: jdk 1.8.0_161scala 2.12.12spark 2.4.7maven 3.6.3zookeeper 3.6.1kafka_2.12-2.5.0apache-tomcat-8.5.61nginx-1.17.10.tar.gzjdk的安装在 /usr/local/ 下创建
转载 2024-08-06 18:30:53
53阅读
Spark Streaming是构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。Spark Streaming可结合批处理和交互查询,适合一些需要对历史数据和实时数据进行结合分析的应用场景。Spark Streaming设计Spark Streaming是Spark的核心组件之一,为Spark提供了可拓展、高吞吐、容错的流计算能力。如下图所示,Spark Stream
转载 2024-01-30 00:45:13
43阅读
前言之前项目是基于springboot整合spark,在standalone上运行,现在使用同样的方案,不过是在生产环境yarn集群上提交spark,并且需进行kerbores验证,如下。背景公司项目需求,通过手机信令位置数据,做一个分析性平台。基于目前线上环境spark+hadoop+yarn做分析。数据量10亿用户。spark on yarn 问题总结首先在开发过程中,前提保证版本的一致性,否
转载 2023-07-05 21:07:40
167阅读
前言昨晚本来想把这部分的博客内容,完成的,结果只写到了设计,时间就不早了,今天把具体的实现,还有实现过程中所遇到的所有的问题写在这里。引入依赖这次我用了Spark2.x的java api,并且了解到spark底层是scala实现了,然后上层的api有scala版本和java版本,这里我使用了它提供的java的api,并且java底层调用的函数都是scala实现的,非常的方便,可以与java进行无缝
  • 1
  • 2
  • 3
  • 4
  • 5