需求描述与分析客户侧提出需求很简单:要对几个关键的业务功能进行操作日志记录,即什么人在什么时间操作了哪个功能,操作前的数据报文是什么、操作后的数据报文是什么,必要的时候可以一键回退。日志在业务系统中是必不可少的一个功能,常见的有系统日志、操作日志等:系统日志这里的系统日志是指的是程序执行过程中的关键步骤,根据实际场景输出的debug、info、warn、error等不同级别的程序执行记录信息,这些
转载
2024-06-01 05:44:05
36阅读
Spark RDD Scala语言编程RDD(Resilient Distributed Dataset)是一个不可变的分布式对象集合, 每个rdd被分为多个分区, 这些分区运行在集群的不同节点上。rdd支持两种类型的操作:转化(trainsformation)和行动(action), Spark只会惰性计算rdd, 也就是说, 转化操作的rdd不会立即计算, 而是在其第一次遇到行动操作时才去计算
转载
2024-01-11 13:05:21
54阅读
大家好呀,我是阿瞒,感谢大家收看我的博客,今天给大家带来的是一个众所周知的推荐系统的小demo,废话不多说,上才艺!!!首先简单的看一下项目结构,很简单。你得会创建SpringBoot项目详细教程走这个链接,写得非常详细了IDEA 如何快速创建 Springboot 项目1.SparkApplication:SpringBoot的启动类package com.study;
import org.
转载
2023-12-29 23:04:40
128阅读
RDD有两种类型的操作 ,分别是Transformation(返回一个新的RDD)和Action(返回values)。1.Transformation:根据已有RDD创建新的RDD数据集build(1)map(func):对调用map的RDD数据集中的每个element都使用func,然后返回一个新的RDD,这个返回的数据集是分布式的数据集。(2)filter(func) :对调用filter的R
转载
2024-06-18 12:32:59
51阅读
Scala开发,这里只是Spark local模式的简单示例,工作也没有需求 http请求去执行Spark yarn,所以暂时没有去管。pom.xml需要注意的是去除掉 SpringBoot 默认的日志引擎。 <properties> <project.build.sourceEncoding>UTF-8</project.b...
原创
2021-08-31 14:13:26
540阅读
一:版本预备:Scala :2.11 版Spark: 2.2.3 版二:版本之间的差异: Spark 2.x 版中将使用Dataset 取代Spark 1.x 版 DataFrame三:项目工程搭建构建一个SpringInitializr 项目在pom.xml 文件中添加依赖<dependency>
<groupId>org.apache.spark</groupI
转载
2023-11-29 09:06:39
493阅读
在云服务器上做的,由于白嫖的云服务器性能比较差,就设计了如下架构。功能与设计(大数据集群+架构设计+功能分析与设计) 总体架构图 功能: 订单成交量统计分析 历史成交总金额 热门分类的实时和离线统计分析 热门商品的实时和离线统计分析 活跃用户统计分析项目实现SpringBoot tmall商城部署在服务器git拉取tmall springboot项目到本地,配置mysql,创建对应数据库,运行sq
转载
2023-12-19 17:27:02
135阅读
Spark定义:
Spark是Apache的一个顶级项目。它是一种快速的、轻量级、基于内存、分布式迭代计算的大数据处理框架。Spark起源与发展史:: Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms,Machines and People)实验室与2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。2003年加入
转载
2023-07-04 00:28:05
121阅读
文章目录行动操作Action算子概念Action函数 行动操作在spark当中RDD的操作可以分为两种,一种是转化操作(transformation),另一种是行动操作(action)。在转化操作当中,spark不会为我们计算结果,而是会生成一个新的RDD节点,记录下这个操作。只有在行动操作执行的时候,spark才会从头开始计算整个计算。而转化操作又可以进一步分为针对元素的转化操作以及针对集合的
转载
2023-06-19 07:00:10
144阅读
一、学习1,安装Spark,并了解基础操作首先安装上Spark,再执行一下基础操作,就可以了。这里的目的是通过Spark的Shell,了解一下Spark的基础操作。接下来看看文章下面的一些概念和作用什么的就可以,不用看的太细。Spark快速入门指南 - Spark安装与基础使用2,了解如何使用Java编写Spark程序(1)先看一下官方的文档。如果对于不了解Spark的人来说,直接看官方文档可能很
转载
2023-07-04 15:12:50
164阅读
需求描述:前后端分离系统,用SpringBoot整合Spark API,调用大量数据(几百GB,上TB)进行处理计算,单机环境难以达到性能要求,此,需整合直接调用spark跑程序,且在集群跑…在此,一台测试服务器模拟,搭建伪分布spark集群,用standalone模式运行。 文章目录一、集群环境二、项目配置环境 一、集群环境包版本:
1.java1.8
2.spark 2.3.1
3
转载
2023-11-23 22:56:10
125阅读
前言昨晚本来想把这部分的博客内容,完成的,结果只写到了设计,时间就不早了,今天把具体的实现,还有实现过程中所遇到的所有的问题写在这里。引入依赖这次我用了Spark2.x的java api,并且了解到spark底层是scala实现了,然后上层的api有scala版本和java版本,这里我使用了它提供的java的api,并且java底层调用的函数都是scala实现的,非常的方便,可以与java进行无缝
转载
2023-12-27 10:47:03
46阅读
1. spark集群及版本信息服务器版本:centos7hadoop版本:2.8.3spark版本:2.3.3使用springboot构建rest api远程提交spark任务,将数据库中的表数据存储到hdfs上,任务单独起一个项目,解除与springboot项目的耦合2. 构建springboot项目1. pom配置<properties>
<jav
转载
2023-12-07 14:04:58
502阅读
环境:<java.version>1.8/17</java.version>
<scala.version>2.12.15</scala.version>
<scala.binary.version>2.12</scala.binary.version>
<spark.version>3.1.2/3.3.2<
转载
2024-01-17 17:43:44
572阅读
Spark安装:厦大数据库实验室Spark安装Scala安装:厦大数据库实验室Scala安装相应软件的安装环境:
jdk 1.8.0_161scala 2.12.12spark 2.4.7maven 3.6.3zookeeper 3.6.1kafka_2.12-2.5.0apache-tomcat-8.5.61nginx-1.17.10.tar.gzjdk的安装在 /usr/local/ 下创建
转载
2024-08-06 18:30:53
53阅读
目录背景准备工作主要流程效果截图主要代码外部引用 背景一直很好奇web后台如何启动Spark应用程序,查找Api后发现可以使用org.apache.spark.launcher.SparkLauncher来做到这一点。我想得动手测试一下,而且要做的体面一些,所以搞个简易的web工程吧,顺便学习熟悉一下使用springboot框架。在这里将整个折腾的过程记录下来准备工作1. 搭建hadoop集群,
转载
2023-12-20 15:50:26
244阅读
前言之前项目是基于springboot整合spark,在standalone上运行,现在使用同样的方案,不过是在生产环境yarn集群上提交spark,并且需进行kerbores验证,如下。背景公司项目需求,通过手机信令位置数据,做一个分析性平台。基于目前线上环境spark+hadoop+yarn做分析。数据量10亿用户。spark on yarn 问题总结首先在开发过程中,前提保证版本的一致性,否
转载
2023-07-05 21:07:40
167阅读
Spark Streaming是构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。Spark Streaming可结合批处理和交互查询,适合一些需要对历史数据和实时数据进行结合分析的应用场景。Spark Streaming设计Spark Streaming是Spark的核心组件之一,为Spark提供了可拓展、高吞吐、容错的流计算能力。如下图所示,Spark Stream
转载
2024-01-30 00:45:13
43阅读
前言在我的另一篇文章中,有简单介绍过Socket的相关概念链接:SpringBoot简单集成WebSocket初步了解后,本次再进行一个深入通俗的理解。Socket作为一种通信机制,通常也被称为"套接字"。它类似于人们之间的"打电话行为"。我们将每个人的电话号作为独立端口。两个人打电话之前则首先需要其中一方知晓另一方的"端口"。然后申请向对方进行拨号呼叫(请求连接)。此时被连接方如果正好空闲,接起
转载
2023-08-07 22:53:02
65阅读
# Spring Boot集成Spark
## 简介
Spark是一个快速、通用的集群计算系统,可以处理大规模数据集并提供高效的数据处理功能。Spring Boot是一个用于构建独立的、生产级的Spring应用程序的框架。本文将介绍如何在Spring Boot项目中集成Spark,并提供代码示例。
## 为什么选择Spark
Spark相比传统的Hadoop MapReduce具有更高的速
原创
2023-11-09 14:26:00
232阅读