一、Spark概述1、什么是SparkSpark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目项目是用Scala进行编写。 目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkCore、SparkSQL、Spark Streamin
WordCount案例案例一: import org.apache.spark.streaming._ val ssc = new StreamingContext(sc,Seconds(5)); val lines = ssc.textFileStream("file:///home/software/stream"); //val lines = ssc.textFileStream("hdf
转载 2024-07-11 14:17:35
52阅读
文章目录WordCount 案例案例流程图代码实现TopKey 案例sortByKeysortBytop代码实现 WordCount 案例案例流程图首先集群存在单词数据代码实现package cn.kaizi.spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /**
ods层-ProducerClientLog def main(args: Array[String]): Unit = { if (args.length == 0) { println("请输入日期") System.exit(1) // 程序终止 } var spark: SparkSession = null if(ConfigU
转载 2023-08-18 15:47:44
212阅读
目录一、环境要求二、数据准备三、需求说明四、代码实现1.建立3张表: 2.需求实现一、环境要求IDEA中SPARK可以连接虚拟机外置HIVE 可参考(IDEA中Spark连接外置hive详细步骤)Spark3.0.0;Hadoop3.2.1; HIVE3.1.2二、数据准备1 张用户行为表,1 张城市表,1 张产品表用户行为表user_visit_action:主要包含用户的
转载 2023-11-03 15:17:41
135阅读
案例一:计算网页访问量前三名源数据大致预览: 编写Scala代码: package day02 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * @author dawn * @version 1.0, 2019年6月21日11:40:16
转载 2023-11-06 19:53:24
256阅读
SparkStreaming 案例实操一、环境准备1、pom 文件2、生产数据二、需求一:广告黑名单1) 思路分析2) 存放黑名单用户的表3) 存放单日各用户点击每个广告的次数4) 代码实现5) 优化三、需求二:广告点击量实时统计1、思路分析2、MySQL 建表代码实现四、需求三:最近一小时广告点击量1、 思路分析2、代码实现优化页面展示 一、环境准备1、pom 文件<?xml versi
转载 2023-11-19 07:03:52
14阅读
大家好我是一名数据科学与大数据专业的一名大二学生,对大数据处理和大数据分析很感兴趣,写博客只是记录我学习的过程,并且与大家分享学习经验! 下面为大家带来运用spark运算框架对流数据进行词频统计案例!1、首先新建一个maven项目导入spark-streaming程序开发所需依赖<dependency> <groupId>org.apache.spa
转载 2023-11-10 13:11:44
85阅读
总结与体会1.项目总结本次项目实现了Spark 单机模式Python版的安装;介绍了与Spark编程有关的一些基本概念.特别对RDD的创建、转换和行动操作做了比较详细的说明;对从RDD 到DataFrame的实现进行了案例训练,包括 json 文件、csv文件和普通文本文件生成 Spark DataFrame 的多种练习:详细讲解了Spark综合编程,特别对 Python可视化编程做了详尽的描述和
转载 2023-08-13 20:33:31
128阅读
文章目录Spark编程基础-搭配Jupyter1.1 RDD编程1.1.1 RDD创建1.1.2 文件系统中加在数据集1.1.3 通过并行集合创建RDD1.1.4 RDD操作1.1.4.1 转换操作1.1.4.2 行动操作1.2 键值对RDD1.3 共享变量(分布式)1.4 数据读写1.4.1 文件数据读写 Spark编程基础-搭配Jupyter上节我们说道了Spark的基础知识和原理,这一节我
转载 2023-08-20 22:41:42
140阅读
在这个博文中,我将分享一个关于如何在 Spark 上进行实战项目的过程,涵盖了从环境准备到扩展应用的各个方面。这些执行步骤和配置详解能够帮助你更好地理解和实施 Spark 项目。 ## 环境准备 ### 软硬件要求 - **硬件要求** - CPU: 至少4核 - RAM: 至少8GB - 硬盘: 至少50GB的可用空间 - **软件要求** - Java 8或以上版本
原创 5月前
77阅读
在master节点上执行如下命令:/opt/hadoop/sbin/start-all.sh //启动hadoop集群 /opt/spark/sbin/start-all.sh //启动spark集群1.在master的/opt目录下新建file1.txt数据文件直接复制file1.txt:1,1768,50,155 2,1218,600,211 3,2239,788,242 4,3101,28
转载 2023-11-10 11:12:49
64阅读
1. Spark项目的创建 说明一点,这里创建的项目,比之前稍微复杂一点点–基于maven的聚合和继承项目。 创建父工程,再创建多个子模块,这里用到spark-core因为我不想再重新截图,所以用之前的,模块名会不完全相同,但都是一个意思,但能看懂 注意:父模块,一般不做开发,也就可以删除src相关目录;主要的作用就是用来管理所有的子模块,管理整个项目中使用到的依赖及其版本。 创建子目录–通用co
Spark-SQL的Java实践案例(四)数据源:(读取与存储数据,JDBC服务器)这章我们来搞 数据源:(读取与存储数据,JDBC服务器)sparkSQL支持很多种结构化的数据源,并且把内部复杂的细节都封装了起来,方便我们从各种数据源轻松的获取Row对象数据源包括但不限:parquet,hive表,JSON等等而且当我们使用SQL查询数据源中的数据,并且只用到了一部分字段的时候,sparkSQL
转载 2023-11-13 12:47:37
63阅读
# Spark项目Java实战 Apache Spark 是一个开源的快速、通用的大数据处理引擎,它支持在大规模数据集上进行高效的数据处理。在本文中,我们将介绍如何使用 Java 进行 Spark 项目实战。我们将通过一个简单的示例来展示如何使用 Spark 进行数据处理和分析。 ## 环境准备 在开始实战之前,我们需要准备好环境。首先,确保你已经安装了 Java 开发环境和 Apache
原创 2024-04-09 04:42:43
76阅读
# Spark实战项目案例 ## 1. 简介 本文将介绍一个基于Spark实战项目案例,并提供相关代码示例。该项目案例是基于大规模数据处理的,使用Spark框架进行分布式计算,旨在帮助读者理解Spark的使用和应用。 ## 2. 项目背景 假设我们有一个电商平台,每天会产生大量的用户行为数据,包括用户浏览商品、下单购买商品、取消订单等操作。我们希望通过分析这些数据来获取有关用户行为的洞察
原创 2023-08-20 03:16:46
273阅读
         本文旨在帮助那些想要对Spark有更深入了解的工程师们,了解Spark源码的概况,搭建Spark源码阅读环境,编译、调试Spark源码,为将来更深入地学习打下基础。一、项目结构        在大型项目中,往往涉及非常多的功能模块,
转载 2024-10-28 16:13:55
50阅读
# Spark项目实战案例指南 ## 引言 作为一名经验丰富的开发者,我将在本篇文章中教你如何实现一个Spark项目实战案例。Spark是一个强大的分布式计算框架,可以处理大规模数据集,并提供了丰富的API和工具来进行数据处理、机器学习和图计算等任务。在本案例中,我们将使用Spark来处理一组电影评分数据,并进行一些分析和推荐任务。 ## 整体流程 下面是整个项目实战的流程,我们将按照这个流程
原创 2023-08-24 08:17:19
154阅读
学习资料✧ Spring Boot 官方文档:https://docs.spring.io/spring-boot/docs/current/reference/html/        因为该项目简单易上手,比较合适新手作为第一个实战项目。所以为了尽可能的规范,该篇的代码基本上与视频导师中命名与开发代码一致。尽可能的
# Spark 实战项目:分析天气数据 Apache Spark 是一个用于大规模数据处理的开源分布式计算框架,尤其适用于快速数据处理和分析。本文将通过一个简单的项目示例,展示如何使用 Spark 来分析天气数据。我们将读取一个天气数据集,并对其进行基本分析。 ## 项目背景 我们将使用一个包含过去几年的天气数据的 CSV 文件,数据包括日期、温度、湿度、风速等信息。我们的目标是通过 Sp
原创 8月前
54阅读
  • 1
  • 2
  • 3
  • 4
  • 5