一、sparkContext与sparkSession区别任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数,sparkContext只能在driver机器上面启动;SparkSession: SparkSession实质上是SQLContext和HiveContext的组合,S
转载 2023-07-15 12:20:37
55阅读
# Java中使用Kafka集群 Kafka是一种高性能、分布式的流处理平台,常用于构建实时数据流处理应用程序。本文将介绍如何在Java中使用Kafka集群,并提供相应的代码示例。 ## 什么是Kafka? Kafka是由Apache软件基金会开发的一种分布式流处理平台,它可以处理高吞吐量的实时数据流。它具有持久性、可扩展性和容错性等特点,适用于构建实时流处理应用。 Kafka基于发布-订
原创 2023-12-29 12:22:31
88阅读
# 实现Java中使用Redis集群指南 ## 一、整体流程 | 步骤 | 操作 | | :---: | :--- | | 1 | 搭建Redis集群环境 | | 2 | 导入Java Redis客户端依赖 | | 3 | 配置Redis集群连接信息 | | 4 | 编写示例代码进行测试 | ## 二、具体步骤及代码 ### 1. 搭建Redis集群环境 首先需要搭建一个Redis集群
原创 2024-06-19 04:36:43
55阅读
SparkStreaming简介Spark Streaming 是 Spark 的一个子模块,用于快速构建可扩展,高吞吐量,高容错的流处理程序。具有以下特点:通过高级 API 构建应用程序,简单易用;支持多种语言,如 Java,Scala 和 Python;良好的容错性,Spark Streaming 支持快速从失败中恢复丢失的操作状态;能够和 Spark 其他模块无缝集成,将流处理与批处理完美结
转载 2023-12-22 14:22:57
53阅读
SparkStreaming简介Spark Streaming 是 Spark 的一个子模块,用于快速构建可扩展,高吞吐量,高容错的流处理程序。具有以下特点:通过高级 API 构建应用程序,简单易用;支持多种语言,如 Java,Scala 和 Python;良好的容错性,Spark Streaming 支持快速从失败中恢复丢失的操作状态;能够和 Spark 其他模块无缝集成,将流处理与批处理完美结
转载 2023-12-23 14:22:07
42阅读
# 使用GeoTools进行空间数据处理 GeoTools是一个开源的Java库,用于处理和分析地理空间数据。它提供了大量的功能和工具,可以帮助开发者进行空间数据的读取、处理、分析和可视化。本文将介绍如何在Spark中使用GeoTools进行空间数据处理,并提供一些代码示例。 ## 1. 准备工作 在开始使用GeoTools之前,我们需要先安装GeoTools库。可以通过Maven来添加Ge
原创 2024-01-17 13:09:39
341阅读
# Spark中使用Aggregator ## 介绍 在Spark中使用Aggregator可以用于对数据进行分组和聚合操作。本文将介绍使用Aggregator的流程,并提供代码示例和注释。 ## 流程 使用Aggregator的流程如下: ```mermaid journey title 使用Aggregator的流程 section 准备数据 开发者->数据源
原创 2023-08-22 07:23:02
486阅读
package com.immooc.sparkimport org.apache.spark.{SparkConf, rdd}imp
原创 2022-08-01 20:30:12
182阅读
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少。每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需,所以利用闲暇之余将官方文档翻译为中文版,并亲测Demo的代码。在此记录一下,希望对那些对Spark感兴趣和从事大数据开发的人员提供有价值的中文资料,对PySpark开发人员的工作和学习有所帮助。官网地
转载 2023-07-17 11:43:14
75阅读
Spark 2.x管理与开发-Spark RDD的高级算子(二)aggregate*聚合操作,类似于分组Group By(1)先对局部进行聚合操作,再对全局进行聚合操作(2)举例:将每一个分区中的最大值加在一起分成两步操作:1)先在分区内部进行最大值操作2)面对全局进行操作-求和:2+5=7zeroValue: U:初始值,需要赋值    后面是两个函数参数,第一个函
## 实现Spark map中使用redis ### 一、整体流程 首先我们需要确保已安装好 Spark 和 Redis,然后按照以下步骤来实现 Spark map 中使用 Redis: ```mermaid classDiagram class Spark { + map() } class Redis { + get() }
原创 2024-07-12 05:10:27
15阅读
Spark&MapReduce的区别、多线程&多进程的区别1.spark与hadoop区别:2.Spark多线程运行, MR多进程运行3.MR存在的问题:4.线程和进程的区别: 1.spark与hadoop区别:本质:主要看是否进行磁盘的转换 hadoop:因为需要partition所以需要进行磁盘的转换存储 spark:则不需要这个2.Spark多线程运行, MR多进程运行多线
# Spark使用Ignite集群教程 ## 1. 整体流程 | 步骤 | 操作 | | ------ | ------ | | 1 | 配置Ignite集群环境 | | 2 | 导入Spark和Ignite相关库 | | 3 | 初始化Ignite上下文 | | 4 | 创建SparkSession | | 5 | 将Spark RDD转换为Ignite RDD | | 6 | 执行Spar
原创 2023-11-03 07:28:09
97阅读
SpringCloud实用篇020.学习目标1.Nacos配置管理Nacos除了可以做注册中心,同样可以做配置管理来使用。1.1.统一配置管理当微服务部署的实例越来越多,达到数十、数百时,逐个修改微服务配置就会让人抓狂,而且很容易出错。我们需要一种统一配置管理方案,可以集中管理所有实例的配置。Nacos一方面可以将配置集中管理,另一方可以在配置变更时,及时通知微服务,实现配置的热更新。1.1.1.
### Kylin 使用 Spark 集群 #### 导读 本文将介绍如何使用 Kylin 在 Spark 集群中进行数据处理和分析。我们将首先介绍 Kylin 和 Spark 的概念,然后详细讲解如何在 Spark 集群上安装和配置 Kylin,最后给出一些代码示例来说明如何使用 Kylin 进行数据处理和分析。 #### 1. Kylin 简介 Apache Kylin 是一个开源的分
原创 2023-08-23 07:05:48
98阅读
# 在 SSH 中使用 Redis 集群 Redis 是一个高性能的键值数据库,广泛应用于缓存、消息队列和实时数据处理等领域。随着数据量的增大,仅依靠单个 Redis 实例可能无法满足需求,这时便可以使用 Redis 集群来实现水平扩展以提高性能和可用性。在这篇文章中,我们将介绍如何在 SSH 中使用 Redis 集群,并提供一些代码示例。 ## 什么是 Redis 集群? Redis 集群
原创 9月前
45阅读
Hive概述、内部表、外部表、分区表的操作一、Hive概述   Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。   Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取、转化、加载(ETL Extract-Transform-Loa
Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Join,常见的3种实现。 SparkSQL的3种Join实现大家知道,在数据库的常见模型中(比如星型模型或者雪花
转载 2023-08-11 13:40:30
67阅读
方式1:1. 明确 Spark中Job 与 Streaming中 Job 的区别1.1 Spark Core一个 RDD DAG Graph 可以生成一个或多个 Job(Action操作)一个Job可以认为就是会最终输出一个结果RDD的一条由RDD组织而成的计算Job在spark里应用里是一个被调度的单位1.2 Streaming一个 batch 的数据对应一个 DStreamGraph而一个 D
  Spark Streaming重点知识//************* Spark Streaming是什么 1、SPark Streaming是Spark中一个组件,基于Spark Core进行构建,用于对流式进行处理,类似于Storm。 2、Spark Streaming能够和Spark Core、Spark SQL来进行混合编程。 3、Spark Streaming我们
  • 1
  • 2
  • 3
  • 4
  • 5