最近开始接触Spark,遇到了很多坑和困惑的地方,打算把它们写成一个文章系列,避免自己以后遗忘,更希望能帮助更多想学习Spark的人。本文所用的措辞若不另说明,则是根据自己的理解原创所得,具有一定的主观性,如果有的地方理解的不对还请各位不吝指出,在此感谢!一、Hadoop MapReduce和Spark简介、二者的区别与联系Hadoop MapReduce是一个分布式计算框架,稳定性好,普适性高,
转载 2024-10-11 19:44:12
74阅读
一、我的软件环境 二、Spark集群拓扑2.1、集群规模192.168.128.10 master 1.5G ~2G内存、20G硬盘、NAT、1~2核 ; 192.168.128.11 node1 1G内存、20G硬盘、NAT、1核 192.168.128.12 node2 1G内存、20G硬盘、NAT、1核 192.168.128.13 node3 1G内
转载 2023-11-02 12:40:49
139阅读
本文是阅读《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》过程中,抽了局部一些关注点翻译出来的文章,没有将全文都翻译。希望这些碎片化甚至不通顺的记录,可以帮助读者取代阅读原论文。 论文地址http://www.cs.berkeley.edu/~matei/p
转载 2024-07-08 20:02:16
31阅读
# Spark 3 Docker 集群简介 Apache Spark 是一个强大的分布式计算框架,广泛应用于大数据处理和分析。使用 Docker 构建 Spark 集群,可以简化环境配置及管理,提升开发效率。本文将介绍如何搭建 Spark 3 的 Docker 集群,并提供示例代码。 ## Docker 和 Spark 的优势 Docker 是一种轻量级的容器技术,能将应用及其依赖打包在一起
原创 7月前
39阅读
视频链接一.:K8s 概念 & 架构组件(1~4) 1:课程介绍: 2:K8s 概述 : 1)K8s 概述:     -1:K8s 由 Google 在2014年,开源的容器化集群管理系统。     -2:使用 K8s,进行容器化应用部署。     -3:使用 K8s 利于应用拓展。     -4:K8s 目标实施,让部署容器化应用,更加简洁和高效。 3:K8s 特性(优势): 1)概述:
spark集群安装部署(基于Standalone模式)〇、部署环境Linux操作系统:Centos_6.7版本Hadoop:2.7.4版本(安装参考链接: )JDK:1.8版本Spark:3.2.3版本一、下载Spark安装包由于官网的下载速度太慢,因而推荐清华镜像下载,链接如下:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.2
转载 2024-02-26 23:30:27
65阅读
一、登录Cloudera Manager (http://192.168.201.128:7180/cmf/login)时,无法访问web页面针对此问题网上有较多的解决方案(e.g. ), 如果还不能解决你的问题,请看下面的解决方案。登录MySQL数据库(或利用Navicat),会发现有一个mysql数据库(下图所示),在mysql数据库中有一个user表,将User="root"的两条记录进行删
概述Spark Streaming是Spark中用于实时数据处理的模块Spark Streaming是Spark Core API的扩展,它支持弹性的,高吞吐的,容错的实时数据流的处理。数据可从多种数据源获取,例如Kafka,Flume,Kinesis及TCP Socket。也可以通过例如map,reduce,join,window等的高阶函数组成的复杂算法处理。最终将处理后的数据输出到文件系统,
# Spark3高可用集群搭建教程 ## 简介 在本教程中,我将教会你如何搭建一个可靠的Spark3高可用集群Spark是一个强大的分布式计算框架,能够处理大规模数据,支持快速的数据处理和分析。通过搭建高可用集群,我们可以确保在节点故障时仍然能够保持系统的稳定运行。 ## 整体流程 下表展示了搭建Spark3高可用集群的整体流程: | 步骤 | 描述 | | ---- | ---- |
原创 2023-10-22 13:07:38
130阅读
Hive映射Delta表以及Spark3-sql操作DL表我们使用Spark操作DL表很方便,但是想更方便的用Hive去查看DL表,怎么做呢?经过测试趟坑,总结以下文章。 以下文章分两部分,测试了Spark-sql对DL表的操作。还有Hive映射DL表。 各位大牛转载的请备注我的链接地址一、集群环境组件版本HDFS2.8.4Hive2.3.2Spark3.0.0Scala2.11.10DeltaL
转载 2023-08-28 13:13:54
0阅读
# 如何搭建CentOS 7上的Spark 3集群 ## 1. 整体流程 首先我们需要搭建一个CentOS 7环境,然后安装Spark 3,并配置集群。 ### 流程表格 ```mermaid erDiagram 环境搭建 --> 安装Spark 安装Spark --> 配置集群 ``` ## 2. 具体步骤 ### 2.1 环境搭建 首先,我们需要搭建CentOS
原创 2024-02-21 07:13:04
92阅读
Spark 3 是 Apache Spark 的最新主要版本,带来了许多令人兴奋的新功能和改进。下面我将以一篇博文的形式,详细记录如何处理和解决 Spark 3 相关的问题,内容涵盖版本对比、迁移指南、兼容性处理、实战案例、排错指南以及生态扩展。 ## 版本对比 在 Spark 3 中,有几个显著的特性差异值得关注,包括更好的性能、对新的数据源支持、以及对机器学习库的更新。这些新特性使 Spa
原创 6月前
71阅读
一、hadoop环境搭建1、环境准备参考文档1.1软件准备操作系统:centos7 hadoop版本:3.3.1 java版本:1.81.2集群规划主节点: hadoop0 192.168.15.10 从节点1: hadoop1 192.168.15.11 从节点2: hadoop2 192.168.15.121.3配置主机名与IP映射(3个节点都配置)设置主机名:vi /etc/hostn
转载 2023-09-20 07:01:21
73阅读
# Spark 2.4.0集群科普 ## 概述 Apache Spark是一个用于大数据处理和分析的开源框架。它提供了一个高级别的API,可以在分布式环境中处理大规模数据Spark具有高性能、弹性、易用性和广泛的生态系统支持。本文将深入介绍Spark 2.4.0集群的概念、架构和使用方法,并提供实例代码进行演示。 ## Spark集群架构 一个Spark集群由多个节点组成,其中包含一个
原创 2023-09-12 07:14:55
106阅读
背景spark任务中最常见的耗时原因就是数据分布不均匀,从而导致有些task运行时间很长,长尾效应导致的整个job运行耗时很长数据倾斜调优首先我们要定位数据倾斜,我们可以通过在spark ui界面中查看某个stage下的task的耗时,如果发现某些task耗时很长,对应要处理的数据很多,证明有数据倾斜的问题,那么我们怎么处理数据倾斜呢, 1.增加shuffle操作的并行度,也就是设置spark.s
# **PySpark Spark3 简介和使用指南** ![image]( ## 引言 Apache Spark是一个开源的通用大数据处理框架,它提供了高效的数据处理和分析功能。PySpark是Spark的Python API,允许Python开发人员使用Spark的功能和特性。在Spark 3版本中,有一些重要的新功能和改进被引入,本文将介绍PySpark Spark3的新功能,并提供一
原创 2023-10-22 06:36:27
74阅读
# 如何实现spark3 skew ## 简介 在spark中,数据倾斜(skew)是一个常见的问题,它会导致部分任务的处理速度明显慢于其他任务。为了解决这个问题,我们可以使用spark3中提供的一些优化技术来处理数据倾斜。 ## 流程 ```mermaid flowchart TD; A(准备数据)-->B(检测数据倾斜); B-->C(处理数据倾斜); C-->D(
原创 2024-02-25 07:41:46
42阅读
1.选取三台服务器(CentOS系统64位)  114.55.246.88 主节点  114.55.246.77 从节点  114.55.246.93 从节点     之后的操作如果是用普通用户操作的话也必须知道root用户的密码,因为有些操作是得用root用户操作。如果是用root用户操作的话就不存在以上问题。  我是用root用户操作
转载 2024-10-31 14:53:39
25阅读
# Spark3 教程指南 作为一名刚入行的小白,学习如何使用 Spark 3 可能会让你感到无从下手。别担心!本文将为你提供一个详细的流程和逐步指导,帮助你从零开始掌握 Spark 3。 ## 整体流程 以下是你需要遵循的步骤,以便顺利地进行 Spark 3 的学习和开发。 | 步骤 | 描述 | | ------ | --------------
原创 9月前
170阅读
# Apache Spark3与Zookeeper ## 介绍 Apache Spark是一个快速通用的大数据处理引擎,它支持分布式数据处理。Zookeeper是一个高性能的分布式协调服务,在大规模分布式系统中被广泛应用。本文将介绍如何在Spark3中使用Zookeeper作为协调服务。 ## Spark3与Zookeeper的集成 Spark3可以使用Zookeeper来管理集群中的资源
原创 2024-04-29 04:54:51
64阅读
  • 1
  • 2
  • 3
  • 4
  • 5