环境要求:centos7:CentOS Linux release 7.3.1611版本:hadoop-2.7.4,hive-2.1.1,hbase-1.2.6,scala-2.11.12 ,spark-2.2.1hadoop服务部署:参考地址:一、 配置hosts文件  先简单说明下配置hosts文件的作用,它主要用于确定每个结点的IP地址,方便后续master结点能快速查到并访问各个结点。在上            
                
         
            
            
            
            目录一、概述二、开始 Spark on k8s 运行原理三、Spark 运行模式1)cluster 模式2)client 模式四、开始Spark on k8s 编排1)下载Spark包2)构建镜像3)配置 spark 用户权限4)提交 Spark 任务(cluster 模式)5)配置spark历史服务器6)提交 Spark 任务(client 模式)1、配置 spark 用户权限2、准备独立Pod            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-18 22:31:13
                            
                                206阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            之前学习spark,最近需要在k8s集群上提交spark应用,学习过程中,记录了以下几点1.k8s集群架构Master Nodek8s 集群控制节点,对集群进行调度管理,接受集群外用户去集群操作请求;Master Node 由 API Server、Scheduler、ClusterState Store(ETCD 数据库)和Controller MangerServer 所组成API Serve            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-08 12:38:47
                            
                                293阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             文章目录部署环境部署配置先决条件角色解释部署步骤一、安装软件二、配置Keepalived2.1 配置Keepalived的Master的配置文件2.2 配置Keepalived的BACKUP的配置文件2.3 配置用于Keepalived的Kubernetes的健康检查配置文件(主备keepalived配置一样的脚本)2.4 启动keepalived 并检查三、配置HAProxy3.1 配置HAP            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-23 09:46:44
                            
                                99阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 使用 Spark 引擎在 Kubernetes 上实现 Hive 的指南
在大数据处理领域,Apache Hive 是一个广泛使用的数据仓库工具,而 Apache Spark 是一个强大的数据处理引擎。如果你希望将 Hive 与 Spark 引擎在 Kubernetes (K8s) 环境中结合使用,可以按照下面的流程来完成。
## 整体流程概述
下面是实现 “Hive on K8s 使用            
                
         
            
            
            
            大数据之spark on k8sspark on k8s架构解析1.k8s的优点k8s是一个开源的容器集群管理系统,可以实现容器集群的自动化部署、自动扩缩容、维护等功能。1、故障迁移2、资源调度3、资源隔离4、负载均衡5、跨平台部署2.k8s集群架构Master Nodek8s 集群控制节点,对集群进行调度管理,接受集群外用户去集群操作请求;Master Node 由 API Server、Sch            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-02 10:37:12
                            
                                278阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Spark部署K8S--standalone镜像准备使用上个博客 (Spark部署到K8S集群--Kubernetes Native)中构建的spark镜像,注意,镜像是重中之重。由于公司内网无法访问github, 镜像无法下载,需要自己构建。部署配置文件编制Namespace为了方便管理,新建一个namespace, namespace-spark-cluster.yamapiVers            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-04 09:38:11
                            
                                298阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Spark在k8s中的数据本地性在k8s中,天然存在着数据隔离和网络隔离,这就造成了Spark在k8s中运行时,很难达到较好的数据本地性级别。常规意义上讲Spark的数据本地性,大部分是指的是Spark在读取数据时,第一个stage的数据本地性。这是由于Spark在读取数据时,首先会先去task执行位置寻找数据是否有缓存,其次会寻找数据是否存在优选位置【检查checkpointRDD的数据位置,主            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-19 12:02:00
                            
                                114阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前言    Apache Spark是目前最为流行的大数据计算框架,与Hadoop相比,它是替换MapReduce组件的不二选择,越来越多的企业正在从传统的MapReduce作业调度迁移到Spark上来,Spark的生态圈支持者越来越多,当然它出众的内部API设计,让它也非常容易和现有既成事实的Hadoop组件(YARN/HDFS)集成。    容器技术的兴            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-01 10:23:29
                            
                                123阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            本文介绍Spark On K8s的环境准备工作,并通过一个示例来演示如何提交Spark程序到K8s运行。一、环境准备 首先,本门课程使用的Spark版本为v3.2.3版本,Spark 3.x是当前主流在用的版本,它相比Spark 2.x增加了很多新功能新特性,性能也有大幅的提升。    其次,在实际应用中,为了规范Spark程序在K8s上的运行部署,通常将Spark的程序调度到指定的Namespa            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-17 19:31:15
                            
                                416阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            基于Kubernetes的Spark集群部署和测试一、构建Docker镜像二、在Kubernetes上创建Spark集群三、测试Spark的一个简单应用   Spark是新一代分布式内存计算框架,Apache开源的顶级项目。相比于Hadoop Map-Reduce计算框架,Spark将中间计算结果保留在内存中,速度提升10~100倍;同时它还提供更丰富的算子,采用弹性分布式数据集(RDD)实现迭            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-19 21:28:55
                            
                                234阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录1 Overview2 Submission 的 k8s client3 Driver 的 k8s client4 Summary 1 Overview目前在我们的应用下,会有这样的一种特殊的场景。比如说 Driver 创建在 A 集群,但是需要 Driver 将 Executor Pod 创建到 B 集群去。所以我们这里会有两个集群的 master url,分别是集群 A 和集群 B。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-01 20:44:34
                            
                                173阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 实现"spark on k8s"的步骤及代码示例
## 1. 步骤概览
| 步骤 | 描述 |
| --- | --- |
| 1 | 部署Kubernetes集群 |
| 2 | 部署Hadoop集群 |
| 3 | 部署Spark集群 |
| 4 | 配置Spark运行在Kubernetes上 |
## 2. 具体步骤与代码示例
### 步骤一:部署Kubernetes集群
首先            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-03-18 11:54:30
                            
                                155阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # 实现k8s Spark的流程
## 1. 概述
在开始实现k8s Spark之前,首先需要了解k8s和Spark的基本概念和使用方法。k8s(Kubernetes)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。Spark是一个开源的集群计算框架,用于大规模数据处理和分析。
实现k8s Spark的步骤如下:
| 步骤 | 描述 |
| ---- | ---- |
|            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-09-27 08:34:28
                            
                                97阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Spark Streaming原理1、Spark Streaming原理Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。2、Spark Streaming计算流程Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Core,也就是把            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-01 11:25:27
                            
                                97阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            **K8S Spark 教程**
作为一名经验丰富的开发者,在使用Kubernetes(K8S)和Spark之间进行集成是一项非常值得探索的工作。Kubernetes提供了高可用性、易扩展性和自动化的容器化部署解决方案,而Spark则是一个快速、通用的集群计算系统。将二者结合起来,可以充分利用Kubernetes的弹性和资源管理功能,以及Spark的并行计算能力,实现更高效的大数据处理。
在本            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-03-06 09:49:27
                            
                                34阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # Spark on Kubernetes: A Beginner's Guide
## Introduction
Apache Spark is a popular open-source distributed computing system used for big data processing and analytics. Kubernetes, on the other hand,            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-08-19 07:24:38
                            
                                81阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Hive on Kubernetes(简称Hive on K8S)是指在Kubernetes集群上部署和运行Apache Hive服务,将Hive作为容器运行在Kubernetes中,可以更好地利用资源、提高容错性和灵活性。
在本文中,我们将介绍如何在Kubernetes上部署Hive,让你能够轻松地在K8S集群中使用Hive进行大数据处理。
### 部署Hive on Kubernetes            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-03-14 11:15:47
                            
                                143阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前置:集群规划机器信息Hostnamek8s-masterk8s-node1k8s-node2内网IP192.168.113.131192.168.113.132192.168.113.133spark on k8s 的工作原理 spark-submit 可以直接用于将 Spark 应用程序提交到 Kubernete            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-21 06:22:12
                            
                                162阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Rancher文档 : Rancher Docs: Overview.rancher版本的兼容性 : Support matrix | SUSE.生成一个自签名证书 : RKE+helm+Rancher(2.5.9)环境搭建 - 追光D影子 由于项目的需要,本文搭建了一个在硬件设备上amd 64 和arm 64架构不同架构的k8s集群。在下面的目录中,第2步搭建基本系            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-17 14:50:33
                            
                                76阅读
                            
                                                                             
                 
                
                                
                    