前期准备链接Cloudera Manager下载CDH下载目录部署环境准备安装JDK时间同步免密登陆mysql安装安装搭建1 . 关闭防火墙service iptables stop(所有节点) SELINUX关闭(所有节点)vi /etc/selinux/config(SELINUX=disabled)2 . 启动mysql2.1 service mysqld start
2.2 mysql -            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-18 22:27:04
                            
                                54阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、基础环境搭建1. 下载包:     https://archive.cloudera.com/cdh6/6.2.1/parcels/     https://archive.cloudera.com/cm6/6.2.1/redhat7/yum/RPMS/x86_64/      2. 安装依赖包 &nbs            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-18 13:25:32
                            
                                138阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Cloudera5.14配置准备工作软件下载软件安装 
    JDK安装所有节点安装环境变量配置sudo vim /etc/profile
export JAVA_HOME=/usr/java/default
export PATH=$JAVA_HOME/bin:$PATH使用root用户echo "JAVA_HOME=/usr/java/default" >> /etc/envir            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-01 09:48:03
                            
                                141阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            集群规划1.CDH简介Cloudera’s Distribution, including Apache Hadoop 基于Web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop,简化了大数据平台的安装、使用难度。2.硬件配置*-u root -p 123456IPHostNameOSCoresMemoryDi            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-09 06:27:36
                            
                                100阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录1、概述1.1、特点1.2、架构2、CDH添加impala2.1、配置3、impala客户端3.1、impala-shell3.2、Hue3.3、Python连接Impala4、命令5、查询5.1、时间函数6、与HIVE的区别7、Appendix 1、概述官方图标Cloudera Impala是一款 时髦的、开源的、大规模并行处理的 SQL引擎 为Hadoop提供 低延时、高并发的 查询            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-04 11:06:20
                            
                                316阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            采用CDH Tarbal方式安装Hadoop集群。
 
 
1. 环境组件版本
 
 
        组件名称       
        组件版本       
        用途       
jdk 1.8
jdk-8u191-linux-x64
oracle jdk
mysql
mysql-5.7.13-linux-glibc2.5-x86_64
存放cloudera manager            
                
         
            
            
            
            在装spark之前先装Scala  Scala 的安装在hadoop安装配置中已经介绍了1、下载spark安装包 下载地址如下http://spark.apache.org/downloads.html 我选择的是 spark-1.4.1-bin-hadoop2.6.tgz  放在/root/software解压 tar zxvf  sp            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2015-08-14 10:05:27
                            
                                579阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            准备            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-06-19 11:18:00
                            
                                252阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            在现代大数据处理领域,Apache Spark 凭借其强大的分布式计算能力已成为数据分析和处理的重要工具。本文将详细介绍在不同环境下安装和配置 Spark 的步骤,并提供一些优化和排错的技巧,让你在使用 Spark 时能够游刃有余。
## 环境准备
首先,我们需要明确 Spark 的软硬件要求,确保环境的配置适宜。
### 软硬件要求
| 组件       | 版本           |            
                
         
            
            
            
            # Spark安装配置指南
## 1. 概述
在本文中,我们将会详细介绍如何安装和配置Spark。Spark是一个强大的分布式计算框架,用于处理大规模数据集的计算任务。它提供了许多高级功能,如内存计算、分布式数据处理和机器学习库等。
## 2. 安装和配置流程
下面是安装和配置Spark的步骤概要,我们将在后续的章节中逐步展开解释。
| 步骤 | 说明 |
|------|-----|
|            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-08-24 05:27:40
                            
                                120阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录一、基础软件版本信息:1、CDH对CentOS的版本要求:2、CDH对数据库版本的要求:3、CDH对jdk版本的要求:4、CDH对浏览器的要求:5、CDH对网络配置的要求:6、CDH对安全传输协议(TLS)的要求:7、CDH相关软件下载:(1)Cloudera Manager(CM)下载地址:(2)CDH安装包下载地址:(3)本次采用的CM和CDH版本如下:二、CDH基本优势:三、CDH集群安            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-21 18:55:38
                            
                                0阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            简介:在我的CDH5.15.0集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。我尝试了安装spark2.3版本,大告成功,这里做一下安装spark2.3版本的步骤记录。一.  安装准备所需软件②parc            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-04 15:15:53
                            
                                60阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1. CDH官网Spark2的安装教程网址https://www.cloudera.com/documentation/spark2/latest/topics/spark2_installing.html2. 下载对应的Spark2版本1.查看CDH和Spark的对应版本列表(点击上述图片2中的地址即可跳转),在这里选择安装Spark的2.2和cloudera1版本,请注意,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-31 16:11:39
                            
                                86阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            ①csd包:http://archive.cloudera.com/spark2/csd/    下载SPARK2_ON_YARN-2.2.0.cloudera1.jar②parcel包:http://archive.cloudera.com/spark2/parcels/2.2.0.cloudera1/ 下载SPARK2-2.2.0.cloudera1-1.cdh5            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-26 14:26:37
                            
                                108阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            简介:在我的CDH5.13集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。这里做一下安装spark2.3版本的步骤记录。   
 一. 安装准备csd包:http://archive.cloudera.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-08 16:41:16
                            
                                74阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            hive集群配置 hive on spark标签(空格分隔): hive##HiveServer2的高可用-HA配置HiveServer2的高可用-HA配置##hive on spark基于Spark 2.0.0搭建Hive on Spark环境官方文档###编译sparkhive on spark要求spark编译时不集成hive,编辑命令如下,需要安装maven,命令中hadoop版本根据实际            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-04 14:12:31
                            
                                226阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             Linux安装ftp组件1 安装vsftpd组件安装完后,有/etc/vsftpd/vsftpd.conf 文件,是vsftp的配置文件。[root@bogon ~]# yum -y install vsftpd 2 添加一个ftp用户此用户就是用来登录ftp服务器用的。[root@bogon&n            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-08 20:57:54
                            
                                28阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            集群一共有3台机器,集群使用hadoop用户运行,3台机器如下:1DEV-HADOOP-01192.168.9.1102DEV-HADOOP-02192.168.9.1113DEV-HADOOP-03192.168.9.112配置集群间hadoop用户的无密码登录配置每台机器的/etc/hosts安装JDK1.8.0_60安装scala下载scala-2.11.7.tar把scala-2.11.7            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2016-06-08 16:59:26
                            
                                802阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1、说明这篇文章是在xxx基础上进行部署的,需要hadoop的相关配置和依赖等等,Spark on Yarn的模式,Spark安装配置好即可,在Yarn集群的所有节点安装并同步配置,在无需启动服务,没有master、slave之分,Spark提交任务给Yarn,由ResourceManager做任务调度。2、安装yum -y install spark-core&nb            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2017-05-12 08:36:43
                            
                                10000+阅读
                            
                                                        
                                点赞
                            
                                                                                    
                                1评论
                            
                                                 
                 
                
                             
         
            
            
            
            # 如何实现 Spark on YARN 的安装配置
Apache Spark 是一个强大的数据处理框架,而 YARN(Yet Another Resource Negotiator)是一种资源管理器。将 Spark 与 YARN 集成,我们可以非常高效地处理大规模数据。在本文中,我们将详细说明如何在 Hadoop 上安装和配置 Spark 以便于使用 YARN 作为计算资源管理器。
## 安            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-08-26 03:28:30
                            
                                106阅读