转自doublexi: Spark其实是Hadoop生态圈的一部分,需要用到Hadoop的HDFS、YARN等组件。为了方便我们的使用,Spark官方已经为我们将Hadoop与scala组件集成到spark里的安装包,解压开箱即可使用,给我们提供了很大的方便。如果我们只是本地学习的spark,又不想搭建复杂的hadoop集群,就可以使用该安装包。spark-3.2.0-bin-hadoop3.2-
mv /home/abc /home/abcd(修改目录名)(1)vi /usr/local/hadoop/etc/hadoop/core-site.xml<configuration>        <property>           
原创 2016-10-29 10:58:43
795阅读
配置SSH# Masterssh-keygen -t rsacat /home/kali/.ssh/id_rsa.pub# Workermkdir ~/.sshchmod 700 ~/.sshtouch ~/.ssh/authorized
原创 2022-07-08 12:26:12
164阅读
03 在集群上运行Spark3.1 Spark运行架构3.1.1 驱动器节点3.1.2 执行器节点3.1.3 集群管理器3.1.4 启动Spark程序3.1.5 小结3.2 使用spark-submit部署应用3.3 打包代码与依赖3.3.1 使用Maven构建的用JAVA编写的Spark应用3.3.2 使用sbt构建的用Scala编写的Spark应用3.3.2 依赖冲突3.4 Spark应用内
重要参考文献:http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/准备工作操作系统:Ubuntu-14.04.1-desktop-amd64Hadoop 版本:hadoop-2.7.2:包含文件管理系统 HDFS 和任务调度系统 YARNSpark 版本:spark-1.6.1-bin-without-hadoop存放路径说
转载 2023-07-27 08:45:51
123阅读
hadoop、zookeeper、spark集群配置:1. 软件版本:2. 配置环境变量: 我环境变量放在自定义文件中/etc/profile.d/my_env_sh中,配置有jdk、hadoop、spark、scala、zookeeper3. hadoop配置: 我的hadoop版本是3.1.4 在目录/opt/module/hadoop-3.1.4/etc/hadoop下,我配置了core-s
hive集群配置 hive on spark标签(空格分隔): hive##HiveServer2的高可用-HA配置HiveServer2的高可用-HA配置##hive on spark基于Spark 2.0.0搭建Hive on Spark环境官方文档###编译sparkhive on spark要求spark编译时不集成hive,编辑命令如下,需要安装maven,命令中hadoop版本根据实际
转载 2023-07-04 14:12:31
209阅读
在前面的Spark发展历程和基本概念中介绍了Spark的一些基本概念,熟悉了这些基本概念对于集群的搭建是很有必要的。我们可以了解到每个参数配置的作用是什么。这里将详细介绍Spark集群搭建以及xml参数配置Spark集群搭建分为分布式与伪分布式,分布式主要是与hadoop Yarn集群配合使用,伪分布式主要是单独使用作为测试。Spark完全分布式搭建由于Hadoop和Spark集群占用的内存较
hadoop+spark集群搭建  本次实验环境:两台hadoop+两台spark组成集群  环境准备:        1. 两个主机实现ssh无密钥认证,包括本机与本机的免密钥认证:                 ssh-keygren :生成
转载 2023-07-30 13:09:32
71阅读
刚接触Hadoop三天,今天终于成功用三台机跑起测试,记录一下。 一、准备(所有节点都需要做):系统:Ubuntu12.04java版本:JDK1.7(安装步骤看上一篇文章)SSH(ubuntu自带)确保三台机在同一个ip段,最好设置为静态IP,重启后就不用纠结IP变化了机器分配:一台master,两台slave 我的主机信息是(hosts文件添加如下信息):192.168.8
环境: linux spark1.6.0 hadoop2.2.0 一.安装scala(每台机器) 1.下载scala-2.11.0.tgz 放在目录: /opt下,tar -zxvf scala-2.11.0.tgz 2.在hadoop用户下 vim /etc/profile 3.在profile文
原创 2021-09-04 16:08:31
477阅读
1、需要修改的配置文件项 redis.conf(1、端口prot:6380 2、pid:pidfile /var/run/redis_6380.pid 3、logfile "6380.log" 4、dbfilename dump6380.rdb)2、启动 redis-server  配置文件  info replication3、命令 人老大 从机中配置 slaveof hos
转载 2023-06-06 09:42:35
211阅读
Spark集群硬件配置推荐计算与存储:大多数Spark作业可能需要从外部存储系统(例如 :Cassandra
原创 2019-07-22 17:07:49
106阅读
Kubernetes 作为一个广受欢迎的开源容器协调系统, 是Google于2014年酝酿的项目。从Google趋势上看到,Kubernetes自2014年以来热度一路飙升,短短几年时间就已超越了大数据分析领域的长老Hadoop。本公众号之前的文章(Kubernetes核心组件解析)也对Kubernetes的几个组件做了一些详细的剖析,本文就带领大家一起看看Kubernetes和Spark碰到一起
Spark集群硬件配置推荐计算与存储:大多数Spark作业可能需要从外部存储系统(例如:Cassandra、Hadoop文件系统或HBase)读取输入数据,所以要让Spark计算引擎尽可能靠近数据持久层。如果使用HDFS作为数据存储集群,可以在相同的集群上部署Spark集群,并配置Spark和Hadoop的内存和CPU使用率以避免干扰。我们的生产存储使用的是Cassandra集群,sparkmas
原创 2019-07-22 17:07:49
2023阅读
# 如何配置Spark集群的host ## 1. 概述 在配置Spark集群时,必须配置host以确保各个节点能够相互通信。本文将指导你如何实现这一步骤。 ## 2. 配置流程 下面是配置Spark集群host的步骤: ```mermaid erDiagram 确定集群中每个节点的IP地址 --> 添加IP地址到hosts文件 ``` ## 3. 具体步骤 ### 步骤1:确
原创 1月前
35阅读
文章目录1. 安装前说明2. 配置spark1. 上传解压2. 配置环境变量3.修改spark配置1. 修改 spark-env.sh 文件2. 在spark-env.sh文件中添加如下内容3. 修改slaves 文件4. 在slaves 文件中添加要工作的节点(IP地址)5. 分发到其它节点(hadoop01执行)启动 和 关闭 spark 集群查看web界面4. 测试1. 创建word
今天安装了下hadoop,感觉网上的教程还有几点要注意的地方,我把它总结在写一下。一、准备工作准备3台centOS 7虚拟机的安装我这边就不写了,给两个教程链接把: centOS7安装教程:https://www.centos.net.cn/archive/1518 centOS7下载: (Tip:安装完一个虚拟机之后,剩下的两个可以进行克隆,右键就行)关闭防火墙:       systemctl
最近需要用到大数据的一些相关技术,于是实验了一下spark和hadoop的集群环境搭建。实验包括三台虚拟机,linux-1、linux-2、linux-3,spark是一个master两个worker, hadoop是一个主NameNode、两个DataNode,其中一个兼做副NameNode。软件方面,spark用的1.5.2版本,最新的1.6.1版本遇
转载 2023-08-22 09:14:23
158阅读
文章目录集群配置1. 集群部署规划2. 配置文件说明3. 配置集群群起集群1. 配置workers2. 启动集群3. 集群基本测试 集群配置1. 集群部署规划tips: NameNode和SecondaryNameNode不要安装在同一台服务器; ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上;hadoop102hadoo
转载 2023-09-14 08:23:29
61阅读
  • 1
  • 2
  • 3
  • 4
  • 5