一、软件准备下载Hadoop  http://apache.fayea.com/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz下载JDK http://download.oracle.com/otn-pub/java/jdk/8u66-b17/jdk-8u66-linux-x64.tar.gz二、服务器准备(三台服务器,最好
    生命不息,折腾不止,趁着最近工作不是太忙继续我的编程之路的学习。    年龄大了,很多东西做过一遍就容易忘记,所谓“好记性不如烂笔头”,对于知识还是记录下来比较容易保存,既是给自己留个笔记,也可以分享给其他有需要的人。废话少说,以下记录我的spark学习之旅:    一、准备工作    1.准备三台服务器.一台作为master,另外两台作为slave    我这里准备了三台服务器,对应的I
HDFS(分布式文件系统)1 HDFS架构HDFS (Hadoop Distributed File System) Hadoop分布式文件系统。 作用:解决海量数据存储问题—分布式文件系统(多台计算机存储) 突破单体服务器的存储能力。在学习HDFS的使用前,我们先来了解下HDFS的架构和相关的概念。无论使用何种技术,大规模数据存储都要解决以下几个核心问题:数据存储容量的问题 :大数据要解决的是数
转载 2023-09-30 20:56:15
102阅读
 目录一,下载zookeeper 1,从官网下载2,从百度网盘下载二,安装zookeeper1, 解压 2,创建数据目录 3,修改配置文件4,创建服务器id文件 5,复制zookeeper文件到其他节点6,启动zookeeper7,查看启动状态8,测试客户端连接一般来说,我们是先安装好了Hadoop再去安装zookeeper的如果就想要先
## Spark是否需要Hadoop? Apache Spark是一个快速、通用的大数据处理引擎,它可以独立运行,也可以与Hadoop集成使用。但是,并不是必须要使用Hadoop才能使用Spark。在实际应用中,Spark可以直接读取本地文件系统或其他分布式文件系统,而不一定非要依赖HDFS。Spark与Hadoop的结合是为了利用Hadoop生态系统的各种组件和资源管理框架。 ### 实现“
原创 2024-04-29 11:39:33
376阅读
# Spark需要Hadoop? ## 简介 在大数据处理领域,Hadoop和Spark是两个非常流行的框架。Spark是一个快速、通用的大数据处理引擎,而Hadoop是一个用于分布式存储和处理大规模数据的框架。在很多情况下,Spark需要依赖Hadoop来运行。本文将介绍Spark需要Hadoop的情况以及如何配置环境以实现这个目标。 ## 流程概述 下面是实现“Spark需要Hadoop
原创 2024-05-09 05:03:35
24阅读
文章目录1:简介1.1:CH是什么?1.2:CH优缺点1.2.1:优势1.2.2:缺点1.3:架构设计2:CH接口3:CH引擎1:数据库引擎3.1.1:mysql引擎2:表引擎3.2.1:MergeTree系列引擎1:MergeTree2:ReplacingMergeTree副本引擎3.2.2:集成引擎1:mysql引擎2:Hive2:kafka3.2.3:特殊引擎1:Distributed分布
在Kubernetes中,部署Hadoop集群时通常需要使用ZooKeeper来实现协调和管理,因为Hadoop本身并不是一个分布式系统,而ZooKeeper是一个高可用性的分布式协调服务,可以帮助Hadoop集群进行领导者选举、配置管理等操作。下面我将向你介绍如何在Kubernetes中部署一个Hadoop集群并使用ZooKeeper。 首先,让我们来看一下整个流程及所需步骤: | 步骤
原创 2024-05-07 10:55:55
115阅读
# Hadoop 是否需要收费? Hadoop 是一个开源的分布式计算平台,广泛应用于处理和存储大规模数据。很多新手在进入大数据行业时,常常会问:“Hadoop 需要收费?”实际上,Hadoop 本身是免费的,但在使用过程中可能会涉及一些成本。本文将为您详细讲解这一过程,并帮助您了解使用 Hadoop 的相关费用。 ## 流程概述 以下是了解 Hadoop 是否收费的步骤: | 步骤 |
原创 10月前
138阅读
## Hadoop 需要 Zookeeper ? 在大数据技术的世界中,Apache Hadoop 是一个非常重要的组成部分。它提供了分布式存储和处理大规模数据集的能力。在使用 Hadoop 时,很多用户会问:Hadoop 需要 Zookeeper ?在这篇文章中,我们将探讨这个问题,并提供一些代码示例来帮助你理解。 ### 什么是 Zookeeper? Apache Zookeeper
原创 7月前
68阅读
1、安装 Zookeeper 集群具体安装步骤参考之前的文档 2、安装 hadoop 集群具体安装步骤参考之前的文档 这只需要根据以上安装好的集群进行修改配置3、修改hadoop 集群修改core-site.xmlvi core-site.xml<configuration> <property> <name>fs.defaultFS</name>
转载 2024-08-02 13:00:37
46阅读
          工作中需要使用Hadoop环境,在三节点上搭建了一套Hadoop环境,顺便做下笔记。因为机器内存较低,没有使用CDH,为保证和线上环境一致,使用Hadoop等版本和CDH5.10的一致。 一、环境及软件准备设置ip地址,hosts,ssh免密登录,scp,sudo,关闭防火墙,yum,ntp时间同步 略。Java安装 略
转载 2023-12-27 12:57:13
60阅读
搭建HDFS高可用在搭建hdfs高可用过程中,以node1、node2和node3来搭建高可用环境,每个节点所分配的作用如表4.3所示。   由表4.3中可以看出,NameNode(NN)分别配置在node1和node2上,ZKFC配置在node1和node3上,JournalNode(JN)配置在node1、node2和node3上,ZooKeeper(ZK)配置在
转载 2023-07-12 11:41:14
413阅读
目录介绍Hadoop的先决条件安装VMWare Player和Ubuntu操作系统安装Java 8 JDK设置JAVA_HOME变量安装SSH下载Hadoop安装Hadoop配置Hadoop结论介绍在我之前的文章中,我试图对大数据和Hadoop进行概述。在本文中,我将向您展示如何在Ubuntu操作系统上安装Hadoop(单节点集群)。Windows用户也可以按照本文在虚拟机中安装Ubuntu 获得
这里写自定义目录标题一. 原理分析二. 搭建HDFS高可用集群1. 环境准备2. 安装zookeeper3. zookeeper 安装包下载4.准备3个zk下创建数据存放目录5.在每个数据文件夹中准备一个myid文件6. 编辑每个data目录中myid7. 将zk配置文件zoo.cfg创建在zkdata目录中8.启动zk节点8. 查看zk角色信息9. 其他三台Hadoop机器10.配置hadoo
转载 2023-11-02 08:25:32
85阅读
本想一口气把redis多学一点,奈何还有常见的如穿透、雪崩、击穿、分布式锁、redis并发原理、linux多路复用、redis集群等都还没梳理清楚,而项目就需要先学习一下hadoop等大数据相关技术,于是不得不暂停redis,转而进入hadoop系列的摸石头过河。据我了解,一般正式环境的hadoop使用都是需要zookeeper的,但是使用hadoop是否一定要zookeeper这个事,对于刚开始
一、集群搭建1.1、集群简介HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNodeYARN集群:负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager部署图:1.2、服务器准备本案例使用虚拟机服务器来搭建HADO
转载 2023-11-03 19:17:46
108阅读
Hadoop是什么Hadoop为分布式系统基础框架。主要解决海量数据的存储和海量数据的分析计算问题。 大数据解决的是海量数据的采集、存储和计算。Hadoop三大发行版本Apache 最原始最基础的版本,2006年诞生,开源; Cloudera 内部封装Apache,对应产品CDH,2008年,部分免费,已结束免费; Hortonworks 内部封装Apache,对应产品HDP,2011年,部分免费
最近我发现,很多萌新说着想要做算法工程师,但是却对这个岗位的要求以及工作内容一无所知。以为学一个Python,再学一些机器学习、深度学习的模型就可以胜任了。工作就是用Python不停地写模型。显然,这样的想法是有问题的,如果真这么干,即使通过了面试成功入职,也会干得非常痛苦。因为你会发现这也不知道那也不知道,做啥都很吃力,需要一段很长的时间学习。而这种为了应付工作临时抱佛脚的学习往往很难深入,有种
转载 2024-02-14 09:49:56
21阅读
这里需要提到 Flink 中的几个关键组件:客户端(Client)、作业管理器(JobManager)和任务管理器(TaskManager)。我们的代码,实际上是由客户端获取并做转换,之后提交给 JobManger 的。所以 JobManager 就是 Flink 集群里的“管事人”,对作业进行中央调度管理;而它获取到要执行的作业后,会进一步处理转换,然后分发任务给众多的TaskManager。这
转载 2023-08-03 18:58:48
579阅读
  • 1
  • 2
  • 3
  • 4
  • 5