一、Spark概述Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研究性项目,其诸多核心理念均源自学术研究论文。2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展,如今
转载
2023-08-17 09:58:02
112阅读
计算机中所有程序都要寄托一个环境运行,环境可以理解为一个程序运行所需要的条件的集合;如果只是为了写一个Java程序,它是单进程的,那么我们配置jdk、jre就可以了;如果写一个网站,有前后端、数据库服务、缓存服务等各种服务,它们都要跑在不同的端口乃至不同的服务器上,配置环境让他们可以协同运作就会变得稍微复杂一些了,所以有时候配环境真的是比较麻烦的过程;本篇文章将会介绍一个分布式环境配置 —— Sp
转载
2024-04-14 17:14:35
19阅读
其中的fsimage 称为时点备份,又叫磁盘镜像快照,这个是NameNode的一个持久化的方式之一:缺点,在内存数据序列化的时候比较慢具体的过程:因为我们所知道的NameNode一般是存储在内存中的,并没有和磁盘进行交互,这和redis这类的非关系型数据库差不多,但是内存中的数据总是没有持久化的,那么怎么去持久化呢?就比如我们的NameNode结点数据的持久化过
转载
2024-09-08 12:09:33
38阅读
一,Hbase的介绍与个人理解1,Hbase是一个分布式数据库,主要用来做联机的事务处理。它是一个No SQL 数据库。里面存储的数据都是K,V类型的数据,与另一个分布式数据库Redis类似。而不同于Mysql中的数据库表模型(三范式)。2,Hbase具备实时的增删改查功能,以后我们做实时的数据分析,可以将结果存入Hbase,Redis中。分布式数据库的优点:可以动态扩容,负载能力可以动态扩展
转载
2023-07-21 23:31:15
140阅读
Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题,它能提供基于类似于文件系统的目录节点树方式的数据存储, Zookeeper 作用主要是用来维护和监控存储的数据的状态变化,通过监控这些数据状态的变化,从而达到基于数据的集群管理。 1 Zookeeper基本框架 Zookeeper集群主要角色有Leader,Learner(Follower,Observ
转载
2023-07-20 17:07:01
134阅读
# Zookeeper在Hadoop中的作用
在Hadoop中,Zookeeper是一个重要的分布式协调服务,它被广泛用于管理Hadoop集群中的各种配置信息,协调节点间的通信以及故障恢复。本文将介绍Zookeeper在Hadoop中的作用,并提供代码示例来演示其用法。
## 什么是Zookeeper?
Zookeeper是一个开源的分布式协调服务,它提供了一个简单而高效的分布式环境,用于处
原创
2023-08-11 13:54:06
256阅读
大数据实现真正意义上的落地,还是得益于大数据技术的成熟,发展到今天,大数据已经有了适用于各种不同场景下的计算框架,在这些框架当中,Hadoop和Spark依然是行业当中的主流选择。今天的大数据开发入门学习分享,我们来做一个简单的Hadoop与Spark对比。 谈到大数据,Hadoop和Apache Spark这两个名字可谓是耳熟能详,但是对于这两者的应用,还需要更深入的了解。 首先,
转载
2023-07-24 09:03:55
53阅读
大数据分布式集群环境搭建详细步骤(Zookeeper,Hadoop安装与配置)前言:前面我们完成了Linux系统的安装及网络配置,接下来我们将完成Zookeeper和Hadoop的安装与配置。 步骤详解大数据分布式集群环境搭建详细步骤(Zookeeper,Hadoop安装与配置)系统说明节点配置安装Zookeeper安装 Hadoop 系统说明节点ipmaster192.168.83.101sla
转载
2024-10-21 09:32:39
60阅读
Zookeeper作用:分布式协调服务(监听hadoop是否宕机,宕机就使用另一个集群的hadoop)在数仓领域的场景,协调hadoop服务实现高可用每个zk服务里面存储的是状态信息Zookeeper特性:全局数据一致:集群中每个服务器保存一份相同的数据副本,client无论连接到哪个服务器,展示的数据都是一致的,这是最重要的特征;(每个zk服务之间数据是同步的,相同的)可靠性:如果消息被其中一台
转载
2023-12-09 10:09:38
115阅读
Zookeeper 是一个开源的分布应用程序协调服务,来自于Google 一个开源的实现,是Hadoop 和HBase 的重要组件。Zookeeper 可以为分布式应用提供一致性服务,功能包括:配置服务、名字服务、分布式同步、组服务等等。Zookeeper 的目标是封装好复杂易出错的关键服务,将简单易用的接口和性能高效,功能稳定的系统提供给用户。Zookeeper 包含一个简单的原语集,提供Jav
转载
2023-07-21 14:57:32
90阅读
1. 介绍YARN(Yet Another Resource Negotiator)是一个通用的资源管理平台,可为各类计算框架提供资源的管理和调度。 之前有提到过,Yarn主要是为了减轻Hadoop1中JobTracker的负担,对其进行了解耦。现在通常都会使用Hadoop Yarn,因为其稳定性更加优秀,YARN是对Mapreduce V1重构得到的,有时候也称为MapReduce V
转载
2018-05-17 16:46:00
176阅读
本节和大家一起学习一下Hadoop,通过它的实际应用来向大家展示它的功能,从而使读者更容易了解,希望通过本节的介绍大家对Hadoop有初步的了解。Hadoop最佳实践1.简介Hadoop是Apache自由软件基金会资助的顶级项目,致力于提供基于map-reduce计算模型的高效、可靠、高扩展性分布式计算平台。2.Map-Reduce应用场景 作为一种受限的分布式计算模型,Map-Reduce计算模
转载
2023-07-24 11:00:41
48阅读
这里写自定义目录标题MapReduce概述MapReduce特点MapReduce框架原理Shuffle机制其他关键点 MapReduce概述MapReduce ,负责hadoop中的应用程序计算MapReduce特点1.易于编程通过简单的实现一些接口,就可完成分布式程序2. 良好的扩展性可通过简单的增加服务器,提高计算能力3. 高容错性 其中一台机器挂了,可将上面的计算任务转移到另一个节点上运
转载
2023-07-24 11:01:12
105阅读
## Hadoop和Spark的作用
Hadoop和Spark是两个被广泛应用于大数据处理领域的开源框架。它们提供了有效处理大规模数据的解决方案,并且可以在分布式环境下运行,加快数据处理速度。本文将介绍Hadoop和Spark的作用,并且通过代码示例演示它们的用法。
### Hadoop的作用
Hadoop是一个用于存储和处理大规模数据的分布式系统框架。它基于Google的MapReduce
原创
2024-03-13 04:43:05
90阅读
Hadoop——HDFS部分上一、HDFS概述1.1 HDFS定义 HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS的使用场景:适合一次性写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。1.2
转载
2023-08-18 19:30:45
85阅读
一、HDFS1.1 HDFS介绍HDFS(Hadoop Distributed File System,全称为“分布式文件系统”) 是Apache Hadoop下的一个分布式文件系统项目。Hadoop底层就是使用HDFS来存储大型的数据 。HDFS 使用多台计算机存储文件,并且提供统一的访问接口。HDFS对数据文件的访问通过流的方式进行处理,这意味着通过命令和 MapReduce 程序的方式可以直
转载
2023-09-01 08:29:31
128阅读
Functions on RDDs: Transformations Versus Actions
RDDs上定义了两种类型的函数:动作和转换。
Actions
是返回一些不是RDD的东西(包括副作用)的函数,而
Transformations
是返回另一个RDD的函数。
每个Spark程序必须包含一个
Actions
,因为
Actions
转载
2023-10-20 19:04:55
76阅读
1. HDFS 概述1.1 HDFS 产出背景及定义1)HDFS 产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系 统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这 就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。2)HDFS 定义HDFS(Hadoop Distributed File System),它是一个
转载
2023-08-18 20:57:28
42阅读
文章目录一、产生背景二、HBase 概述三、关系型数据库 和 非关系型数据库的典型代表四、HBase 这个 NoSQL 数据库的要点五、结构化、半结构化和非结构化六、HBase 中的表特点七、HBase表结构逻辑视图八、名词概念1、Rowkey的概念2、Column的概念3、ColumnFamily的概念4、TimeStamp的概念5、单元格(Cell)九、HBase 的应用场景 一、产生背景自
转载
2023-07-12 17:48:46
84阅读
1 Hadoop的两个核心组件:HDFS和MapReduce,HDFS负责大数据的分布式存储,而MapReduce则是对大数据的分布式处理框架,能够并行的进行大数据文件处理,从而提高处理效率。该篇博客就是对MapReduce进行讲解。2 MapReduce讲解MapReduce是Hadoop框架的核心处理框架,分为map和reduce两个模块,将文件读取,map将文件分解成相应的键值对(key、v
转载
2023-07-24 10:26:59
73阅读