目录1 Spark 是什么2 Spark 四大特点2.1 速度快2.2 易于使用2.3 通用性强2.4 运行方式3 Spark 框架模块3.1 Spark Core3.2 Spark SQL3.3 Spark Streaming3.4 Spark MLlib3.5 Spark GraphX3.6 Structured Streaming4 Spark 运行模式1 Spark 是什么Spark 是加
转载 2023-07-14 18:57:49
99阅读
Apache Beam 是一个统一的大数据批处理和流处理编程模型,提供多种语言SDK,支持在Flink、Spark、Google Cloud Dataflow等分布式处理引擎上运行。本文详细介绍Beam的功能特性、安装使用和核心代码实现。
原创 3月前
72阅读
大数据框架 系统平台 Hadoop、CDH、HDP 监控管理 CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle 文件系统 HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio 资源调度 YARN、Mesos 协调框架
原创 2022-07-30 00:54:47
954阅读
Java 类集框架1. Java类集框架产生的原因        在基础的应用中,我们可以通过数组来保存一组对象或者基本数据,但数组的大小是不可更改的,因此出于灵活性的考虑和对空间价值的担忧,我们可以使用链表来实现动态的数组。灵活的代价是操作上的繁琐,在计算机的世界,处理繁琐问题的不二法门就是将其封装,只向外暴露以供调用的方法视
转载 2024-05-08 13:26:01
45阅读
1、HDFS读流程和写流程1.1 HDFS写数据流程① 客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。② NameNode返回是否可以上传。③ 客户端请求第一个 Block上传到哪几个DataNode服务器上。④ NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。⑤ 客户端
转载 2023-11-14 09:37:11
79阅读
 
转载 2023-07-04 09:39:07
148阅读
Apache Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume在删除自己缓存的数据。  Flume支持各类
转载 10月前
142阅读
1评论
一、晋升为Apache TLP(Top-Level Project)的大数据相关项目1.1、Apache® DataSketches™ (20210203)1.2、Apache® Gobblin™ (20210216) **1.3、Apache® DolphinScheduler™ (20210408) **1.4、Apache® Pinot™ (20210
1.storm简介:Storm是Twitter公司开源贡献给Apache的一款实时流式计算框架,作用是用于解决数据的实时计算,以及实时处理等问题。它与hadoop的不同就是能够做到实时处理数据的能力,这里有一个hadoop离线项目的经典架构模式:ftp(获取)----hdfs(存储)-------hive(操作计算)--------mysql(最终结果存储)但是这种离线的架构分析数据模式,在数据
转载 2023-12-26 11:11:43
92阅读
转载 2020-01-12 19:08:00
162阅读
前言本篇简单介绍一下业界流行的大数据权限管理框架Apache Sentry和Ranger。
原创 2022-03-28 17:31:55
841阅读
Apache Metron (Incubating) provides a scalable advan
转载 2022-06-25 00:07:36
202阅读
前言本篇简单介绍一下业界流行的大数据权限管理框架Apache Sentry和Ranger。Apache SentrySentry是由Cloudera公司内部开发而来的,初衷是为了让用户能够细粒度的控制Hadoop系统中的数据(这里主要指HDFS,Hive的数据)。所以Sentry对HDFS,Hive以及同样由Cloudera开发的Impala有着很好的支持性。Apache Ranger...
原创 2021-07-09 10:30:52
1721阅读
Apache Flink是一个高效、分布式、基于Java实现的通用大数据分析引擎,它具有分布式 MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的API。从Apache官方博客中得知,Flink已于近日升级成为Apache基金会的顶级项目。Flink项目的副总裁对此评论到:\\ Flink能够成为基金会的
转载 2024-01-29 02:12:46
48阅读
1.Spark介绍Spark是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。那到底是什么,可能还不是太理解,通俗讲就是可以分布式处理大量极数据的,将大量集数据先拆分,分别进行计算,然后再将计算后的结果进行合并。这一篇主要给大家分享如何在Windows上安装Spark。2.Spark下载我们要安装Spark,首先需要到Saprk官网去下载对应的安装包,Spark官网:ht
第 1 部分: 大数据分类和架构简介第 2 部分: 如何知道一个大数据解决方案是否适合您的组织第 3 部分: 理解大数据解决方案的架构层第 4 部分: 了解用于大数据解决方案的原子模式和复合模式第 5 部分: 对大数据问题应用解决方案模式并选择实现它的产品概述大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征,包括数据的频率、量、速度、类型和真实性。处理并存储大数据时,会涉
  概述  大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征,包括数据的频率、量、速度、类型和真实性。处理并存储大数据时,会涉及到更多维度,比如治理、安全性和策略。选择一种架构并构建合适的大数据解决方案极具挑战,因为需要考虑非常多的因素。  这个 “大数据架构和模式” 系列提供了一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。因为评估一个业务场景是否存在大数据
在使用BigData大约8年以上之后,我遇到了大量的项目。 Esp Apa
原创 2022-06-25 00:24:03
495阅读
1摘要利用虚拟机实现Spark环境搭建,理解掌握大数据分析集群工作原理。2题目解析面对海量的各种来源的数据,如何对这些零散的数据进行有效的分析,得到有价值的信息一直是大数据领域研究的热点问题。大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现对数据的挖掘和分析,一个大数据分析平台涉及到的组件众多,如何将其有机地结合起来,完成海量数据的挖掘是一项复杂的工作。 在搭
转载 2024-03-12 13:53:28
114阅读
由于现在互联网公司数据规模量的扩展,以MySQL这种数据库很快就超过了千万,再优化也就只能分表分库了,这样是不是还是显得麻烦,这时候分布式作用就提现了,他告诉你只要扩展节点就能更容纳更多数据了。Hadoop权威指南里也说了,当货物量增多,是养更强壮的马来拉货更容易还是用更多的马来拉货更容易,显然是后者。这就是分布式的思路,而Hadoop集分布式存储、管理为依托,打造了开源大数据平台,而Spark是
转载 2023-09-04 17:58:12
191阅读
  • 1
  • 2
  • 3
  • 4
  • 5