1、离线查询引擎pig :数据流式处理 数据仓库系统,基于hadoop的数据流执行引擎,利用mapreduce并行处理数据,使用pig Latin语
原创 2022-04-19 10:56:18
341阅读
)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,...
转载 2022-11-14 19:00:24
147阅读
 
转载 2020-01-30 12:55:00
174阅读
2评论
大数据生态体系分为数据来源层,数据传输层,数据存储层,资源管理层,数据计算层和任务调度层,其中结构化数据库为我们熟悉的 数据库,文件日志这种半结构化的文本也囊括在内,甚至视频和ppt这种非结构化数据也是在处理范围的,kafka在所有存储工具中最为 强大,三种数据都可以处理并且拥有储存功能 ...
转载 2021-09-06 16:10:00
185阅读
2评论
"如何用形象的比喻描述大数据技术生态?Hadoop、Hive、Spark 之间是什么关系?" 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用
原创 2021-05-29 21:30:21
265阅读
fink生态spark生态hadoop生态
原创 2022-05-26 00:21:00
173阅读
1、消息队列:大数据推荐学习Kafka2、数据处理:Spark、Flink(二者可以选其一重点研究)3、数据存储: HBase、HDFS、MYSQL、Redis(都很重要,至少选择2个深入研究)4、数据分析: Hive(数仓)5、资源管理:YARN、Mesos(二选一)6、分布式:Zookeeper(必须好好学,面试必问的)...
原创 2022-03-04 15:57:11
110阅读
目录1 Job执行三原则1.1 原则一 充分利用集群资源1.2 原则二 ReduceTask并发调整1.3 原则三 Task执行时间要合理2 Shuffle调优2.1 Map阶段2.2 Copy阶段2.3 Reduce阶段3 Job调优3.1.推测执行3.2 Slow Start3.3 小文件优化3.4 数据倾斜4 YARN调优4.1 NM配置4.2 ontainer启动模式4.3 AM调优5
转载 2023-07-12 12:33:52
128阅读
hadoop:://hadoop.apache.org/docs/stable/hive:://cwiki.apache.org/confluence/display/Hive/GettingStartedhbase:://hbase.apache.org/book.htmlyarn:://hadoop.apache.org/docs/cu...
原创 2022-04-22 13:33:20
168阅读
hadoop:https://hadoop.apache.org/docs/stable/hive:https://cwiki.apache.org/confluence/display/Hive/GettingStartedhbase:https://hbase.apache.org/book.htmlyarn:https://hadoop.apache.org/docs/cu...
原创 2021-08-26 09:13:50
206阅读
# 大数据生态的存储技术:HIVE NoSQL 实现指南 在大数据处理领域,Hive 是一款十分重要的工具。它基于 Hadoop,主要用于数据仓库的构建,能帮助开发者将复杂的 SQL 查询转化为 MapReduce 操作。Hive 具备 NoSQL 特性,使其能够高效地存储和处理大规模数据。本文将带领你一步一步地来实现 Hive 并使用 NoSQL。 ## 实现流程 以下是实现 Hive N
原创 2024-10-16 04:03:46
24阅读
  大数据关键技术浅谈之大数据存储及管理    数据存储作为大数据的核心环节之一,可以理解为方便对既定数据内容进行归档、整理和共享的过程。自磁盘系统问世以来,数据存储已经走过了近百年的历程。    对于存储,计算机就像我们的大脑一样,两者都可以拥有短期记忆和长期记忆,例如大脑是通过前额叶皮层来处理短期记忆,而计算机则利用RAM(随机存取存储器)来处理短期记忆。大脑和计算机都需要在清醒的状态下处理并
转载 2023-10-05 08:41:36
15阅读
1.Hadoop 生态圈Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示: 根据服务对象和层次分为:数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层。1.1.HDFS(分布式文件系统)H
重点在于流程化、一体化、把组件之间连接起来,渗透和强化数据分析和处理思路,把需求直接翻译成数据分析方案。
转载 2021-07-27 15:18:19
254阅读
  
原创 2021-04-25 22:56:51
726阅读
# 阿里大数据生态架构实现指南 在这个数字化时代,数据已经成为了企业最重要的资产之一。阿里大数据生态架构为企业提供了强大的数据处理与分析能力,这里将介绍如何实现这一架构。本文将详细介绍流程和代码示例,帮助你快速上手。 ## 1. 流程概述 实现阿里大数据生态架构的过程可以分为以下几个步骤: | 步骤 | 描述
原创 9月前
69阅读
# Hadoop生态 大数据存储 ## 什么是Hadoop? Hadoop是一个开源的分布式存储和计算框架,主要用于存储和处理大规模数据。Hadoop基于Google的MapReduce和Google File System (GFS)的论文发展而来,是大数据领域的重要技术。 Hadoop生态系统包括Hadoop Common、HDFS、YARN和MapReduce等组件,其中HDFS用于存
原创 2024-04-24 07:39:34
35阅读
# 大数据生态总架构的概述 随着信息技术的快速发展,大数据的产生和应用已经渗透到我们生活的方方面面。大数据生态总架构是为了整合数据存储、处理、分析和应用等各个环节而形成的一种综合性架构。本文将介绍大数据的主要组成部分,并通过代码示例和可视化图表来帮助读者更好地理解。 ## 大数据生态总架构的组成部分 大数据生态系统通常包括以下几个关键组件: 1. **数据采集** - 通过传感器、日
原创 2021-07-12 16:00:40
212阅读
目录 Hadoop HA NameNode Federation HBase HA Storm HA Flink HA  先安装好ZooKeeper。 Hadoop HA 1、集群规划 host HDFS Yarn   ZK HA bigdata111 NameNode  SecondaryNameNode  ResourceManager   QuorumPeerMain   bigdata1
原创 2021-07-16 09:37:43
638阅读
  • 1
  • 2
  • 3
  • 4
  • 5