hadoop存储gzip hadoop存储视频文件

关注小题大作

文章目录

产生原因
三大组件：HDFS、MapReduce、YARN
HDFS的三种模式的优势？
概念理解
岗位区别：
hadoop主要要学的

hadoop存储gzip hadoop存储视频文件

转载

小题大作 2023-09-27 04:45:56

文章标签 hadoop存储gzip hadoop 大数据分布式数据 文章分类 Hadoop 大数据

产生原因

在之前，数据量小，增长速度慢，且数据基本都是文件。储存和处理这些数据并不麻烦，单个存储单元和处理器组合就可以。
之后随着互联网发展，产生了大量多种形式的数据。
非结构化数据：邮件、图像、音频和视频等形式。这些与结构化数据一起称为大数据。此时，储存单元和处理器的组合显然不够
如何解决？
引入了hadoop框架，它通过使用硬件集群，可以有效地存储和处理大量数据

三大组件：HDFS、MapReduce、YARN

第一步存储数据
HDFS分布式文件系统，数据分布在许多计算机中并以块的形式存储。HDFS将数据存储在多个数据块上。如果其中一个数据点崩溃了–不会导致损失任何数据
HDFS对数据进行拷贝并将其存储在多个系统中。复制方法

第二步：数据处理。

之前放在单个处理器上处理，低效且费时。

MapReduce将数据分成多个部分，并在不同的数据节点上分别处理每个部分。然后将各个结果汇总并最终输出

例如统计文章中每个单词出现的次数：

步骤：输入 – 分割成不同的小部分 – 每一个部分进行分词统计 – 按同一个单词排序 – 汇总计数

hadoop存储gzip hadoop存储视频文件_分布式

这改善了负载平衡并节约了时间

第三步：
每个任务都需要硬件资源来支持完成，为了有效的管理这些资源，用到了第三个组件YARN

除了这三大组件外，HADOOP还有各种大数据工具和框架。专门用于管理、分析和处理数据，例如hive spark flume 和scoop等等

HDFS的三种模式的优势？

支持并行处理
更快的数据分析
确保容错
管理集群资源

概念理解

分布式：将不同的业务分布在不同的地方
集群：将几台服务器集中在一起，实现同一个业务
微服务：一种架构风格

岗位区别：

做菜过程：采购(数据开发)、清洗(ETL)、备菜(ETL)、摆盘(BI)、烹饪(数据分析)

hadoop主要要学的

三大组件：HDFS、MapReduce、YARN

学习对象：中台（集群+数据中台）+数据开发（算法，实时，离线），大学生

hadoop存储gzip hadoop存储视频文件_数据_02

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：科学计数法转小数python 0.00045的科学计数法python

下一篇：python中list数据类型个数 python list类型

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册