hadoop he odps hadoop和odps

关注 mob6454cc71d565

文章目录

Hadoop
Hadoop
1 Hadoop
2 HDFS
3. MapDeduce

hadoop he odps hadoop和odps

转载

mob6454cc71d565 2024-01-02 10:17:43

文章标签 hadoop he odps hadoop 大数据 Hadoop HDFS 文章分类 Hadoop 大数据

Hadoop

Hadoop

1 Hadoop
2 HDFS
3. MapDeduce

Hadoop

1 Hadoop

开源的分布式存储+分布式计算平台
核心组件：HDFS：分布式文件系统，存储海量数据。MapReduce：并行处理框架，实现任务分解和调度。
搭建大型数据仓库，PB级数据的存储，处理，分析，统计等业务。
优势：高扩展，低成本，成熟的生态圈。
hive：将sql语句转成hadoop任务去执行，降低hadoop的门槛。
hbase：存储结构化数据的分布式数据库。放弃了事务特性，追求更高的扩展。提供了数据的随机读写和实时访问，实现了对表数据的读写功能。
zookeeper：监控hadoop集群里面每个节点的状态。管理整个集权的配置。维护节点之间的一致性。

2 HDFS

hadoop的文件系统
块 - 文件被分成块存储，默认大小64M，是文件存储处理的逻辑单元
节点

nameNode：管理节点，存放文件元数据。文件和数据库的映射表，数据库与数据节点的映射表。
dateNode：工作节点，存放数据块。

数据管理策略：

每个数据块3个副本，分布在两个机架内的三个节点。
心跳检测 DataNode定期向NameNode发送心跳信息。
二级NameNode定期同步元素据映像文件和修改日志，NameNode发生故障时，备胎转正。

HDFS读

客户端向NameNode发起读写请求，NameNode查询元数据。
DataNode读取Blocks

HDFS写

客户端文件拆分为Bolcks ，通知NameNode找到并返回在线的，有磁盘空间的DataNode
写入DataNode，并复制备份，最后更新元数据。

特点：

数据冗余，实现硬件容错。
流式数据访问，一次写入多次使用，一旦写入无法修改。
适合存储大文件。
适合一次写入多次读取，顺序读写。
不支持多用户并发写相同文件。

3. MapDeduce

分而治之，将一个大任务分成多个小的子任务（map），并行执行后，合并结果（reduce）
运行流程

Job & Task ：

JobTracker 作业调度，分配任务，监控任务执行进度。（Reduce端）
TaskTracker 执行任务，汇报任务状态。（Map端）

容错机制

重复执行 4次
推测执行对执行慢的在创建一个同样执行谁快用谁谁慢停谁。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：iOS 有RadioButton吗苹果手机radio是什么意思

下一篇：javascript有列表吗 js的列表

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册