hadoop中data在哪个目录

转载

mob64ca14038b36 2024-09-17 16:51:29

文章标签 hadoop中data在哪个目录 hadoop没有datanode 数据 hdfs hadoop 文章分类 Hadoop 大数据

hadoop中data在哪个目录_hdfs

Hadoop名字的产生背景

Hadoop之父Doug Cutting看到他儿子在牙牙学语时，抱着黄色小象，亲昵的叫hadoop，他灵光一闪，就把这技术命名为Hadoop，而且还用了黄色小象作为标示Logo，不过，事实上的小象瘦瘦长长，不像Logo上呈现的那么圆胖。“我儿子现在17岁了，所以就把小象给我了，有活动时就带着小象出席，没活动时，小象就丢在家里放袜子的抽屉里。” Doug Cutting大笑着说

来自漆黑狭小的黑屋里

大家好，我叫hadoop。这个名字在很多小孩子牙牙学语时都很容易叫出来的声音，很神奇吧？其实我也像小孩子一样，从孕育生命到出生之前一直生活在狭小漆黑的黑屋里，我的眼睛不能睁开，因为睁开了也什么都看不见。我一直不停的被改造，我原来是因为Doug Cutting做一个爬虫项目时候想如何把爬取的数据存储以及计算的，但正好是因为有谷歌的三大论文公开出来之后，我才有了更好的发展。

出生之时我需要一个叫“解压”的小伙伴，“解压”还有个孪生兄弟叫“压缩”，“压缩”也和我经常玩，把背包压缩一下，不带一点重复的东西，减少重量的负担。“压缩”和我在网络传输上也有非常出色的角色，运行效率也是提升不少，但是压缩和解压的时间也是会占用一点时间的，所以是否用压缩还是需要权衡一下的。

我来自黑黑的小屋啊，我需要“解压”这个好伙伴把我解压到Linux服务器上，让我舒展自己，让我能看清自己。我看着自己身上的三个组件，我很好奇它们都是干什么的，能吃吗，能掏出来玩玩吗？吃是不能吃的，掏可以掏出来玩。但是，不能掏的是HDFS组件。因为很多小伙伴离不开我的hdfs组件，比如spark小伙伴啊，它没有自己的存储系统，常常需要我的hdfs组件才能跑起来。外界传说未来我和spark也是一个非常不错而且也是受欢迎的组合，所以我要好好保护hdfs才是。

我看着自己身上的hdfs组件，拉长过来就是hadoop distributed file system这串英文，翻译过来是hadoop分布式文件系统，意思就是多个节点的文件树状结构组成的，文件形式可以以任何格式进行存储的，比如二进制文件、图片、音频以及视频。hdfs架构中也有三个组件，它们分别是namenode，datanode和secondarynamenode。

secondarynamenode可以没有，但是namenode和datanode绝对不可以没有。namenode相当于hdfs架构的大脑，指挥datanode做读写数据，要注意的是，datanode不会删除数据，只是给要删除的数据打上标记，datanode要写数据的时候覆盖掉打上被标记的数据就可以了。而secondarynamenode作为namenode的备份，以防大脑阶段性失忆。

我还有身上的yarn组件和mapreduce组件，把它们掏出来看了下，我看到了，yarn有个核心在于调度器，调度器也分为很多种，比如公平调度器、容量调度器以及FIFO先进先出调度器。yarn架构其实也有离不开的组件，它们就是resourcemanager和nodemanager。而resourcemanager正是调度管理器，管理着每一个任务的调度。忘了说了mapreduce组件，mapreduce就是一干活的，负责搬运数据以及计算数据，它的上级领导就是nodemanager封装的container。

每一个nodemanager对应着一个datanode，而且这两个节点必须在同一linux操作系统上。因为datanode存储着几块相同大小的数据，nodemanager里面封装的container调用map阶段任务的时候，正好可以读取本地上的数据，减少网络传输上的负荷。reduce阶段写入数据也是正好是在datanode节点上，这样map阶段读取数据的时候很方便在本地上读取，一个数据块对应着一个map。

如果不是一个数据块对应着一个map，就会大大增加IO流运行时间。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。