再看hadoop PRC以前写过一篇文章叫做《hadoop RPC从入门到暂时放弃》,现在粗略的把《Hadoop 2.xHDFS源码剖析》看完了第一遍,感觉对HDFS的整体了解上升了一个层次,并且重新看了一下动态代理、protocol buffer所以这次重新来写写对于hadoop RPC的认识。下面还是主要通过ClientProtocol协议,即hdfs客户端与NameNode通信的协议,来介绍
关于块跟副本 hadoop中块是一种逻辑概念而副本才是真正的物理概念,即在DataNode中存储的数据块是以一个叫做的Replica来表示的,而在NameNode中则是以Block来表示。BlockInfo是Block的子类,主要用它来表示一个数据块,这个类中最重要的就是triplets这个
最近继续在看《Hadoop 2.X HDFS源码剖析》,现在看到了第三章NameNode部分。NameNode在hdfs这种文件系统中充当着master的角色,负责的功能有很多比如文件系统目录管理(命名空间管理)、数据块管理、数据节点管理、租约管理、缓存管理等等。这次主要写关于命名空间管理的笔记。基本类型hdfs中最基本的类应该就是INode了,无论是最后的目录、具体文件、软连接还是添加快照功能之
最近一直都在看徐鹏写的《hadoop 2.X HDFS源码剖析》的第二章关于RPC的部分,表示java这块的编程功底差的实在是太多了,动态代理勉强还算明白,proto buffer、nio还有java的annotation差的实在太多了,好多地方都看得不是很懂。决定暂时放下这块,把整本书看完再多写几篇关
在hbase中,读业务是非常频繁的。很多操作都是客户端根据meta表定位到具体的regionserver然后再查询region中的具体的数据。 但是现在问题来了,一个region由一个memstore以及多个filestore组成,memstore类似缓存在服务器内存中,可以提高插入的效率,当memstore达到一定大小(由hbase.hregio
最近一周几乎都在做关于yarn的资源隔离的事情,也重新看了一下以前看过的关于yarn的书,这次就当是写写自己的工作总结吧。 之所以要做资源隔离,是因为现在公司内部有很多团队都在使用yarn来提交各式各样的任务,例如hive的mapreduce,spark在yarn上的部署,sqoop导数据等等,为了防止单个任务使用过多资源,而导致整个集群的其他任务
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号