【io.file.buffer.size】(core-site.xml)用来设置缓存的大小,较大的缓存提供更高效的数据传输,但也意味着更大的内存消耗和延迟默认值为4KB,一般情况下设置为64KB(65536)【dfs.balance.bandwidthPerSec】HDFS平衡器检测集群中使用过度或者使用不足的DataNode,并在这些DataNode之间转移数据块来保证负载均衡。该参数定义了每个
【vm.swappiness】设置为0,指示内核不交换应用数据到磁盘。如果磁盘正在执行其他I/O操作,将Hadoop守护进程的数据交换到磁盘可能导致操作超时从而有可能失败。对于HBase来说,由于HBase的Server必须保持与ZooKeeper通信,否则它们会被标记为失败。【vm.overcommit_memory】考虑java子任务分叉时,在exec前的瞬间所占的内存将使用两倍内存。将vm.
【JDK】集群中所有机器应该运行相同的Java版本,甚至到补丁的级别【cron】cron守护进程驱动被调度的任务【ntp】选择主节点使其成为所有其他节点的本地ntp服务器【ssh】【postifx/sendmail】出错情况下发送邮件【rsync】在本地和主机之间有效地复制文件
【中档配置】CPU2*6 Core 2.9GHz/15MB cache内存64GB DDR3-1600 ECC磁盘控制器 SAS 6GB/s磁盘12*3TB LFF SATA II 7200 RPM网络控制器2*1GB Ethernet其他需要CPU支持如Intel超线程和QPI的功能,内存分配利用三通道或四通道【高档配置】CPU2*6 Core 2.9GHz/15MB cache内存9
【小集群】---少于20个工作节点的集群双路四核 2.6GHz CPU*1DDR3内存 24G双千兆以太网网卡SAS驱动器控制器SATA II驱动器的JBOD配置*2【中等规模集群】---300个节点内存 48G【大型集群】内存 96G【NameNode】每维护一百万文件块需要消耗1GB内存全部元数据必须都能放在内存,所以磁盘所需空间不超过内存大小【SecondaryNameNode】硬件需求与N
NameNode将文件系统的元数据以不同的文件保存在本地磁盘中,其中最重要的两个文件是fsp_w_picpath和edits。fsp_w_picpath包含文件系统元数据的完整快照,而edits仅包含元数据的增量修改。NameNode启动后,直接加载fsp_w_picpath到RAM,再通过回放引入edits的增量变化。NameNode与SecondaryNameNode之间交互定期将edits引
数据读取流程:客户端访问NameNode,告知需要读取的文件客户身份确认通过信任的客户端。由其指定用户名通过诸如kerberos等强制认证机制完成检查文件的所有者及其设定的访问权限,如果文件确实存在,而且用户对这个有访问权限。NameNode告知客户端文件的第一个数据块的标号以及保存该数据块的DataNode列表(列表是根据DataNode与客户端间的距离排序的,距离是根据Hadoop集群的机架拓
HDFS是用户空间文件系统,不像ext3文件系统需要挂载,只用应用程序显式地编译它即可集群中的各个主机只存储文件系统的一个数据子集,当需要存储更多数据块时,只需要添加更多挂载了多个物理磁盘的主机即可实现。文件系统的元数据存储在中央服务器中,提供数据块的目录结构,并维护整个文件系统的全局状态HDFS数据块默认大小为64MB,远高于传统文件系统的数据块大小(4KB或8KB),提升了大型数据流I/O操作
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号