- 从jar包中提取默认配置
- core-default.xml
hadoop-common-< ver >.jar - hdfs-default.xml
hadoop-hdfs-< ver >.jar - mapred-default.xml
hadoop-mapreduce-client-core-< ver >.jar - yarn-default.xml
hadoop-yarn-common-< ver >.jar
- master node就是name node
master node会通过ssh将命令发送到其他data node。 - 分离启动SecondaryNameNode
配置文件hdfs-site.xml,在node3上启动SecondaryNameNode进程。
将hdfs-site.xml从master node发送到其他所有data node。
- 重启hadoop需要清理
- 修改hadoop默认的本地目录
core-site.xml
- HDFS设计
适用于
- 超大文件
- streaming访问
- 商业硬件
不适用于
- 低延迟访问
- 大量小文件
- 多用户写入多次修改
块
默认128M
查看block的状态
配置文件hdfs-site.xml(源码中为hdfs-default.xml)
- namenode
镜像文件+编辑日志,存放于本地磁盘,以及数据节点信息,不含block信息。block信息在集群启动时由datanode重建。 - datanode
work节点,存储检索block,定期向namenode发送block list。
向HDFS put文件在namenode和datanode上都时可以的。
- 启动的进程
- hdfs
NameNode
SecondaryNode
DataNode
启动脚本:start-all.sh(start-dfs.sh) - yarn (资源调度框架)
ResourceManager
DataManager
启动脚本:start-yarn.sh - hadoop-daemon.sh
hdfs.sh
yarn.sh
- ubuntu设置静态IP
- 在Vmware虚拟机中通过VMnet8的NAT模式网卡一块网卡即可同时实现本地访问及上网。
- 获得VMnet8网卡的网关及掩码
- 获得可用IP(DHCP地址池)
- 编辑ubuntu的/etc/network/interfaces文件
虚拟机静态配置IP后将不向Vmware发送DHCP offer报文,但可以被本地访问且可以上网。
- ubuntu切换到字符界面
- 获得配置信息
- 四大模块及配置文件
- common
hadoop-common-< ver >.jar
core-site.xml
core-default.xml - hdfs
hdfs-site.xml
hdfs-default.xml - mapreduce
mapred-site.xml
mapred-default.xml - yarn
yarn-site.xml
yarn-default.xml
- HDFS文件系统的操作命令