其中红色的配置为必须配置参数
参数 取值 备注
fs.default.name | NameNode | hdfs://主机名/ |
dfs.hosts/dfs.hosts.exclude | 许可/拒绝DataNode列表。 | 如有必要,用这个文件控制许可的datanode列表。 |
dfs.replication | 默认: 3 | 数据复制的分数 |
dfs.name.dir | /home/username/hadoop/namenode /tmp | 当这个值是一个逗号分割的目录列表时,nametable数据将会被复制到所有目录中做冗余备份。 |
dfs.data.dir | 举例:/home/username/hadoop/datanode 默认: /tmp | 当这个值是逗号分割的目录列表时,数据将被存储在所有目录下,通常分布在不同设备上。 |
| | |
mapred.system.dir | Map/Reduce框架存储系统文件的HDFS路径。比如/hadoop/mapred/system/ | 这个路径是默认文件系统(HDFS)下的路径, 须从服务器和客户端上均可访问。 |
mapred.local.dir | 本地文件系统下逗号分割的路径列表,Map/Reduce临时数据存放的地方。 | 多路径有助于利用磁盘i/o。 |
mapred.tasktracker.{map|reduce}.tasks.maximum | 某一TaskTracker | 默认为2(2个map和2个reduce),可依据硬件情况更改。 |
mapred.job.tracker | JobTracker | 主机:端口 。 |
mapred.hosts/mapred.hosts.exclude | 许可/拒绝TaskTracker列表。 | 如有必要,用这个文件控制许可的TaskTracker列表。 |
| | |
hadoop.job.history.user.location | 默认:mapred.output.dir/_logs/history 也可以设置为none 来停用 | 作业的历史文件记录目录 |
conf/slaves 写入全部的slave的机器名或者IP
nameNode记住每个文件被映射成的 blockId。每个blockId对应的block会被复制到不同的机器上多余一份。
hadoop 默认的block 是 64MB
查看namenode 是否启动:http://localhost:50070/
查看jobtracker是否启动:http://localhost:50030/
Hadoop 参数配置优化
主要参照官方给出的配置指南进行的。
hadoop.tmp.dir
默认值: /tmp
说明:
fs.trash.interval
默认值: 0
说明:
fs.inmemory.size.mb
默认值:
说明:
io.sort.factor
默认值:10
说明:排序文件的时候一次同时最多可并流的个数,这里设置100。新版本为mapreduce.task.io.sort.factor。
io.sort.mb
默认值:100
说明:
io.file.buffer.size
默认值:4096
说明:SequenceFiles在读写中可以使用的缓存大小,这里设置为131072。貌似这个参数在新版本里变为了:file.stream-buffer-size,单位bytes 。
dfs.blocksize
默认值:67108864
说明:
dfs.namenode.handler.count
默认值:10
说明:hadoop系统里启动的任务线程数,这里改为40,同样可以尝试该值大小对效率的影响变化进行最合适的值的设定。
mapred.child.java.opts
默认值:-Xmx200m
说明:jvms启动的子线程可以使用的最大内存。改为-Xmx1024m,内存再大也可以继续增加。但是如果一般任务文件小,逻辑不复杂用不了那么多的话太大也浪费。
mapreduce.jobtracker.handler.count
默认值:10
说明:JobTracker可以启动的线程数,一般为tasktracker节点的4%。
mapreduce.reduce.shuffle.parallelcopies
默认值:5
说明:reuduce shuffle阶段并行传输数据的数量。这里改为10。集群大可以增大。
mapreduce.tasktracker.http.threads
默认值:40
说明:map和reduce是通过http进行数据传输的,这个是设置传输的并行线程数。
mapreduce.map.output.compress
默认值:false
说明:
mapreduce.reduce.shuffle.merge.percent
默认值: 0.66
说明:reduce归并接收map的输出数据可占用的内存配置百分比。类似mapreduce.reduce.shuffle.input.buffer.percen属性。
mapreduce.reduce.shuffle.memory.limit.percent
默认值: 0.25
说明:一个单一的shuffle的最大内存使用限制。