hadoop 主机硬件配置 hadoop参数配置详解

转载

bugouhen 2024-06-29 22:09:48

其中红色的配置为必须配置参数

参数取值备注

fs.default.name	NameNode	hdfs://主机名/
dfs.hosts/dfs.hosts.exclude	许可/拒绝DataNode列表。	如有必要，用这个文件控制许可的datanode列表。
dfs.replication	默认： 3	数据复制的分数
dfs.name.dir	/home/username/hadoop/namenode /tmp	当这个值是一个逗号分割的目录列表时，nametable数据将会被复制到所有目录中做冗余备份。
dfs.data.dir	举例：/home/username/hadoop/datanode 默认： /tmp	当这个值是逗号分割的目录列表时，数据将被存储在所有目录下，通常分布在不同设备上。

mapred.system.dir	Map/Reduce框架存储系统文件的HDFS路径。比如/hadoop/mapred/system/	这个路径是默认文件系统（HDFS）下的路径，须从服务器和客户端上均可访问。
mapred.local.dir	本地文件系统下逗号分割的路径列表，Map/Reduce临时数据存放的地方。	多路径有助于利用磁盘i/o。
mapred.tasktracker.{map\|reduce}.tasks.maximum	某一TaskTracker	默认为2（2个map和2个reduce），可依据硬件情况更改。
mapred.job.tracker	JobTracker	主机:端口。
mapred.hosts/mapred.hosts.exclude	许可/拒绝TaskTracker列表。	如有必要，用这个文件控制许可的TaskTracker列表。

hadoop.job.history.user.location	默认：mapred.output.dir/_logs/history 也可以设置为none 来停用	作业的历史文件记录目录

conf/slaves 写入全部的slave的机器名或者IP

nameNode记住每个文件被映射成的 blockId。每个blockId对应的block会被复制到不同的机器上多余一份。

hadoop 默认的block 是 64MB

查看namenode 是否启动：http://localhost:50070/

查看jobtracker是否启动：http://localhost:50030/

Hadoop 参数配置优化

主要参照官方给出的配置指南进行的。

hadoop.tmp.dir
默认值： /tmp
说明：

fs.trash.interval
默认值： 0
说明：

fs.inmemory.size.mb
默认值：
说明：

io.sort.factor
默认值：10
说明：排序文件的时候一次同时最多可并流的个数，这里设置100。新版本为mapreduce.task.io.sort.factor。

io.sort.mb
默认值：100
说明：

io.file.buffer.size
默认值：4096
说明：SequenceFiles在读写中可以使用的缓存大小，这里设置为131072。貌似这个参数在新版本里变为了：file.stream-buffer-size，单位bytes 。

dfs.blocksize
默认值：67108864
说明：

dfs.namenode.handler.count
默认值：10
说明：hadoop系统里启动的任务线程数，这里改为40，同样可以尝试该值大小对效率的影响变化进行最合适的值的设定。

mapred.child.java.opts
默认值：-Xmx200m
说明：jvms启动的子线程可以使用的最大内存。改为-Xmx1024m，内存再大也可以继续增加。但是如果一般任务文件小，逻辑不复杂用不了那么多的话太大也浪费。

mapreduce.jobtracker.handler.count
默认值：10
说明：JobTracker可以启动的线程数，一般为tasktracker节点的4%。

mapreduce.reduce.shuffle.parallelcopies
默认值：5
说明：reuduce shuffle阶段并行传输数据的数量。这里改为10。集群大可以增大。

mapreduce.tasktracker.http.threads
默认值：40
说明：map和reduce是通过http进行数据传输的，这个是设置传输的并行线程数。

mapreduce.map.output.compress
默认值：false
说明：

mapreduce.reduce.shuffle.merge.percent
默认值： 0.66
说明：reduce归并接收map的输出数据可占用的内存配置百分比。类似mapreduce.reduce.shuffle.input.buffer.percen属性。

mapreduce.reduce.shuffle.memory.limit.percent
默认值： 0.25
说明：一个单一的shuffle的最大内存使用限制。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客