试用hadoop jvm复用配置

原创

mb64afcfe51e58c 2023-07-13 18:37:25 ©著作权

©著作权归作者所有：来自51CTO博客作者mb64afcfe51e58c的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hadoop默认为每个task（map task 或者 reduce task）启动一个jvm。

鉴于目前小文件过多的问题，设置了jvm复用，即一个job内，多个task共享jvm，避免多次启动jvm，浪费资源和时间。

测试Job信息：

map：4715个

reduce：20个

input： 34G

output: 25G

优化前：1464 s

优化后：1375 s

Job运行时间减少 6%

CPU使用率情况：

*注意: mapred.job.reuse.jvm.num.tasks这个参数是客户端参数，修改不需要重启tasktracker，可以在提交job的shell或者代码中设置。

-- heipark

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯