hdfs分布式存储架构 hdfs分布式缓存

转载

mob6454cc7a88c0 2023-07-04 22:05:36

文章标签 hdfs分布式存储架构 hadoop 分布式缓存 hadoop 数据 hdfs 文章分类 架构后端开发

Hadoop有一个叫做分布式缓存(distributed cache)的机制来将数据分发到集群上的所有节点上。为了节约网络带宽，在每一个作业中，各个文件通常只需要复制到一个节点一次。

缓存文件复制位置：

mapred-site.xml中
<property>
<name>mapred.local.dir</name>
<value>/home/hadoop/tmp</value>
</property>

操作步骤：

1.将数据的分发到每个节点上：

DistributedCache.addCacheFile(new URI("hdfs://cloud01:9000/user/hadoop/mrinput/ST.txt"), conf);

注意，此操作一定要在创建Job，将conf传递给Job之前进行，否则数据文件的路径不会被Mapper中取到。

2.在每个Mapper中获取文件URI，再进行相关操作：

URI[] uris=DistributedCache.getCacheFiles(context.getConfiguration());

比如读取该文件：

FileSystem fs = FileSystem.get(URI.create("hdfs://cloud01:9000"), context.getConfiguration());
　　FSDataInputStream in = null;
　　in = fs.open(new Path(uris[0].getPath()));
　　BufferedReader br=new BufferedReader(new InputStreamReader(in));

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：avro介绍 hadoop hadoop api中文版

下一篇：Python 解码16进制 python中解码

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hdfs分布式存储架构 hdfs分布式缓存

hdfs分布式存储架构 hdfs分布式缓存

51CTO博客