经过一段时间对hadoop的研究,发现进展很慢,于是回过头来回味一下在学习这个java框架的一些感受,也为以后深入学习打下基础。
一:简介:hadoop是搭建分布式计算的开源框架,虽然有很多改进,但是仍有很多的bug,这使我在学习过程中有非常多的困难。比如说最新版本0.21.0,在eclipse下不能new hadoop location。所以建议还是使用比较稳定的0.20.0版本。
二:环境:分布式环境多是在linux环境下搭建,对于对linux零基础的我来说,整个配置过程花费了非常多的经历,还好在同学耐心的帮助下还是将环境搭建起来,所以建议没有linux基础的同学还是先大概的了解一下linux的基本命令再去学习hadoop。
三:配置过程:这是很痛苦的过程,参考了很多资料(包括hadoop官方文档太粗略,他人的博客又不符合自己的版本,问题的原因多种多样,解决方法不一而终)。
简单的描述自己的配置过程:
环境:ubuntu10.10,eclipse3.6.2,hadoop0.21.0,JDK1.6.2,hadoop-0.20.2-eclipse-plugin;
过程;参考hadoop官方文档http://hadoop.apache.org/
一些博客与技术论坛http://blog.sina.com.cn/s/blog_5d2184eb0100qpgl.html和http://phz50.iteye.com/blog/932373
其他的资料大家可以到网上搜。
步骤一:建立ssh,保证各个node之间可以用ssh添加到信任的hosts里
步骤二:安装jdk
步骤三:安装hadoop,这里hadoop的配置要说一下,在官方文档中给出了很多配置文件,但并不是每一个配置文件都要修改。关键的几个配置文件:core-site.xml中,mapred-site.xml,hdfs-site.xml,以及conf文件夹下的masters和slaves这几个文件。
具体的配置请参考官方文档。
步骤四:安装eclipse,在eclipse集成hadoop的plugin。将0.20.0版本的jar放入到eclipse plugins文件下。按照博客上的步骤进行安装测试。