大数据研发(一)Hadoop平台搭建
搭建Hadoop平台:一般会有这样几个步骤下载安装包,解压安装包进行安装(平台参数文件配置)。当然,在安装Hadoop前需要安装可依赖的JDK。在篇我不会暗部就搬地讲安装过程,只会零星带过因为安装步骤实在是太多了,但是解析操作、安装背后东西的却很少。
在安装之前,我相对建议大家对集群的ip地址进行系统的规划,然后在机器上实现静态IP地址的设置。当然,如果在集群数量不是特别大的时候,还可以通过设置IP地址于MAC地址绑定,防止IP地址冲突等问题。而对于数据庞大的系统,使用简单的配置是不可行的。可以使用DHCP的方式分配,但是在分配完通过修改失效时间等,使得几乎做到就是固定分配。
其中讲一个SSH免密码登录,这个SSH操作有好几种方法,经常用的则是使用SSH -keygen -t rsa,生成密钥对。即一个私钥一个公钥, .ssh下有id_rsa和id_rsa.pub。 然后需要做的是判断清楚,你是要SSH访问那台机器,如果访问local1那么就把本机生成的id_rsa.pub文件内容拷贝到创建的.ssh/authorized_keys
在这里还想在提醒一点的是,一般地在讲解Hadoop安装的步骤中,可能会是建议都是相互拷贝公钥,这样就可以形成可以相互免密码登录、发送文件等功能。但是如果细致那操作,这样做是不合理的。首先需求明确搭建Hadoop使用SSH的目的是为了可以便捷地启动和管理平台。如果使用start-all.sh命令等,这些通常都应该是Master主机发出的,其他主机从机应该接受命令或者仅启动本地命令操作。如果存在从机器上误操作,关闭这个集群等,那么后果是很严重的。所以在使用该配置时,建议不要刚为了简单可行就这样统统处理了事。
还有一个经常可见的操作,就是创建不同的用户。这个也是可能会买下错误的地方,一般大家习惯使用root用户操作,但是在正在上线的平台环境中。这个最好不要用root,因为root权限相对大,权利越大责任越大犯错产生的影响就越大。所以建议建立一个用于操作Hadoop平台的特权用户,同时仅限于个别或者就这一个用户可以操作平台尤其是删、增操作。其他的用户也建立成普通的仅可以读操作和本地空间写操作的用户,这样在平台开发、上线时,就可以控制了,由特定的用户上线、检查,是实现平台规范化、健壮性的重要举措。也许大家看着感觉难以接受,但是真的当你遇到特别忙、特别累的时候,很容易会犯错,如果权限太大删除了线上文件或者作业等。或者由于编辑页打开太多,把测试和线上文件搞混了,无意修改了线上脚本等。这些都是在规模稍大的团体中容易出现的错误,而且出现了也是后果不看估量的错误。这里给大家提个醒,如果真的由于某种原因删除了什么,那么看看一般平台会创建垃圾回收机制,所以找到操作用户下的Trash文件在里面Current中找到被删除的内容恢复。
在安装Hadoop时还有一点希望大家要注意,那就是在修改、填写几个配置文件时。其实质那就是在给平台配置参数,所以真正的平台应该考虑的东西可能就要细致了。如果之前说的要配置垃圾回收机制;要设置怎么样的内容备份数可以获得平台最优,且冗余情况也相对优质等等。这些除了有日常的经验外,也可以通过分析参数间的关系,结合平台情况进行设置。千万不能就是简单地按照找到的安装教程填写,那些都是粗略的。