JAVA中操作HADOOP hadoop的javahome

转载

Python数据分析 2023-09-18 14:55:19

文章标签 JAVA中操作HADOOP hadoop hadoop基础 hadoop环境搭建 xml 文章分类 Java 后端开发

1：在Vmware上安装linux（略），我的是radhat5.5。

2：安装jdk，去官网下载一个jdk，比如jdk1.6.0_13，下载到linux下并解压，我的解压后路径是/usr/local/jdk1.6.0_13。

配置环境变量：输入命令 vi /etc/profile，然后输入i

在profile文件末尾加入：

export JAVA_HOME=/usr/local/jdk1.6.0_13
export PATH=$JAVA_HOME/bin:$PATH 
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

完成之后安X键保存退出。

输入命令：java -version 出现java version "1.6.0_13"，表示java的环境变量配置成功。

3：安装ant，去官网下载ant，我的是最新版apache-ant-1.9.2，下载后并解压，我的是/home/apache-ant-1.9.2

配置环境变量：将/home/apache-ant-1.9.2拷贝到/usr/local/apache-ant-1.9.2下，输入命令 vi /etc/profile，然后输入i，在

# System wide environment and startup programs, for login setup
 # Functions and aliases go in /etc/bashrc下输入：
 ANT_HOME=/usr/local/apache-ant-1.9.2
 PATH=$ANT_HOME/bin:$PATH

完成之后安X键保存退出。

输入命令：ant -version 出现Apache Ant(TM) version 1.9.2 compiled on July 8 2013字样，表示ant的环境变量配置成功。

4：安装ecilpse，去官网下载个linux版本（注意是32位还是64位的），查看linux位数，输入：getconf LONG_BIT，若出现32便是32位，若出现64表示是64位，其余步骤与windows差不多。

5：安装并配置hadoop，去官网下载hadoop，我的是hadoop1.0.0.tar.gz；解压后并安装，我的路径是/home/hadoop。

配置环境变量：输入 vi conf/hadoop-env.sh命令，然后输入i

export JAVA_HOME=/usr/local/jdk1.6.0_13

完成之后安X键保存退出。

接下来是Hadoop配置文件的配置，主要是core-site.xml，hdfs-site.xml，mapred-site.xml；详细情况请看：，先搭建个最简单的单机版hadoop。

core-site.xml的配置：

<configuration>
  <property>
   <name>fs.default.name</name>
   <value>hdfs://localhost:9000</value>
 </property>
 </configuration>

hdfs-site.xml的配置：

<configuration>
 <property>
   <name>dfs.replication</name>
   <value>1</value>
 </property>
 <property>
   <name>dfs.permissions</name>   //是否需要角色权限验证，上传文件时会用到，
   <value>false</value>            //如果为true，需要绑定hadoop用户角色
 </property>
 </configuration>

mapred-site.xml的配置：

<configuration>
 <property>
   <name>mapred.job.tracker</name>
   <value>localhost:9001</value>
 </property> 
 </configuration>

这样hadoop的环境就配置好了。

6：安装并设置ssh，安装后（一般linux都会自带ssh服务，所以我就不详细阐述ssh的安装了），接下来设置ssh的免密码登陆；输入命令：ssh-keygen -t rsa，再输入cd ~/.ssh,然后输入cat id_rsa.pub >> authorized_keys即可，如是遇到提示输入“yes”即可。

7：启动hadoop，进入/home/hadoop目录下，

(1)格式化hdfs 输入命令bin/hadoop namenode -format

(2)启动hadoop 输入命令bin/start-all.sh

查看hadoop是否启动成功：

MapReduce查看方式登陆URL:http://localhost:50030/ 即可

HDFS查看方式登陆URL:http://localhost:50070/ 即可

若是网页不显示错误，则说明hadoop启动成功。

Hadoop其他命令：

格式化namenode
bin/hadoop namenode -format
启动集群
一
bin/start-all.sh 启动所有
二
bin/start-dfs.sh 启动HDFS文件系统
bin/start-mapred.sh 启动NameNode和JobTracker

其他常用命令(注意，如果不带根目录，hadoop操作的目录都是/user/username目录)
hadoop fs -ls / 列出HDFS下的文件
hadoop fs -mkdir input 创建文件夹(hadoop会根据当前用户创建相应目录下的文件，例如/user/hadoop/input)
hadoop fs -mkdir /input 在根目录下创建文件夹
hadoop fs -ls /in 列出HDFS根目录下in目录下的文件
hadoop fs -put file /file 上传文件到指定目录并且重新命名
hadoop fs -get /file file 从HDFS获取文件并且重新命名
hadoop fs -rmr out 删除文件/文件夹
hadoop fs -cat /in/file 查看文件内容
hadoop dfsadmin -report 查看文件系统基本统计信息
hadoop dfsadmin -safemode enter 退出安全模式
hadoop dfsadmin -safemode leave 进入安全模式