如何从Linux切换至Hadoop
Hadoop是一个开源的分布式计算框架,用于处理大规模数据集的分布式存储和并行处理。在本篇文章中,我们将介绍如何从Linux系统切换至Hadoop框架。
步骤一:安装Java
在开始之前,确保你已经安装了Java Development Kit(JDK)。Hadoop是用Java编写的,所以需要安装Java才能运行。
sudo apt update
sudo apt install openjdk-8-jdk
步骤二:下载和配置Hadoop
- 打开Hadoop的下载页面(
- 解压下载的Hadoop压缩文件。
tar -xzvf hadoop-3.3.1.tar.gz
- 移动解压后的Hadoop文件夹至合适的位置(例如
/opt/hadoop
)。
sudo mv hadoop-3.3.1 /opt/hadoop
- 配置环境变量。打开
~/.bashrc
文件(或者其他你使用的shell配置文件),并添加以下行:
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
- 使配置生效。
source ~/.bashrc
步骤三:配置Hadoop集群
Hadoop可以在单节点或者多节点集群上运行。在本文中,我们将演示如何在单节点上配置和运行Hadoop。
- 进入Hadoop的安装目录。
cd /opt/hadoop
- 编辑
etc/hadoop/core-site.xml
文件,添加以下配置:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
- 编辑
etc/hadoop/hdfs-site.xml
文件,添加以下配置:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
- 格式化Hadoop文件系统。
bin/hdfs namenode -format
- 启动Hadoop。
sbin/start-dfs.sh
- 验证Hadoop是否成功启动。
jps
你应该看到类似以下的输出:
12345 NameNode
67890 DataNode
步骤四:运行Hadoop示例
现在,你已经成功配置并启动了Hadoop,可以尝试运行一个简单的示例来验证它的工作。
- 创建一个输入文件。
echo "Hello, Hadoop!" > input.txt
- 将输入文件上传至Hadoop文件系统。
bin/hdfs dfs -put input.txt /input/input.txt
- 运行示例程序。
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /input /output
- 查看输出结果。
bin/hdfs dfs -cat /output/part-r-00000
你应该看到类似以下的输出:
Hello 1
Hadoop 1
以上就是如何从Linux切换至Hadoop的详细步骤。希望本文能帮助你成功搭建和运行Hadoop框架。