搭建一个linux的伪分布hadoop

条件:linux上放java的jdk安装包,hadoop的安装包,先把这两个包解压到root目录下的自己新建的目录下。
配置jdk,hadoop的环境变量

根据自己的jdk的位置和hostname配置下列文件

hadoop jps在哪 jps在hadoop中做了什么_hdfs


hadoop jps在哪 jps在hadoop中做了什么_hadoop_02


hadoop jps在哪 jps在hadoop中做了什么_hadoop_03


hadoop jps在哪 jps在hadoop中做了什么_hdfs_04


hadoop jps在哪 jps在hadoop中做了什么_hadoop_05


然后在bin目录下执行格式化

./hdfs namenode –format

在sbin目录下执行

./start-dfs.sh

./start-yarn.sh

一个基本的Hadoop集群中的节点主要有(通过jps可以查询)

查询到下面的几个进程就OK

NameNode:负责协调集群中的数据存储

DataNode:存储被拆分的数据块

ResourceManager:协调数据计算任务

NodeManager:负责执行由JobTracker指派的任务

SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息

jps:是java进程

如果缺少节点,自己查,可以去hadoop根目录/logs里查日志,缺少什么查什么。附加一个刚刚看到的网址namenode不了:Cannot assign requested address

再访问web界面,查看hadoop信息

(ip地址:50070 ip地址:8088)

关于hadoop

一句话总结hadoop:一个分布式的储存、计算框架。

    **Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)、yarn(Yet Another Resource Negotiator,另一种资源协调者)和MapReduce**

      Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:

高可靠性
高效性
高可扩展性
高容错性
成本低
运行在Linux平台上
支持多种编程语言

调用文件系统(FS)Shell命令应使用 bin/hdfs dfs -xxx 的形式。

所有的FS shell命令使用URI路径作为参数。
 URI格式是scheme://authority/path。HDFS的scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。
 例如:/parent/child可以表示成hdfs://namenode:namenodePort/parent/child,或者更简单的/parent/child(假设配置文件是namenode:namenodePort)
大多数FS Shell命令的行为和对应的Linux Shell命令类似。

hdfs常见的命令:
-ls /
路径为空,表示显示/user/
-h选项,表示文件大小显示时,使用合适的单位
-R选项,表示递归显示路径的所有内容
-put localSrc hdfsdst
从本地上传文件(夹)到hdfs。如果hdfs已经存在同名的文件(夹),就报错。
-f选项,表示覆盖hdfs的同名文件(夹)
-p选项,表示上传时保留文件原来的ownerid、groupid、accesstime、modification time属性
-get hdfssrc localdst
从hdfs下载文件到本地
-mkdir hdfsdst
创建文件夹
-p选项,表示递归创建文件夹
-appendToFile localsrc hdfsdst — 当前版本不支持
把本地文件内容追加到hdfs的文件中
-cp hdfssrc hdfsdst
在hdfs中复制
-help cmd
显示命令的帮助