hadoop jps在哪 jps在hadoop中做了什么

转载

mob64ca140d61c6 2024-03-01 13:29:34

文章标签 hadoop jps在哪 hadoop hdfs Hadoop 文章分类 Hadoop 大数据

搭建一个linux的伪分布hadoop

条件：linux上放java的jdk安装包，hadoop的安装包，先把这两个包解压到root目录下的自己新建的目录下。
配置jdk，hadoop的环境变量

根据自己的jdk的位置和hostname配置下列文件

hadoop jps在哪 jps在hadoop中做了什么_hdfs

hadoop jps在哪 jps在hadoop中做了什么_hadoop_02

hadoop jps在哪 jps在hadoop中做了什么_hadoop_03

hadoop jps在哪 jps在hadoop中做了什么_hdfs_04

hadoop jps在哪 jps在hadoop中做了什么_hadoop_05

然后在bin目录下执行格式化

./hdfs namenode –format

在sbin目录下执行

./start-dfs.sh

./start-yarn.sh

一个基本的Hadoop集群中的节点主要有（通过jps可以查询）

查询到下面的几个进程就OK

NameNode：负责协调集群中的数据存储

DataNode：存储被拆分的数据块

ResourceManager：协调数据计算任务

NodeManager：负责执行由JobTracker指派的任务

SecondaryNameNode：帮助NameNode收集文件系统运行的状态信息

jps：是java进程

如果缺少节点，自己查，可以去hadoop根目录/logs里查日志，缺少什么查什么。附加一个刚刚看到的网址namenode不了：Cannot assign requested address

再访问web界面，查看hadoop信息

（ip地址:50070 ip地址:8088）

关于hadoop

一句话总结hadoop：一个分布式的储存、计算框架。

    **Hadoop的核心是分布式文件系统HDFS（Hadoop Distributed File System）、yarn（Yet Another Resource Negotiator，另一种资源协调者）和MapReduce**

      Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性：

高可靠性
高效性
高可扩展性
高容错性
成本低
运行在Linux平台上
支持多种编程语言

调用文件系统(FS)Shell命令应使用 bin/hdfs dfs -xxx 的形式。

所有的FS shell命令使用URI路径作为参数。
　URI格式是scheme://authority/path。HDFS的scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme。
　例如：/parent/child可以表示成hdfs://namenode:namenodePort/parent/child，或者更简单的/parent/child（假设配置文件是namenode:namenodePort）
大多数FS Shell命令的行为和对应的Linux Shell命令类似。

hdfs常见的命令：
-ls /
路径为空，表示显示/user/
-h选项，表示文件大小显示时，使用合适的单位
-R选项，表示递归显示路径的所有内容
-put localSrc hdfsdst
从本地上传文件(夹)到hdfs。如果hdfs已经存在同名的文件(夹)，就报错。
-f选项，表示覆盖hdfs的同名文件(夹)
-p选项，表示上传时保留文件原来的ownerid、groupid、accesstime、modification time属性
-get hdfssrc localdst
从hdfs下载文件到本地
-mkdir hdfsdst
创建文件夹
-p选项，表示递归创建文件夹
-appendToFile localsrc hdfsdst — 当前版本不支持
把本地文件内容追加到hdfs的文件中
-cp hdfssrc hdfsdst
在hdfs中复制
-help cmd
显示命令的帮助