集群启动
在hadoop安装目录的sbin下执行 ./start-all.sh
正常启动集群
正常的关闭集群
哪个节点的服务出现异常,就到哪个节点的log下面找对应的日志
所有的启动信息(有异常或无异常),都包含在日志中
集群不要轻易的去格式化(格式化后集群的所有数据都被删除且无法恢复)
验证集群是否可用
jps 用于验证集群服务的启动情况
1、namenode所在节点的IP+50070端口 查看HDFS的web界面是否可用
2、在HDFS系统中创建一个文件夹或文件,若能创建表示集群可以
HDFS不支持目录或文件夹切换,所有路径必须写成结对路径
HDFS权限与linux 的权限等完全相同
HDFS 体验
创建文件夹
hadoop fs -mkdir /abc
上传文件
hadoop fs -put /opt/a.txt /abc
查看文件夹内的内容
hadoop fs -ls /abc
MapReduce 初体验
hadoop jar /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/hadoop-mapreduceexamples-2.6.0-cdh5.14.0.jar pi 10 100
19/11/01 16:53:36 INFO mapreduce.Job: Job job_1572596152487_0001 running in uber mode : false 19/11/01
16:53:36 INFO mapreduce.Job: map 0% reduce 0% 19/11/01 16:53:46 INFO mapreduce.Job: map 10% reduce
0% 19/11/01 16:53:47 INFO mapreduce.Job: map 20% reduce 0% 19/11/01 16:53:48 INFO mapreduce.Job: map
40% reduce 0% 19/11/01 16:54:03 INFO mapreduce.Job: map 40% reduce 13% 19/11/01 16:54:11 INFO
mapreduce.Job: map 50% reduce 13% 19/11/01 16:54:12 INFO mapreduce.Job: map 70% reduce 13% 19/11/01
16:54:15 INFO mapreduce.Job: map 70% reduce 23% 19/11/01 16:54:16 INFO mapreduce.Job: map 80%
reduce 23% 19/11/01 16:54:17 INFO mapreduce.Job: map 100% reduce 23% 19/11/01 16:54:18 INFO
mapreduce.Job: map 100% reduce 100% 19/11/01 16:54:18 INFO mapreduce.Job: Job
job_1572596152487_0001 completed successfully 19/11/01 16:54:18 INFO mapreduce.Job: Counters: 49 File
System Counters FILE: Number of bytes read=226 FILE: Number of bytes written=1573194 FILE: Number of
read operations=0 FILE: Number of large read operations=0 FILE: Number of write operations=0 HDFS:
Number of bytes read=2600 HDFS: Number of bytes written=215 HDFS: Number of read operations=43 HDFS:
Number of large read operations=0 HDFS: Number of write operations=3 Job Counters Launched map
tasks=10 Launched reduce tasks=1 Data-local map tasks=10 Total time spent by all maps in occupied slots
(ms)=237787 Total time spent by all reduces in occupied slots (ms)=29384 Total time spent by all map tasks
(ms)=237787 Total time spent by all reduce tasks (ms)=29384 Total vcore-milliseconds taken by all map
tasks=237787 Total vcore-milliseconds taken by all reduce tasks=29384 Total megabyte-milliseconds taken by
all map tasks=243493888 Total megabyte-milliseconds taken by all reduce tasks=30089216 Map-Reduce
Framework Map input records=10 Map output records=20 Map output bytes=180 Map output materialized
bytes=280 Input split bytes=1420 Combine input records=0 Combine output records=0 Reduce input
groups=2 Reduce shuffle bytes=280 Reduce input records=20 Reduce output records=0 Spilled Records=40
Shuffled Maps =10 Failed Shuffles=0 Merged Map outputs=10 GC time elapsed (ms)=25188 CPU time spent
(ms)=45780 Physical memory (bytes) snapshot=3021463552 Virtual memory (bytes) snapshot=30383869952
Total committed heap usage (bytes)=2541223936 Shuffle Errors BAD_ID=0 CONNECTION=0 IO_ERROR=0
WRONG_LENGTH=0 WRONG_MAP=0 WRONG_REDUCE=0 File Input Format Counters Bytes Read=1180 File
Output Format Counters Bytes Written=97 Job Finished in 51.997 seconds Estimated value of Pi is
3.14800000000000000000
查看历史执行了哪些任务(所有任务)以及详细日志 登录到resourceManager所在的节点IP +8088
http://192.168.100.201:8088 需要查看任务的详细信息需要独立开启一个服务JobHistoryServer
开启服务 ./mr-jobhistory-daemon.sh start historyserver
查看 http://192.168.100.201:19888
HDFS 文件系统的容量
理解: 将多个节点的容量汇总到一起拼接成一个大的文件系统,
在一个节点上传数据,在其他的节点上都能够访问使用。
hadoop 的组成部分
HDFS
管理者:NameNode
作用:负责管理,管理集群内各个节点。
负责管理整个文件系统的元数据(指的是数据的存放位置或存放路径)或名字空间
辅助管理者:SecondaryNameNode
作用:责辅助NameNode管理工作。
工作者:DataNode
作用:负责工作,进行读写数据。 周期向NameNode汇报。
负责管理用户的文件数据块(一个大的数据拆分成多个小的数据块)
MapReduce
Yarn
管理者:ResourceManager
工作者:NodeManager
HDFS 副本存放机制
第一份数据来源于客户端
第二份存放的位置是与第一个副本在相同机架上,且不在同一个节点,按照一定的规则(cpu 内存 IO是用率,和硬
盘剩余容量)找到一个节点存放
第三个副本的存放位置是与第一第二份数据副本不在同一个机架上,且逻辑与存放副本1和2的机架距离最近的机上
按照一定的规则(cpu 内存 IO是用率,和硬盘剩余容量)找到一个节点进行存放
Namenode作用
1、维护 管理文件系统的名字空间(元数据信息) 2、负责确定指定的文件块到具体的Datanode结点的映射关系。
3、维护管理 DataNode上报的心跳信息