Hadoop是什么?
Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并行处理任务,支持大规模数据存储和处理。Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce,它们使得Hadoop可以在廉价的硬件上并行地处理大量数据。Hadoop还包括很多相关的项目和子项目,如Pig、Hive、HBase等,它们都是围绕Hadoop构建的数据处理和查询工具。Hadoop已经成为了大数据领域的标准技术之一,受到了很多企业和组织的广泛应用。
Hadoop的用途
Hadoop主要用于大规模数据的存储和处理,可以帮助用户快速地处理海量数据,提取有价值的信息。以下是Hadoop常见的用途:
- 数据存储:Hadoop提供了分布式文件系统HDFS,它可以把数据切分成多个块进行存储,并且每个数据块都会被多个节点进行备份,从而确保数据的高可靠性和可用性。
- 数据处理:Hadoop的分布式计算框架MapReduce可以灵活地处理大规模数据集。用户可以编写MapReduce程序,将数据分成更小的“分片”,并在多个计算节点上同时进行计算,从而大大缩短处理时间。
- 数据挖掘和分析:Hadoop生态系统中还包含了很多数据挖掘和分析工具,比如Pig、Hive、Spark、Mahout等。用户可以通过这些工具进行数据分析、数据挖掘和数据可视化等工作。
- 日志处理:Hadoop还可以用于实时日志的收集和分析。用户可以使用Hadoop存储和处理日志数据,并通过实时数据分析工具(如Storm、Flink等)快速反应异常情况。
总之,Hadoop可以帮助用户处理大规模数据,并提取有价值的信息,为用户提供更为准确的数据决策支持。
Hadoop命令小锦囊
命令 | 解释 |
start-dfs.sh | 启动HDFS |
stop-dfs.sh | 结束HDFS |
hdfs --daemon start namenode | 启动NameNode(换成stop结束) |
hdfs --daemon start datanode | 启动DataNode(换成stop结束) |
hdfs --daemon start secondarynamenode | 启动SecondaryNameNode (换成stop结束) |
hadoop fs -put /home/a.txt / 或者 hadoop fs -copyFromLocal /home/a.txt / | 上传文件 |
hadoop fs -get /a.txt /home 或者 hadoop fs -copyToLocal /a.txt /home | 下载文件 |
hadoop fs -mkdir /txt | 创建目录 |
hadoop fs -mkdir -p /video/movie | 创建多级目录 |
hadoop fs -rm /b.txt | 删除文件 |
hadoop fs -rmdir /txt | 删除目录 |
hadoop fs -rm -r /video | 递归删除目录 |
hadoop fs -cat /c.txt | 查看文件内容 |
hadoop fs -tail /c.txt | 查看文件最后1000个字节的数据 |
hadoop fs -mv /c.txt /a.txt | 重命名或者剪切 |
hadoop fs -cp /txt/a.txt /a.txt | 复制文件 |
hadoop fs -ls / | 查看子文件或者子目录 |
hadoop fs -ls -R / | 递归查看 |
hadoop fs -setrep 3 /a.txt | 设置副本数量 |
hadoop fs -chmod 777 /a.txt | 更改权限 |
hadoop fs -chown tom /a.txt | 更改用户 |
hadoop fs -chgrp tedu /a.txt | 更改用户组 |