1. 认识 Hadoop 和 Hbase1.1 Hadoop 简单介绍Hadoop 是一个使用 Java 编写的 Apache 开放源代码框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理。Hadoop 框架工作的应用程序可以在跨计算机群集提供分布式存储和计算的环境中工作。Hadoop 旨在从单一服务器扩展到数千台机器,每台机器都提供本地计算和存储。1.2 Hadoop 架构Ha
转载
2024-02-19 22:27:56
27阅读
前言 好几天没有更新了,本来是应该先写HDFS的相关内容,但是考虑到HDFS是我们后面所有学习的基础,而我只是简单的了解了一下而已,后面准备好好整理HDFS再写这块。所以大家在阅读这篇文章之前,请先了解HDFS的相关基本概念。本次搭建是手动在三台机器上搭建的,后续会尝试用docker或者apache ambari来搭建管理集群,这次搭建只是能够通过动手去更深的了解hadoop结构。准
转载
2023-07-13 14:32:53
35阅读
构建 Hadoop 集群 安装选项: 1. Apache tarballs :The Apache Hadoop project and related projects provide binary (and source) tarballs for each release.
2. Packages :RPM and Debian p
转载
2023-12-25 13:16:45
65阅读
hadoop fs 列出所有的命令hadoop fs -help ls 列出某个命令的详细信息hadoop dfs -mkdir /data/weblogshadoop dfs -mkdir /data/dir1 /data/dir2 ... 创建文件夹,可以递归创建,可同时创建多个目录echo "Hello world" > weblog_entries.tx
# Hadoop集群上传文件
在Hadoop集群中,上传文件是常见的操作,可以通过Hadoop的命令行工具或编程接口来实现。本文将介绍如何使用Hadoop集群的命令行工具来上传文件。
## Hadoop命令行工具
Hadoop提供了命令行工具`hadoop fs`来进行文件操作,包括上传、下载、删除等。上传文件到Hadoop集群可以使用以下命令:
```markdown
hadoop fs
原创
2024-05-21 05:30:39
61阅读
本文略长,希望各位大佬见谅!!!需要的安装包:jdk-8u162-linux-x64.tar.gz( 提取码:6k1i )、hadoop-3.1.3.tar.gz( 提取码:07p6 )1 集群规划安装VMware,使用三台Ubuntu18.04虚拟机进行集群搭建,下面是每台虚拟机的规划:主机名IP用户HDFSYARNhadoopMaster待定rmc0924NameNode、DataNodeNo
转载
2023-08-03 19:56:58
159阅读
硬件环境:实验室的3台老机器组成的集群,配置:NameNode:
CPU:
Intel(R)Pentium(R)DualCPUE2160@1.80GHz
size:1800MHz
capacity:1800MHz
width:64bits
clock:200MHz
Memory:
size:2GiB
width:64bits
Network:
description:Ethernetinterfa
转载
2023-09-22 13:13:52
106阅读
安装从hadoop官网下载hadoop安装包,解压到安装目录,安装目录最好在用户目录下,因为在用户目录下当前用户拥有直接读写权限,不用sudo也不会报权限错误,而后配置环境变量 下载地址:http://hadoop.apache.org/releases.html 官方安装文档: http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/
转载
2023-07-12 12:05:52
77阅读
本次搭建版本 为hadoop-3.3.0.1、下载hadoop创建hadoop文件夹cd usr/
mkdir softInstall
cd softInstall/
mkdir hadoop在hadoop文件夹下执行下载命令:wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.0/hadoop-3.3
转载
2023-08-29 15:55:56
255阅读
摘要: 在大数据应用中,首先需要考虑的问题就是如何存储大量数据(HDFS)。通常情况下,我们会将每天产生的生产日志文件存储到HDFS中,久而久之会占用大量磁盘空间。而压缩技术可以大大减少数据文件对于磁盘的占用。而且在读写HDFS的时候,可以减少磁盘和网络的IO,提高MapReduce作业的效率。但是,压缩也会在一定程度上增加CPU的消耗,所以在使用压缩的时候应该综合考虑,合理使用。注意: 压缩特
转载
2023-07-12 12:43:22
113阅读
CentOS7搭建Hadoop集群的详细操作流程一、准备工作若还没安装虚拟机可参考:VMVMware14虚拟机安装程
没安装CentOS的可参考:Linux CentOS安装教程
Haddop的下载可以到https://mirrors.cnnic.cn/apache/hadoop/common/这个网址下载,下载的时候版本是选择Hadoop2.x.版本。格式文件选择hadoop-2.x.y.tar
转载
2023-09-22 12:58:13
49阅读
这里,继续对FsShell类中一些命令进行阅读分析,主要是看与拷贝文件有关的几个命令。cp命令该命令实现对文件的拷贝操作,并且支持在不同的文件系统之间进行文件的拷贝。拷贝文件涉及的操作比较复杂,核心拷贝操作还是调用了org.apache.hadoop.fs.FileUtil类的copy方法实现的。 先看该类中定义的其中一个copy方法的实现: private int copy(Stri
转载
2023-09-22 12:57:20
60阅读
文章目录8、hdfs其他功能介绍多个集群之间的数据拷贝Hadoop归档文件archivehdfs快照snapShot管理快照使用基本语法快照操作实际案例HDFS回收站 8、hdfs其他功能介绍在我们实际工作当中,极有可能会遇到将测试集群的数据拷贝到生产环境集群,或者将生产环境集群的数据拷贝到测试集群,那么就需要我们在多个集群之间进行数据的远程拷贝,Hadoop自带也有命令可以帮我们实现这个功能多
转载
2023-11-14 10:42:21
192阅读
概述DISTCP(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具,是Hadoop用户常用的命令之一。它使用Map/Reduce实现大量文件拷贝分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 DISTCP的源码可以在Hadoop工程源码的hadoop
转载
2023-11-02 10:29:34
83阅读
# 如何上传文件到Hadoop集群
## 引言
在Hadoop集群中,我们通常需要将数据文件上传到集群中进行分布式存储和处理。本文将介绍如何通过Hadoop命令行工具和Hadoop Java API两种方式上传文件到Hadoop集群。
## 问题描述
在实际应用中,我们经常会遇到需要将本地文件上传到Hadoop集群中的情况。例如,我们有一个本地的文本文件abc.txt,想要将该文件上传到Had
原创
2023-09-13 10:12:15
1276阅读
# 如何在Hadoop集群中使用HDFS上传文件
在大数据时代,Hadoop集群成为处理海量数据的重要工具。其中,HDFS(Hadoop Distributed File System)是Hadoop的核心模块,它为大数据存储提供了高效和可靠的解决方案。本文将介绍如何在Hadoop集群中将文件上传到HDFS,包括代码示例和序列图。
## HDFS简介
HDFS是一个基于Java的分布式文件系
原创
2024-09-28 06:52:43
233阅读
预处理启动遇到问题:找不到类Caused by: java.lang.RuntimeException: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.hdfs.server.namenode.ha.AdaptiveFailoverProxyProvider not fou
原创
2023-03-04 17:28:35
506阅读
## Hadoop集群日志文件清理
在大规模的Hadoop集群中,由于任务执行和系统运行等原因,会产生大量的日志文件。这些日志文件不仅占用大量的存储空间,还会影响系统的性能。因此,定期清理集群中的日志文件是非常必要的。
### Hadoop日志文件
Hadoop集群中的日志文件主要分为两类:任务日志和系统日志。
任务日志包括任务的执行日志、MapReduce作业的日志以及应用程序的日志等。
原创
2023-12-22 05:30:31
174阅读
# Hadoop 集群内复制文件教程
## 1. 整体流程
下面是复制文件到 Hadoop 集群的整体流程的步骤表格:
| 步骤 | 描述 |
| ---- | ---- |
| 1. | 配置 Hadoop 环境 |
| 2. | 创建一个本地文件 |
| 3. | 将本地文件上传到 HDFS |
| 4. | 复制 HDFS 上的文件 |
| 5. | 验证复制是否成
原创
2023-07-21 20:11:32
836阅读
# 修改Hadoop集群的hosts文件
在搭建Hadoop集群的过程中,正确配置集群的hosts文件是重要的一步。该文件用于将集群中各个节点的IP地址与主机名对应起来,从而确保各个节点之间能够相互识别。对于刚入行的开发者来说,这个过程可能有点难度,但只要按照步骤进行,就能顺利完成。本文将为你详细描述修改Hadoop集群hosts文件的流程,并提供必要的代码与解释。
## 流程概述
首先,我