介绍Hadoop分布式文件系统(HDFS)是一种分布式文件系统,设计用于在商用硬件上运行。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的差异很大。HDFS具有高度容错能力,旨在部署在低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问,适用于具有大型数据集的应用程序。HDFS放宽了一些POSIX(可移植操作系统接口,Portable Operating System Int
转载
2024-05-02 14:07:58
28阅读
我们知道fsck是用来检测hdfs上文件、block信息的,但是fsck输出的结果我们是否能看明白呢?参数解释:status:代表这次hdfs上block检测的结果Total size: 代表/目录下文件总大小Total dirs:代表检测的目录下总共有多少个目录Total files:代表检测的目录下总共有多少文件Total symlinks:代表检测的目录下有多少个符号连接Total bloc
转载
2024-04-19 18:14:08
52阅读
用法-mkdir 创建目录 Usage:hdfs dfs -mkdir [-p] < paths> 选项:-p 很像Unix mkdir -p,沿路径创建父目录。-ls 查看目录下内容,包括文件名,权限,所有者,大小和修改时间 Usage:hdfs dfs -ls [-R] < args> 选项:-R 递归地显示子目录下的内容-put 将本地文件或目录上传到HDFS中的路径
转载
2024-02-16 11:44:29
503阅读
文章目录HDFS常见功能集群间数据拷贝文件归档快照管理回收站 HDFS常见功能集群间数据拷贝scp实现两个远程主机之间的文件复制scp -r hello.txt root@bigdata111:/user/itstar/hello.txt // 推 push
scp -r root@bigdata112:/user/itstar/hello.txt hello.txt // 拉 pull
转载
2024-03-23 15:21:29
206阅读
本文由南京大学顾荣、李崇杰翻译整理自Alluxio公司技术博客,由Alluxio公司授权CSDN首发(联合),版权归Alluxio公司所有,未经版权所有者同意请勿转载。1.介绍Alluxio是世界上第一个以内存为中心的虚拟的分布式存储系统。它为上层计算框架和底层存储系统构建了桥梁,统一了数据访问的方式,使得数据的访问速度能比现有常规方案高出几个数量级。Hadoop Distributed File
《Hadoop权威指南》笔记 第三章 HDFS Hadoop是一次写入, 多次读取,因为这种被认为是最高效的访问模式. HDFS为高数据吞吐量优化, 高时间延迟. 对于低延迟, HBase是更好的选择. 大量的小文件不适合HDFS: namenode将文件系统的元数据存储在内存中,包括文件,目录,
前言 简单的描述HDFS文件系统的读写流程,以及向HDFS文件系统写入文件时为什么要使用pipline。实际读写流程远比下面描述的复杂。 将文件写入HDFS文件系统1.客户端向NameNode发送写入指令2.NameNode检查是否可以写入(目录是否存在、集群是否可用)并返回信息3.客户端向NameNode请求DataNode写入列表进行数据写入4.返回进行写入的DataNode列表(3副本)5
转载
2024-04-11 11:15:12
61阅读
前言 HDFS(Hadoop Distributed File System)是一个分布式文件系统。它具有高容错性并提供了高吞吐量的数据访问,非常适合大规模数据集上的应用,它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。 优点是: 高吞吐量访问:HDFS的每个Block分布在不同的Rack上,在用户访问时,HDFS会计算使用最近和访问量最小的服务器给用户提供。
转载
2024-09-03 13:15:52
44阅读
距离2020年初突然出现的疫情已经过去两年,虽然我们成功总结出因对措施,也很好的控制了疫情发展,但时不时的零星爆发,总会打我们个措手不及,回想上海、深圳以及最近的海南,都出台了严格的管控措施,让我们无法回到办公室处理工作。为避免发生因管控无法回公司上班的情况,我们可以提前在办公室电脑上,使用cpolar构建一条稳定且长期存续的远程办公数据隧道,做好远程办公的准备。这样就算因管控措施无法进入办公室,
概述对于通过编程,使用API来对HDFS进行操作的场景,其中一个需要考虑的问题是如何管理FileSystem实例(确切地说是DistributedFileSystem实例),通过查询文档,发现它是线程安全的但是这里的“线程安全”是指客户端的操作(创建文件夹、删除文件夹、创建文件...),但是FileSystem实例本身在不同线程间共享,却不是“安全”的。如果有两个线程使用同一个FileSystem
转载
2024-03-26 15:15:01
103阅读
HDFS中的命令行 本文介绍了HDFS以命令行执行的时候。几个经常使用的命令行的作用和怎样使用~1. fsfs是启动命令行动作,该命令用于提供一系列子命令。使用形式为hadoop fs –cmd <args>当中,cmd是子命令,args是详细的命令操作。比如hadoop fs –help或者说fs是其余子命令的父亲。其余都是在“-cmd”的模式下的!2. –
转载
2024-04-28 11:23:39
32阅读
HDFS的读写流程——宏观与微观HDFS:分布式文件系统,负责存放数据分布式文件系统:就是将我们的数据放到多台电脑上存储。写数据:就是将客户端上的数据上传到HDFS宏观过程客户端向HDFS发送读写数据请求hdfs dfs -put student.txt /shujia/ 客户端发送命令将student.txt文件上传到/shujia/目录下Filesystem通过rpc调用namenode的pu
转载
2024-05-08 10:12:09
132阅读
前言在Hadoop内部,详细实现了很多类的文件系统,当然最最被我们用到的就是他的分布式文件系统HDFS了。可是本篇文章不会讲HDFS的主从架构等东西,由于这些东西网上和资料书中都讲得非常多了。所以,我决定以我个人的学习所得。来讲讲HDFS内部的一些有意思的东西,也作为一个起始点。为兴许继续深入当中模块的学习做基础。HDFS两大主流关系模块与NameNode相关,文件系统元数据操作相关。包含文件文件
转载
2024-03-25 16:13:41
36阅读
HDFS设计:以流式数据访问模式来存储超大文件,“一次写入,多次读取”;HDFS为高数据吞吐量应用优化的,低延迟的方位需求应选择HBase;文件系统的元数据存储在namenode的内存中,所能存储的文件总数受限于内存容量;HDFS的块(block)默认为64M(块大的目的为了最小化寻址开销,从磁盘传输时间可明显大于定位时间),以块存储而非文件可简化存储系统的设计HDFS只是Hadoop文件系统的一
转载
2024-03-25 16:31:19
58阅读
1. HDFS的核心类简介Configuration类:处理HDFS配置的核心类。FileSystem类:处理HDFS文件相关操作的核心类,包括对文件夹或文件的创建,删除,查看状态,复制,从本地挪动到HDFS文件系统中等。Path类:处理HDFS文件路径。IOUtils类:处理HDFS文件读写的工具类。2. HDFS文件处理类FileSystem的核心方法介绍:1. FileSystem get(
转载
2024-10-22 20:03:49
41阅读
shell基本命令
linux命令行的组成结构
linux系统命令操作语法格式
命令
空格
参数
空格
文件路径或者需要处理的内容
rm
-rf
/tmp/*
ls
-la
/home
1.一般情况下,【参数】是可选的,一些情况下【文件路径】也是可选的
2.参数》同一个命令,跟上不同的参数执行不同的功能
执行linux命令,添加参数的目的是让命令更加贴切实际工作的需要
linux命令,参数之间,
转载
2024-02-08 07:13:59
127阅读
hdp集群数据迁移由于公司大数据平台建设升级调整,需要把开发集群(hdp 2.6)上的数据迁移到生产集群(hdp3.1),所以我们需要做历史数据迁移。准备工作就不说了,这里直接上迁移方案!目前方案有两种,第一种是采用distcp命令,直接将开发集群上的hdfs中的数据迁移到生产集群上,第二种采用scp命令,将开发集群上的数据hdfs dfs -get到本地,然后把数据从开发本地scp到生产集群本地
转载
2024-04-12 06:02:11
148阅读
java打包编译时打包:javac -d "要把包打到哪;盘符或者.(.表示当前目录)" 文件名.java执行打包的.class文件java -cp(cp代表临时的环境变量) "输入.class文件所在的盘符,如果在当前文件夹,就输入“.”" "录入.class文件所在的路径(包括文件名,不需要打.java)"设置临时环境变量set classpath=%classpath%;"你要输入的路径";
转载
2023-07-19 17:22:52
96阅读
通过HDFS FileSystem API 对 HDFS 进行操作windows下安装eclipse-hadoop插件将hadoop-eclipse-plugin-2.6.0.jar复制到eclipse安装目录下的plugins文件夹中。将hadoop.dll和winutils.exe复制到Windows的hadoop安装目录的bin文件夹下Windows解压hadoop2.7.3配置环境变量:H
前言:ConcurrentHashMap是非常经典的一个类,面试中会被经常问到,因为它里面用了非常复杂的数据结构,设计上也非常精致,同时又涉及并发编程,可以说是个宝藏类,我会尝试解读一下这个类。(我会抽空一直更新)它的代码高达6300行一 注释我们来看一下类的注释:上面贴出来的是第一段注释,后面我就不贴图了,直接翻译:第一段:一个支持完全并发读和高期望并发更新的hash表,这个类和HashTabl