FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未
转载 2024-09-13 21:48:06
75阅读
文章目录一、HDFS写数据流程1. 剖析文件写入2. 网络拓扑-节点距离计算3. 机架感知(副本存储节点选择)二、HDFS读数据流程 一、HDFS写数据流程1. 剖析文件写入HDFS写数据流程,如下图所示。客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。NameNode返回是否可以上传。客户端请求第
转载 2024-10-12 16:12:01
55阅读
上一节我们简单介绍了hadoop主要由三大块组成:分布式文件系统(HDFS)、分布式计算框架(MapReduce)、分布式调度器(yarn)组成,从这节课开始,我们逐一的详细介绍这些技术。本节课,就详细了解一下分布式文件系统--HDFS。 一、课前知识: 文件系统: 文件系统(file system)是命名文件及放置文件的逻辑存储和恢复的系统,我的理解就是管理文件命名及存放的一种软件系统。 常见
1. 我们采用场景驱动的方式,首先我们编写一段代码package org.apache.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.io.IOException;
转载 2024-04-08 15:04:22
47阅读
周五周六的时候发了TCP协议,取了个比较夸张的标题:看不懂就来打我,底下都是评论问我在哪。哈哈哈哈哈。不过话说回来,我讲TCP也有3次了,怎么可能看不懂,3篇合起来看阿朋友们,算了下周再写一篇吧,想看的评论里扣1或者私聊我。那咱们还是回到老话题上来,hadoop的组件讲解,总不能天天即兴发挥,今天讲分布式文件系统HDFS。从RAID说起大数据技术主要要解决的问题的是大规模数据的计算处理问题,那么首
azkaban 的hdfs 插件配置azkaban的官方文档 http://azkaban.github.io/azkaban/docs/2.5/#plugins 描述的很简单,网上也有很多教程,但是配置到最后去浏览器上查看都是如下这个毫无提示信息的错误没有办法,只能去下载了azkaban与azkaban-plugin的源码来一点点排查.azkaban 源码地址: g
转载 2024-06-20 19:39:18
81阅读
用Postman的时候由于没有中文版,所以想设置的完全符合自己的使用习惯不太容易,于是找了下关于设置的使用并转载记录一下,链接:https://www.jianshu.com/p/518ab60ebef7一、进入设置在Postman应用程序的标题工具栏中,点击扳手图标,然后选择设置(Settings)打开SETTINGS窗口。您还可以使用键盘快捷键(CMD / CTRL +,)打开设置窗口。二、常
转载 2024-05-10 17:07:08
1364阅读
Edits文件Edits文件相交于FsImage文件,比较小,所以修改起来比较快,记录的是HDFS集群的最新的,最近的一段时间的元数据FsImage文件FsImage文件相对较大,记录了HDFS集群所有的元数据(不包括最新的元数据)HDFS的元数据(Edits文件 和 FsImage文件)存储在 /xxx/hadoop/dfs/name/current路径下Namenode管理元数据1.Namen
转载 2024-10-15 09:41:14
62阅读
hdfs的数据是以block为单位存储的,所以了解block的结构对理解hdfs的工作机制非常重要。先来看一下Block类,它含有三个成员:blockId,numBytes和generationStamp。numBytes即block的大小,而另外两个分别是什么呢?blockId是block的标识符,可以从block文件名中看到,例如${hadoop.tmp.dir}/dfs/data/curre
一脸懵逼学习Hdfs---动态增加节点和副本数量管理(Hdfs动态扩容) 1:按照上篇博客写的,将各个进程都启动起来:集群规划:  主机名   IP   安装的软件     运行的进程 master 192.168.3.129   jdk、hadoop
转载 2024-08-03 11:07:34
278阅读
conf\server.xml <Connector port="80" protocol="HTTP/1.1" URIEncoding="GBK"  connectionTimeout="20000"    redirectPort="8443" useBodyErk\目录下的内容
转载 2023-05-10 14:35:34
99阅读
今天有一个通过Restemplate请求一个天气API,发现其Body数据是乱码。乱码的第一反应是编码格式出了问题。检查头部信息,content-encoding="gzip" content-type="application/json;charset=UTF-8"返回值是UTF-8,Restemplate设置的也是UTF-8。在翻看其他博客,发现问题原因是http存在一个压缩格式:Gzip。G
转载 2024-03-19 12:34:23
141阅读
课程回顾: (1)HDFS Web Console (2)HDFS 命令操作(hdfs dfs–普通操作命令 hdfs dfsadmin 管理员命令) (3)IDEA Maven 文件夹的创建。1、HDFS权限问题 针对用户操作没有权限 permission denied: (1)修改hdfs-site.xml 去掉权限检查(关闭HDFS服务 stop-all.sh;修改后 重新 Start-al
接下来学习了HDFS读写流程,这里记录一下。HDFS-NameNode-DataNode之间的通信方式在了解HDFS读写操作前,了解到HDFS Client是运行在JVM中,它也可以叫做Client Node,这个Client可能在DataNode上,他们之间相互通信方式如上图。(1)HDFS Client和NameNode之间是RPC通信(2)NameNode和DataNode之间是RPC通信(
名称配额(Name Quota) 名称配额是在对应的目录下所有文件和目录名称的数量上的限制。当超过这个配额的时候,文件或目录就会创建失败,重命名后名称配额仍然有效。 因为比较简单,所以我们直接测试: 步骤一:创建一个测试目录 [root@testbig1 ~]# hdfs dfs -mkdir /data/test_quota1 步骤二:设置创建的目录的名称配额 [root@testbig1
转载 2024-05-14 09:08:58
40阅读
Linux 是一款开源操作系统,备受程序员和技术爱好者的喜爱。在 Linux 中,设置编码是一个常见的需求,特别是对于使用中文字符或者其他非英文字符的用户而言。其中,GBK 编码是一种常见的中文字符编码方式,那么在 Linux 中如何设置 GBK 编码呢? 要在 Linux 中设置 GBK 编码,首先需要了解一些基础知识。GBK 编码是一种针对汉字的编码方式,它可以表示繁体字、简体字和日韩汉字等
原创 2024-05-29 10:05:49
775阅读
配置免密登录免密与未免密:node1向node2发送一个请求,node2去查找本地是否有node1的公钥,情况一:没有,情况二:有情况一: node2会向node1索取公钥,node1再次发送过去,自己的公钥,node2在本地进行计算,存储,把得到的结果返回给node1,node2就会和node1建立连接,但是这个时候因为没有登录密码而卡壳,于是,用户输入密码… node1把密码封装了发过去,正确
一、 纠删码1、纠删码原理注:演示纠删码和异构存储需要一共 5 台虚拟机。尽量拿另外一套集群。提前准备 5 台服务器的集群。HDFS 默认情况下,一个文件有 3 个副本,这样提高了数据的可靠性,但也带来了 2 倍的冗余开销。Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约 50%左右的存储空间。1)纠删码操作相关的命令[atguigu@hadoop102 hadoop-3.1.3]$
转载 2024-03-31 19:23:55
46阅读
Hadoop hdfs 一、HDFS入门 1.HDFS基本概念 1.1.HDFS介绍 HDFS是Hadoop Distribute File System 的简称,意为:Hadoop分布式文件系统。是 Hadoop核心组件之一,作为最底层的分布式存储服务而存在。 分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处
转载 2023-09-15 22:28:41
54阅读
  上一篇说了HDFSEventSink的实现,这里根据hdfs sink的配置和调用分析来看下sink中整个hdfs数据写入的过程:线上hdfs sink的几个重要设置hdfs.path = hdfs://xxxxx/%{logtypename}/%Y%m%d/%H: hdfs.rollInterval = 60 hdfs.rollSize = 0 //想让文件只根据实际来roll h
转载 2024-03-22 13:36:08
253阅读
  • 1
  • 2
  • 3
  • 4
  • 5