一.  前提和设计目标1.  硬件错误是常态,因此需要冗余,这是深入到HDFS骨头里面去了  HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的,而且任一组件都有可能失效,这意味着总是有一部分HDFS的组件是不工作的。因此错误检测和快速、自动的恢复是HDFS最核心的架构目标2.  流式数据访问即:数据批量读取而非随机读写(OLTP
一、HDFS学习 一)HDFS概述(Hadoop分布式文件系统) 1、HDFS简述 源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版。
原创 2022-08-11 17:10:07
232阅读
初识Hive一、什么是Hive Hive是构建在hadoop之上的数据仓库。不是用来增删改查的那种数据库,那是数据库。1)数据计算是MapReduce2)数据存储是HDFS二、 认识Hive Hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据, 可以*将结构化的数据文件映射为一张数据库表*,并提供完整的 S
转载 2024-03-31 19:02:04
66阅读
HDFS的读写数据流详细分析4.1 HDFS写数据流程4.1.1 剖析文件写入4.1.2 源码解析4.1.3 网络拓扑-节点距离计算4.1.4 机架感知(副本存储节点选择)4.2 HDFS读数据流程 4.1 HDFS写数据流程4.1.1 剖析文件写入(1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存
转载 2024-04-19 18:16:11
6阅读
# 实现"java hdfs sql"的步骤及代码示例 ## 整体流程 首先,我们需要明确整个流程,下面是实现"java hdfs sql"的步骤表格: | 步骤 | 描述 | | ---- | ---- | | 1 | 连接HDFS | | 2 | 从HDFS读取数据 | | 3 | 对数据进行处理 | | 4 | 将处理后的数据写入HDFS | | 5 | 使用SQLHDFS中的数据进
原创 2024-06-09 05:35:36
25阅读
译序很多朋友问时下如火如荼的 Hadoop 是否适合引进我们自己的项目,什么时候用 SQL,什么时候用 Hadoop,它们之间如何取舍?Aaron Cordova 用一张图来回答你这个问题,对于不同的数据场景,如何选取正确的数据存储处理工具进行了详细描述。Aaron Cordova 是美国大数据分析及架构专家,Koverse CTO 及联合创始人。 原文正文Twitter 上的 @merv&n
Hadoop分布式文件系统(Hadoop Distributed File System, HDFS) 分布式文件系统是一种同意文件通过网络在多台主机上分享的文件系统。可让多机器上的多用户分享文件和存储空间。 hdfs仅仅是当中一种。适用于一次写入、多次查询的情况。不支持并发写情况。小文件不合适。 2.HDFS架构 HDFS採用master/slave架构。一个HDFS
转载 2016-02-20 09:24:00
245阅读
2评论
实验一:HDFS的操作实践一、 HDFS Shell 实践 (1)创建文件夹 hadoop fs -mkdir /dateset hadoop fs -mkdir /user (2)显示文件目录下的内容 hadoop fs -ls /图表 1创建文件夹并查看 (3)将本地文件上传至HDFS 创建一个txt文件,上传至HDFS的/dataset目录下,在文件写入hello world hadoop
转载 2023-07-18 11:38:19
45阅读
一、hdfs概述 介绍: 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式
原创 2022-09-23 18:02:44
159阅读
HDFS 的 API 操作 使用url方式访问数据(了解) @Test public void urlHdfs() throws IOException { //1.注册url URL.setURLStreamHan
原创 2022-09-23 18:03:20
89阅读
Hadoop Distributed File System 简称HDFS一、HDFS设计目标1、支持海量的数据,硬件错误是常态,因此需要 ,就是备份2、
原创 2022-06-15 09:21:00
89阅读
一、分布式文件系统与HDFS数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。 是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。 通透性。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般
原创 2021-07-06 17:25:42
109阅读
一、分布式文件系统与HDFS数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。 是一种允许文件通过网络在多台主机上分享的文件系统
原创 2022-02-18 10:31:38
65阅读
一、HDFS文件限额配置 在多人共用HDFS的环境下,配置设置非常重要。特别是在Hadoop处理大量资料的环境,如果没有配额管理,很容易把所
原创 2022-09-23 18:03:05
110阅读
# 使用Spark SQL写入HDFS教程 ## 整体流程 首先,让我们来看一下整体的操作流程,可以通过以下表格展示: | 步骤 | 操作 | | ---- | ---- | | 1 | 创建SparkSession对象 | | 2 | 读取数据源创建DataFrame | | 3 | 执行Spark SQL操作 | | 4 | 将DataFrame写入HDFS | ## 操作步骤及代码示
原创 2024-03-18 03:46:22
265阅读
# 使用 Spark SQL 写入 HDFS 的完整指南 ## 引言 在大数据处理的场景中,Apache Spark 和 Hadoop 分布式文件系统 (HDFS) 是两种流行的技术。本文将详细讲解如何使用 Spark SQL 将数据写入 HDFS。文章将从整体流程入手,逐步深入到每一步的代码实现与解释。 ## 整体流程 在进行 Spark SQL 写入 HDFS 的过程中,首先需要明确各
原创 2024-08-27 07:06:26
132阅读
mysql导入hadoop体系sqoop可以可以把mysql的数据导入hdfs,hive以及hbase.就是把mysql导入hadoop体系中.sqoop需求确定导入还是导出 import 或者exportmaptask的数量可以自定义. 利用-m 或者–split-by 就是依据哪个字段分段mysql需求相当于是把mysql中的表变成了hdfs上的文件. mysql需要提供连接–connect,
转载 2024-04-04 20:04:21
39阅读
1.写在前面在spark streaming+kafka对流式数据处理过程中,往往是spark streaming消费kafka的数据写入hdfs中,再进行hive映射形成数仓,当然也可以利用sparkSQL直接写入hive形成数仓。对于写入hdfs中,如果是普通的rdd则API为saveAsTextFile(),如果是PairRDD则API为saveAsHadoopFile()。当然高版本的sp
转载 2023-07-06 17:21:04
223阅读
第1章 HDFS概述1.1 HDFS产出背景及定义1.2 HDFS优缺点1.3 HDFS组成架构1.4 HDFS文件块大小(面试重点)
原创 2022-03-04 10:20:06
30阅读
上一份工作主要负责大数据平台的建设,在这个过程中积累了一些Hadoop生态组件的搭建和使用笔记,由于时间关系,不打算去修改其中的错别字和排版问题,直接释出原始笔记。搭建安装三个核心组件一个hadoop基本集群,牵涉三个组件:hdfs 负责分布式的文件存储yarn 负责分布式的资源管理mr 负责分布式计算安装配置环境变量配置etc/hadoop/hadoop-env.sh、etc/hadoop/ha
转载 2021-04-04 22:58:27
362阅读
2评论
  • 1
  • 2
  • 3
  • 4
  • 5