Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,我们可以利用HBase技术在廉价的PC上搭建起大规模结构化存储集群。同Google的Bigtable基于GFS(Google FileSystem)所提供分布式数据存储服务一样,HBase基于HDFS之上也能提供类似的分布式数据存储服务。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop
转载 2024-08-26 10:13:17
23阅读
1.写在前面在spark streaming+kafka对流式数据处理过程,往往是spark streaming消费kafka的数据写入hdfs,再进行hive映射形成数仓,当然也可以利用sparkSQL直接写入hive形成数仓。对于写入hdfs,如果是普通的rdd则API为saveAsTextFile(),如果是PairRDD则API为saveAsHadoopFile()。当然高版本的sp
转载 2023-07-06 17:21:04
223阅读
HDFS读取一个文件,都需要做些什么呢?我们拿一个简单的例子来看一下:import java.io.InputStream; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.
转载 2024-03-21 17:56:18
62阅读
[size=large]前提Spark集群已经搭建完毕,如果不知道怎么搭建 注意提交作业,需要使用sbt打包成一个jar,然后在主任务里面添加jar包的路径远程提交即可,无须到远程集群上执行测试,本次测试使用的是Spark的Standalone方式 sbt依赖如下: [/size] name := "spark-hello" version
转载 2024-07-24 08:48:35
65阅读
 迄今为止,导出/导入工具集仍是跨多个平台转移数据所需劳动强度最小的首选实用工具,尽管人们常常抱怨它速度太慢。导入只是将每条记录从导出转储文件读出来,然后使用常见的 INSERT INTO 命令将其插入到目标表,因此导入可能是个很慢的过程,这一点并不让人感到吃惊。 进入 Oracle Data Pump,Oracle Database 10g 的导出/导入工具包的更新更快的同类工具
转载 2024-06-06 06:41:53
30阅读
一、 HDFS的一些操作命令HDFS的上传命令hdfs dfs -put linux文件路径 HDFS路径HDFS的下载命令hdfs dfs -get HDFS文件路径 linux路径HDFS的删除命令hdfs dfs -rm -r HDFS文件路径HDFS的创建文件夹命令hdfs dfs -mkdir -p HDFS路径HDFS的查看文件夹命令hdfs dfs -cat HDFS路径HDFS的修
转载 2023-07-24 10:59:46
1385阅读
1. HDFS前言 设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; 在大数据系统作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 重点概念:文件切块,副本存放,元数据 2. HDFS的概念和特性 首先,它是一个文件系统,用
转载 2023-12-20 06:17:53
154阅读
前言  Hadoop 是由 Apache 基金会开发的分布式系统基础框架,主要解决海量数据存储和海量数据分析问题。Hadoop 起源于 Apache Nutch 项目,起始于2002年,在2006年被正式命名为Hadoop。Hadoop有3大核心组件,分别是HDFS、MapReduce 和 YARN,本次我们重点介绍 HDFS。一、HDFS简介HDFS 全称 Hadoop Di
转载 2023-07-06 17:20:24
179阅读
一、目的在离线数仓,需要用Flume去采集Kafka的数据,然后写入HDFS。由于每种数据类型的频率、数据大小、数据规模不同,因此每种数据的采集需要不同的Flume配置文件。玩了几天Flume,感觉Flume的使用难点就是配置文件二、使用场景静态排队数据是数据频率为1s的数据类型代表,数据量很大、频率很高,因此搞定了静态排队数据的采集就搞定了这一类高频率数据的实时采集问题1台雷达每日的静态排
Hadoop是什么:     1)Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构     2)主要解决,海量数据的存储和海量数据的分析计算问题。     3)广义上来说,HADOOP 通常是指一个更广泛的概念——HADOOP 生态圈Hadoop的组件构成:1)Hadoop HDFS:一
1.HDFS的java访问接口1)org.apache.hadoop.conf.Configuration读取、解析配置文件(如core-site.xml/hdfs-default.xml/hdfs-site.xml等),或添加配置的工具类。2)org.apache.hadoop.fs.FileSystem代表分布式文件系统的一个实例,是一个通用的文件系统API,提供了不同文件系统的统一访
Hadoop之HDFS(一)基本概念及操作Hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFSHDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算总结:HDFS—解决大数据存储问题MapReduce—解决大数据计算问题架构分析需求
转载 2023-07-25 00:28:35
64阅读
一、概述1、HDFS定义HDFS 只是分布式文件管理系统的一种,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群的服务器有各自的角色。适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。2、HDFS优缺点优点:高容错性:数据自动保存多个副本。它通过增加副本的形式,提高容错性。某一个副本丢失以后,它可以自动恢复适合处理大数据:【
转载 2023-11-18 23:06:43
127阅读
Purpose 本文档可作为使用HDFS的初期阅读资料,无论HDFS是作为Hadoop集群的一部分或者是一个独立运行的分布式文件系统。HDFS被设计用于很多环境,对HDFS工作的知识有助于针对特定集群的诊断和改进。 Overview HDFS是Hadoop应用使用的一种主要的分布式存储。一个HDFS集群主要由一个管理文件系统元数据的NameNode和y一组存
HDFS是一个分布式文件系统,可以通过Java API接口对HDFS进行操作,下面记录实现Java API的过程和出现的一些问题及解决方案环境搭建导入jar包#common包的jar文件导入 hadoop-2.8.1\share\hadoop\common\lib\*.jar hadoop-2.8.1\share\hadoop\common\hadoop-common-2.8.1.jar #客
转载 2024-05-17 15:36:12
310阅读
        使用df -h查看磁盘空间使用情况,记住剩余空间大小。        rm 掉一个大文件(能够在df命令下引起容量的变化的大小)。        rm掉后,再次使用df -h查看磁盘空间使用情况,发现剩余空间没有变化。      &n
转载 2024-04-17 11:50:32
449阅读
初识Hive一、什么是Hive Hive是构建在hadoop之上的数据仓库。不是用来增删改查的那种数据库,那是数据库。1)数据计算是MapReduce2)数据存储是HDFS二、 认识Hive Hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统的数据, 可以*将结构化的数据文件映射为一张数据库表*,并提供完整的 S
转载 2024-03-31 19:02:04
66阅读
hdfs合并小文件hadoop fs -getmerge hdfs文件夹路径 合并本地的文件名如果hdfs误删除文件或者hive误删除文件/user/hadoop/.Trash/Current 这个地址下有文件备份,文件备份保留七天(core配置文件可以设置)hive压缩压缩的好处:(执行查询时会自动解压) 可以节约磁盘的空间,基于文本的压缩率可达40%+; 压缩可以增加吞吐量和性能量(减小载入内
## 实现在HDFS上执行SQL文件的流程 为了在HDFS上执行SQL文件,我们需要完成以下步骤: 1. 将SQL文件上传到HDFS 2. 在Hadoop集群上执行SQL文件 3. 从HDFS上下载结果文件(如果需要) 下面是整个流程的流程图: ```mermaid graph TD A[上传SQL文件HDFS] --> B[在Hadoop集群上执行SQL文件] B --> C[从HDF
原创 2023-10-14 14:18:55
152阅读
一.  前提和设计目标1.  硬件错误是常态,因此需要冗余,这是深入到HDFS骨头里面去了  HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的,而且任一组件都有可能失效,这意味着总是有一部分HDFS的组件是不工作的。因此错误检测和快速、自动的恢复是HDFS最核心的架构目标2.  流式数据访问即:数据批量读取而非随机读写(OLTP
  • 1
  • 2
  • 3
  • 4
  • 5