1、hive概述:
由Facebook开源用于解决海量结构化日志的数据统计,后称为Apache Hive为一个开源项目 -->结构化数据:数据类型,字段,value---》hive-->非结构化数据:比如文本、图片、音频、视频---》会有非关系型数据库存储,或者转换为结构化 -->结构化日志数据:服务器生成的
转载
2023-12-04 15:02:47
128阅读
对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。 Hive是什么?Apache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库,注意这里不是数据库。Hive可以看作是用户编程接口,它本身不存储和计算数据;它依赖于HDFS(Hadoop分布式文件系统)和MapRe
转载
2023-07-14 11:36:17
317阅读
2、分布式文件系统:HDFS,GFS等:适合存储大文件。(HDFS对大文件做了优化,关注吞吐量,适合做批处理)MogileFS,FastDFS,OpenStack的Swift等。适合存储小文件淘宝的TFS。 注解1 -- 下面是转载来的HDFS和Swift的对比: 最近在Quora上有人提到一个问题,有关Hadoop分布式文件系统和OpenStack对象存储的不同。问题原文如下
转载
2024-04-08 22:46:56
46阅读
数据倾斜:就是大量的相同key被partition分配到一个分区里,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。解决方案: &
转载
2023-07-11 22:06:15
78阅读
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言一、什么是数据倾斜?二、数据倾斜的表现是什么?
三、数据倾斜产生的原因?
四、如何解决数据倾斜?
总结 前言解决hadoop中数据倾斜的问题提示:本篇文章属于自己的观点,如有误差(不可能有误差的,查了好多资料呐~手动狗头~)望指正~一、什么是数据倾斜?数据倾斜是指在分布式计算框架或者涉及到传输文件的相关框架的文件传输时(
转载
2023-10-02 20:40:45
36阅读
数据倾斜几乎是大数据开发的必考题。今天通过一篇文章来学习数据倾斜及其处理方法。1.什么是数据倾斜 对于分布式系统,大量的数据集中到一台或几台服务器上,称为数据倾斜。数据倾斜现象有两种,一是数据频率倾斜,某一区域的数据量远远大于其他区域;二是数据大小倾斜,部分记录的大小远远大于平均值。 开发中的常见情况是出现了热点 key(重复的 key 大量出现)。默认情况下,Map 阶段同一个 key
转载
2023-08-30 13:45:54
82阅读
Spark Core提供了三种创建RDD的方式,包括:使用程序中的集合创建RDD;使用本地文件创建RDD;使用HDFS文件创建RDD。
1、并行化集合
如果要通过并行化集合来创建RDD,需要针对程序中的集合,调用SparkContext的parallelize()方法。Spark会将集合中的数据拷贝到集群上去,形成一个分布式的数据集合,也就是一个RDD。相当于是,集合中
转载
2024-03-21 19:22:31
76阅读
Apache HBase介绍HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop的HDFS之上提供了类似于Bigtable的能力。HDFS和HBase之间的关系HBase
转载
2023-09-26 15:57:57
62阅读
一、HBase概念 HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。HBase不同于Oracle、SQL Server等关系型数据库,它不支持标准SQL语言,也不是以行存储的关系型结构存
转载
2023-08-18 21:59:03
90阅读
介绍Kudu集HDFS的顺序读和HBASE的随机读于一身,同时具备高性能的随机写,以及很强大的可用性(单行事务,一致性协议),支持Impala spark计算引擎。什么时候使用kudu大规模数据复杂的实时分析,例如大数据量的join。数据有更新查询准实时存储Kudu的存储是不基于HDFS的,构建集群时,kudu很有可能和HDFS共同占用物理磁盘或者云磁盘,理想情况是独立空间。正式环境中,占用磁盘空
转载
2024-03-18 22:18:54
167阅读
hadoop、spark、zookeeperHadoopHDFS分布式文件系统Yarn分布式资源管理MapReduce数据处理sparkzookeeperzookeeper角色机制原子广播HBase和Hive HadoopHadoop:是一个能够在跨计算机的分布式环境中存储和处理大数据的开源框架。具有高容错、高可靠性、高扩展性的特点。可靠性体现在:1.数据的冗余 2.机架策略(通过节点之间发送一
【FastDFS】FastDFS简介以及基本使用1. 分布式文件系统简介2. FastDFS简介3. FastDFS架构4. 上传与下载流程5. Java客户端 1. 分布式文件系统简介分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。通俗来讲:传统文件系统管理的文件就存储在本机。分布式文件系统
转载
2024-04-30 16:46:46
55阅读
摘要:Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎。
作者:Hello EI 。Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎,提供IUD接口,在 HDFS的数据集上提供了插入更新和增量拉取的流原语。Hudi结构Hudi的架构如图1-1所示。Hudi支持两种表类型Copy On Write写时
转载
2024-09-02 15:04:21
89阅读
网盘最基础两个功能 —— 存储备份和文件共享。 目前主要采用分布式文件系统进行管理,目前主要的分布式文件系统包括Google的GFS,Hadoop的HDFS,MogileDFS以及FastDFS。由于GFS和HDFS主要是考虑为其搜索引擎服务的,主要以文本文件为主,并不适合于数据格式多样化的网盘系统。MogileDFS和FastDFS均为开源分布式文件系统。相比较而言,FastDFS更高
Ceph与HDFS是两种常用的分布式存储系统,它们都在大数据存储和处理中扮演着重要的角色。在讨论它们之间的区别和联系之前,让我们先来了解一下它们各自的特点和优势。
Ceph是一种开源的分布式存储系统,最初由红帽公司开发并维护。它采用了分布式架构,可以将数据分散存储在集群中的多个节点上,从而实现高可用性和高性能。Ceph主要由三个组件组成:RADOS(可扩展自组织分布式对象存储),RBD(块设备)
原创
2024-03-22 09:28:07
59阅读
目录准备工作HDFS API的使用org.apache.hadoop.fs.FileSystemorg.apache.hadoop.fs.Pathorg.apache.hadoop.fs.FsStatusorg.apache.hadoop.fs.FileStatusorg.apache.hadoop.fs.FSDataInputStreamorg.apache.hadoop.fs.FSDataOu
day01—————零、复习1. 大数据的概述
--概念和特征 (重点)
2. hadoop的概述
--hadoop的核心模块(重点):三个,HDFS,Mapreduce,Yarn
--google的三篇论文(重点):《GFS》《Mapreduce》《Bigtable》
--Hadoop的特点:
apache,开源,免费,JAVA语言,跨平台性,运行在廉价机器,具有高可靠高容错性,扩
转载
2024-10-19 09:57:37
30阅读
HDFS的hflush,hsync和close有啥区别,分别做了什么hflush: 语义是保证flush的数据被新的reader读到,但是不保证数据被datanode持久化.
hsync: 与hflush几乎一样,不同的是hsync保证数据被datanode持久化。
close: 关闭文件.除了做到以上2点,还保证文件的所有block处于completed状态,并且将文件置为closed场景是写一
转载
2023-07-12 10:07:06
52阅读
HBase和Hive的异同之处?共同点:HBase与Hive都是架构在Hadoop之上,底层存储都是使用HDFS区别: 1). Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统。HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。高延迟、结构化和面向分析的,hbase是低延迟、非结构化和面向编程逻辑表,它本身不存储和计算数据,它完全依赖于HDFS
转载
2023-06-29 16:02:58
387阅读
HDFS集群中机器的角色:两类核心角色: 主节点(1台):NAME NODE 从节点(N台):DATA NODEHDFS安装:一、准备N台机器:比如4台 1台namenode 3台datanode准备内容:(主机名,ip,域名映射,防火墙,jdk)主机名:vi /etc/sysconfig/network ip地址:vi /etc/sysconfig/network-scripts/ifcfg
转载
2024-02-10 15:48:54
79阅读