一、数据湖调研1、IcebergIceberg 作为新兴的数据湖框架之一,开创性的抽象出“表格式”table format"这一中间层,既独立于上层的计算引擎(如Spark和Flink)和查询引擎(如Hive和Presto),也和下层的文件格式(如Parquet,ORC和Avro)相互解耦。 此外 Iceberg 还提供了许多额外的能力:ACID事务;时间旅行(time travel),以访问之前
1. RPC框架的概念RPC(Remote Procedure Call)–远程过程调用,通过网络通信调用不同的服务,共同支撑一个软件系统,微服务实现的基石技术。使用RPC可以解耦系统,方便维护,同时增加系统处理请求的能力。上面一个简单的软件系统结构,我们拆分出来用户系统和订单系统做为服务存在,让不同的站点去调用。只需要引入各个服务的接口包,在代码中调用RPC服务就跟调用本地方法一样,我刚接触到
一、HDFS 架构介绍HDFS离线存储平台Hadoop大数据计算的底层架构,在B站应用已经超过5年的时间。经过多年的发展,HDFS存储平台目前已经发展成为总存储数据量近EB级,元数据总量近百亿级,NameSpace 数量近20组,节点数量近万台,日均吞吐几十PB数据量的大型分布式文件存储系统。首先我们来介绍一下B站的HDFS离线存储平台的总体架构。图 1-1 HDFS 总体架构HDFS离线存储平
大数据底层生态Hadoop大数据工具Hadoop服务器下Java环境的配置1.下载JDK82.解压安装jdk3.java配置环境变量4.启动验证服务器下的Hadoop使用1.下载Hadoop2.解压hadoop到root目录下3.配置hadoop环境变量4.配置hadoop伪分布式,修改以下5个配置文件5.格式化6.启动hadoop运行自带wordcount启动hadoop创建目录结构创建相关文
本文背景这段时间给大家 做简历指导,发现大家都缺少优质实操项目,所以打算介绍一个《100W级别qps日志平台实操》,基于clickhouse+netty,于是,就写了此文此文设计到大量的底层原理,和高并发的实操知识,建议大家慢慢读,并且强烈建议大,对着此文,实操一下。MPP数据库简介什么OLTP与OLAP?OLTP(OnLine Transaction Processing ) 联机事务处理 系
转载 1月前
426阅读
Hadoop技术生态当中的Hbase,其实全称叫做Hadoop Database,顾名思义,所谓Hbase,其实也就是Hadoop的数据,而从架构的角度来说,Hbase就是一个分布式存储系统。今天的大数据入门分享,我们来讲讲Hbase的基础架构。一、Hbase背景Hbase的前身,其实是Google“三驾马车”之一的Big Table的开源版本,Hbase建立在HDFS之上,为大数据系统平台提供相
转载 2023-08-18 22:46:49
49阅读
一定要自己编译 mvn clean package -DskipTests -Dhadoo
原创 2022-07-19 19:55:05
50阅读
“数据湖”、“湖仓一体”及“流批一体”等概念,近年来大数据领域热度最高的词汇,在各大互联网公司掀起了一波波的热潮,各家公司纷纷推出了自己的技术方案,其中作为全链路数字化技术与服务提供商的袋鼠云,在探索数据湖架构的早期,就调研并选用了Iceberg作为基础框架,在落地过程中深度使用了Iceberg并进行了部分改造,在这个过程中,我们积累出了一些经验和探索实践,希望通过本篇文章与大家分享,也欢迎大家
一、回顾 -》应用场景 为了解决大数据实时存储而诞生的(hive/hdfs都是离线文件存储) -》归档存储 -》搜索引擎 -》数据实时读写 公司大数据数据开发都会用HBase或者类似于NoSQL数据库,从整体的性能来说HBase 会更加优秀一点.启动hadoop:启动Zookeeper:HBase存储路径:Hbase特点基于HDFSHBase诞生的原因: NOSQL读写速度很快
转载 2023-07-14 10:43:31
80阅读
文章目录中间控制节点架构-HDFSNameNode节点分析DataNode节点分析SecondNameNode节点分析Client分析完全无中心架构-CephCeph Monitor分析Ceph OSD分析Ceph Manager分析Ceph Clients分析小结HDFS优点缺点Ceph优点缺点参考 中间控制节点架构-HDFSHDFS( Hadoop Distribution File Sy
1.HDFS其实在真正搞过分布式文件系统的人看来,HDFS不能算得上真正的文件系统。因为他实在太简单,太粗糙。甚至连搞个append接口都搞了老半天,到现在应该还不支持随机读写之类的文件系统最基本的功能。他最大的优势借助hadoop这个生态系统得以比较稳定。另外还有一个优势就是他用java写的,这样一帮java程序员也可以号称自己在搞文件系统了。HDFS到现在应该还是不是真正意义上的分布式,
转载 2024-03-23 10:42:23
65阅读
导读有些人可能认为MacOS和Linux内核有相似之处,因为它们可以处理类似的命令和类似的软件。甚至有人认为苹果的MacOS基于linux的。事实上,这两个内核的历史和特性是非常不同的。今天,我们来看看MacOS和Linux内核的区别。MacOS内核的历史我们将从MacOS内核的历史开始。1985年,由于与首席执行官John Sculley和苹果董事会发生争执,Steve Jobs离开了苹果
转载 2023-10-19 21:26:36
385阅读
HDFShadoop的分布式文件系统,全称:Hadoop Distributed Filesystem。由1个master(call me NameNode)和N个slaver组成(call me datanode)。其中namenode负责存储元数据,控制和协调datanode存储文件数据。通过写多份(可定义,默认1)的方式实现数据的可靠性和读取的高效
转载 2024-10-05 11:21:38
20阅读
引言Java的优点:一次编写,处处执行,即跨平台。 Java如何做到跨平台呢? 首先看这张图片,我们写的Java代码,通过Javac编译成字节码文件,然后通过Java命令进入jvm。但是在不同的平台上机器码不一样,所以jvm一个宏观上的理解就是:从软件层面屏蔽不同操作系统在底层硬件与指令上的区别。JVM虚拟机结构图JVM各组成部分:运行时数据区(内存模型)类转载子系统字节码执行引擎运行时数据区(内
一、Redis的数据结构简单来说,五个基本数据类型在Redis中以这样的数据结构存在,下图所示:二、String2.1 String的底层实现(SDS)String的底层由一个叫简单动态字符串实现的,Simple Dynamic String,简称SDS,在Redis的数据结构中大概长这个样子:注意:一个String最大容量512M。看一下Reids中的源码,就和上图对上了len:表示 SDS
转载 2024-06-16 20:56:57
52阅读
目录 HDFS概念HDFS优缺点优点缺点HDFS 架构/角色Client:客户端NameNode:master,它是一个主管、管理者DataNodeSecondary NameNodehdfs启动过程启动脚本分析HDFS启动过程--源码分析HDFS 文件块大小HDFS的元数据管理NameNode 元数据存储机制查看编辑日志hdfs 不适合存储小文件HDFS 辅助功能心跳机制安全模式副本存
转载 2024-02-08 23:06:03
47阅读
背景:OceanBase阿里巴巴、蚂蚁金服自主研发的可扩展的分布式关系数据库,实现了数千亿条记录、数百 TB 数据上的跨行跨表事务,主要支持支付宝核心的交易、支付、会员和账务系统等 OLTP 和 OLAP 在线业务。在2017年双11期间,OceanBase承担了100%的交易,全球支付总笔数14.8亿笔,支付峰值25.6万笔/笔,数据
Z-Order最早1966提出的一项将多维数据映射到一维的方法.随着数据库技术的发展,这种映射方法由于其特性,被应用到了数据库技术
VMware一款广泛使用的虚拟化软件,它能够为用户提供虚拟机环境,使用户能够在一台物理主机上同时运行多个虚拟机。而关于VMware底层是否Linux这个问题,其实是一个比较常见的疑问。 首先,我们需要了解的,VMware软件由美国VMware公司开发的虚拟化软件,它支持多种操作系统作为虚拟机的主机系统,包括Windows、Linux等。而VMware底层其实并不是Linux,而是使用了自
原创 2024-05-08 11:16:50
186阅读
AD(Active Directory)微软公司开发的一种目录服务,用于在 Windows 网络环境中管理和组织用户、计算机和其他网络资源。底层存储机制一般来说可以选择多种数据库,比如可以选择使用关系型数据库MySQL。下面我将向你介绍如何实现“AD底层MySQL”。 首先,让我们来看一下整个实现过程的步骤。我将使用表格形式展示: | 步骤 | 说明 | | ---- | ---- | |
原创 2024-01-17 12:25:13
25阅读
  • 1
  • 2
  • 3
  • 4
  • 5