背景因为项目需要,之前基于Hadoop+yarn+flink+hdfs+hive 构建一套文件存储体系,但是由于Hadoop商业发行版cdh和hdp开始收费,开始思考如何构建没有hadoop生态的数据湖,搜集网上资料,尝试基于现代存储S3或者OSS来代替HDFS,使用k8s + kafka + Flink + iceberg + trino构建实时计算体系。 网上的教程大多问题很多,记录下来以作参
转载 2024-06-11 10:16:02
119阅读
       当你点进这个博客的时候,你应该是遇到了和我一样的问题:通常情况下我们运行flink作业时,都会将State存储到HDFS,比如:env.setStateBackend(new RocksDBStateBackend("hdfs://hadoop100:8020/tmp/flink/checkpoints",true).getCheckpoint
转载 2024-06-11 10:16:38
300阅读
目录1、文件系统 SQL 连接器2、如何指定文件系统类型3、如何指定文件格式4、读取文件系统4.1 开启 目录监控 4.2 可用的 Metadata5、写出文件系统5.1 创建分区表5.2 滚动策略、文件合并、分区提交5.3 指定 Sink Parallelism6、示例_通过FlinkSQL读取kafka在写入hive表6.1、创建 kafka source表用于
转载 2024-06-06 10:00:36
115阅读
声明:本系列博客是根据SGG的视频整理而成,非常适合大家入门学习。《2021年最新版大数据面试题全面开启更新》1. 依赖HDFSpom.xml 添加依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
原创 2021-06-10 20:21:17
116阅读
Flink通过org.apache.flink.core.fs.FileSystem类来抽象自己的文件系统,这个抽象提供了各类文件系统实现的通用操作和最低保证。此文件系统的可用操作非常有限,以支持广泛的其它文件系统,例如追加或者变更已有文件就不被支持。文件系统由其格式来区别,例如file://, hdfs://,等等。Implementations(实现)Flink使用以下文件系统方案直接实现其文
转载 2024-04-24 11:41:00
59阅读
HDFS租约与Flink StreamingFileSink1 概述HDFS文件的特点是一次写多次并且不支持客户端的并行写操作,hdfs采用租约机制来保证对文件的互斥操作。 某个DFSClient打开文件流时,该DFSClient即为租约持有者(LeaseHolder),租约由NameNode发放。租约就是在规定时间内拥有写文件权限的许可凭证,HDFS提供Lease机制来保证写入数据的一致性。也
转载 2024-04-24 21:31:58
125阅读
声明:本系列博客是根据SGG的视频整理而成,非常适合大家入门学习。《2021年最新版大数据面试题全面开启更新》1. 依赖HDFSpom.xml 添加依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
原创 2021-06-10 20:21:16
425阅读
1. 依赖HDFS pom.xml 添加依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="://maven.apache.org/POM/4.0.0" xmlns:xsi="://.w3.org/2001/XML
转载 2020-12-19 23:04:00
587阅读
2评论
  上一篇说了HDFSEventSink的实现,这里根据hdfs sink的配置和调用分析来看下sink中整个hdfs数据写入的过程:线上hdfs sink的几个重要设置hdfs.path = hdfs://xxxxx/%{logtypename}/%Y%m%d/%H: hdfs.rollInterval = 60 hdfs.rollSize = 0 //想让文件只根据实际来roll h
转载 2024-03-22 13:36:08
245阅读
Flink版本:1.4.2 目的:本文主要是了解Flink中DataSource是如何从HDFS中读取数据的。梳理一下大致流程:  在JobManager处,通过提交得来的JobGraph生成ExecutionGraph时,会将JobGraph中的每个JobVertex都转换成ExecutionJobVertex(注意ExecutionJobVertex和ExecutionVertex的区别,
转载 2023-07-11 17:03:17
527阅读
文章目录checkpointing前提条件启用和配置`checkpoint`相关的配置选项选择检查点存储迭代作业中的状态检查点执行流程Barrier对齐EXACTLY_ONCE语义Savepoint与Checkpoint checkpointingFlink 中的每个函数和算子都可以是有状态的。有状态函数在单个元素/事件的处理过程中存储数据,使状态成为任何类型的更复杂操作的关键组成部分。为了使状
转载 2024-03-25 16:17:30
237阅读
大数据计算引擎的起源Hadoop和其他基于mapreduce的数据处理系统的出现首先是为了满足传统数据库无法满足的数据处理需求。随着2004年谷歌发布MapReduce白皮书以来的发展浪潮,利用Hadoop的开源生态系统或类似系统处理大数据已经成为行业的基本需求。尽管最近努力降低进入门槛,但在开发自己的数据处理系统时,组织不可避免地会遇到一系列问题,常常会发现从数据中获得价值所需的投资大大超出预期
转载 2023-11-14 13:21:49
87阅读
hdfs 读取流程
原创 2021-01-16 11:55:54
336阅读
# 如何在Python中读取HDFS数据 在处理大数据时,Hadoop分布式文件系统(HDFS)是一个非常重要的组成部分。Python可以与HDFS进行交互,下面我将详细讲解如何在Python中读取HDFS的数据。本文将分步骤介绍整个流程。 ## 步骤概览 以下是一个简单的步骤概览,展示了在Python中读取HDFS的主要步骤: |步骤| 描述 | |----|------| | 1 |
原创 2024-10-12 06:10:16
29阅读
# Python读取HDFS流程 ## 概述 在这篇文章中,我将向你介绍如何使用Python读取HDFS。Hadoop分布式文件系统(HDFS)是一个用于存储和处理大规模数据集的基于Java的文件系统。通过Python连接HDFS,你可以读取和操作存储在HDFS上的数据。 ## 整体流程 下面是读取HDFS的整体流程,我们将按照以下步骤进行操作: ```mermaid journey
原创 2023-09-26 13:08:26
32阅读
HDFS写流程1.客户端(client)会先和NameNode联系,在NameNode虚拟目录下创建文件(没有创建有的话就不能上传了这个过程是在Path路径进行检查的)。这个过程是可以看见的显示copying这时文件是不能读取的,NameNode会根据副本放置策略分发副本(第一个在本机架另外两个在其他机架)NameNode会把这三个节点的位置返回给客户端。如果客户端在集群外namenode会根据策
在大数据处理领域,Apache Spark 已经成为我们处理海量数据不可或缺的工具之一。而在与分布式文件系统 HDFS (Hadoop Distributed File System)交互时,常常会遇到一些挑战。下文将详细记录如何高效地将 Spark 与 HDFS 结合使用的过程,包括环境配置、编译过程、参数调优、定制开发、性能对比及常见错误汇总。 ### 环境配置 为了顺利地使用 Spark
原创 5月前
59阅读
1 安装基于CDH6.2.0环境.    hadoop版本3.0       spark版本2.4, 自带scala版本2.11.12 2 下载flink1.9 http://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.9.0/flink-1.9.0-bin-sc
转载 2024-07-23 06:55:11
164阅读
系统架构Flink是一个用于状态化并行流处理的分布式系统。它的搭建涉及多个进程,这些进程通常会分布在多台机器上。分布式系统需要应对的常见挑战包括分配和管理集群计算资源,进程协调,持久且高可用的数据存储及故障恢复等。Flink并没有依靠自身实现所有上述功能,而是在已有集群基础设施和服务之上专注于它的核心功能–分布式数据流处理。Flink和很多集群管理器(如Apache Mesos、YARN及Kube
转载 2023-11-19 13:18:48
65阅读
HDFS读数据流程HDFS流程底层是由java实现的,后面还会结合源码理解怎么实现的读读数据第一步,HDFS客户端创建了一个FileSystem实例对象DistributedFileSystem,FileSystem封装了与文件系统操作的相关方法。调用DistributedFileSystem对象的**open()**方法来打开希望读取的文件。第二步,DistributedFileSystem
  • 1
  • 2
  • 3
  • 4
  • 5