最近准备用flink对之前项目进行重构,这是一个有挑战(但我很喜欢)的工作。几个月过去了,flink社区比起我做技术调研那阵发生了很多变化(包括blink的版本回推),我这边的版本也由1.4->1.7.2。现在网上有很多大方向的解析(阿里的几次直播),也有大神对框架的深入解析。我准备实际使用中mark一些关键的知识点/api。以窗口是flink一个重要的概念,flink提供了很多种窗口的使用
转载 2024-08-19 11:30:08
87阅读
内容框架:背景介绍功能介绍如何配置如何使用背景介绍Apache Flink 简介Apache Flink 是新一代大数据计算引擎的代表,以分布式流计算为核心,同时支持批处理。特点:低延时:Flink 流式计算可以做到亚秒甚至毫秒级延时,相比之下 Spark 流计算很难达到秒级高吞吐:Flink 以分布式快照算法实现容错,对吞吐量的影响很小高容错:基于分布式快照算法,Flink 实现了低代价、高效的
原创 精选 2021-11-09 17:23:41
3301阅读
Flink的HiveStreamingSink实现流程前言目前我们为了增强数据的时效性,增加了Flink实时写入Hive的流程,基于Flink写入Hive这里之前基本上是没有接触过的,看了官网的文章之后,由于我们的追求数据为1-10分钟内可见性,但是数据也不足1分钟就能达到128MB的情况,于是也会产生各种各样的十几MB的小文件,于是需要了解一下这个写入流程基于上面进行改造,使小文件能够达到自动合
转载 2023-10-21 19:27:55
303阅读
Flink的Redis-Sink具体实现步骤如下:可以参考Flink的官网RedisSink的具体实现:https://bahir.apache.org/docs/flink/current/flink-streaming-redis/1.引入官方的flink-redis-connector的maven依赖<!-- https://mvnrepository.com/artifact/org
转载 2023-06-14 17:20:01
157阅读
1.Flink如何保证Exactly-Once使用checkpoint检查点,其实就是 所有任务的状态,在某个时间点的一份快照;这个时间点,应该是所有任务都恰好处理完一个相同 的输入数据的时候。checkpoint的步骤:flink应用在启动的时候,flink的JobManager创建CheckpointCoordinatorCheckpointCoordinator(检查点协调器) 周期性的向该
转载 2024-03-08 13:38:00
40阅读
我们都知道Flink在流式处理上性能强大,且很好地支持ExactlyOnce语义;且这也是Flink核心的技术点,所以成为面试官喜欢追问的一个话题:Flink恰巧语义一次消费,怎么保证?     在这个思维导图进行了详细的描述及说明。欢迎阅读及下载超全干货--Flink思维导图,花了3周左右编写、校对上述思维导图中也进行了详细地描述:Flink_思维导图(干货).xm
flink 的对外输出操作都要利用 Sink 完成,常用的 Sink 有 kafka、 redis、elasticsearch、jdbc等。 1、首先引入对应的 connector 依赖 2、创建类实现在 sink 中的方法 3、最后 addSink ...
转载 2021-09-13 10:16:00
571阅读
2评论
通过状态快照进行容错  状态后台Flink管理的键控状态是一种碎片化的、键/值存储,每项键控状态的工作副本都被保存在负责该键的任务管理员的本地某处。操作员的状态也被保存在需要它的机器的本地。Flink会定期对所有状态进行持久化快照,并将这些快照复制某个更持久的地方,比如分布式文件系统。在发生故障的情况下,Flink可以恢复你的应用程序的完整状态,并恢复处理,就像什么都没有发生
据了解,Data Artisans 成立于2014年, 公司联合创始人兼 CEO  Kostas Tzoumas 为开源流处理框架 Apache Flink 的创建者;公司 CTO Stephan Ewen 为 Apache Flink PMC member。 Data Artisans 通过使用 Apache Flink 为企业部署大规模的数据处
转载 2024-04-26 15:08:15
49阅读
Source是Flink程序的输入,Sink就是Flink程序处理完Source后数据的输出,比如将输出写到文件、sockets、外部系统、或者仅仅是显示(在大数据生态中,很多类似的,比如Flume里也是对应的Source/Channel/Sink),Flink提供了多种数据输出方式跟在代码中直接写不同(比如可以在RickMap中open、close、map中直接写)他可以保存一些状态,容错重试机
原创 2020-11-06 09:46:31
5105阅读
截止目前为止并没有官方的Connector可以操作MongoDB,给一个暂时的方案批处理的sink方式批处理只能OutputFormat自定义输出importcom.mongodb.MongoClient;importcom.mongodb.client.MongoCollection;importcom.mongodb.client.MongoDatabase;importcom.tqz.jav
转载 2021-03-01 10:21:36
2732阅读
## 使用 Apache Flink 的 SQL 将数据写入 MySQL 的优化配置指南 Apache Flink 是一个强大的流处理框架,广泛应用于大规模数据处理与实时分析。在许多场景中,我们希望将处理后的数据存储 MySQL 中,以便后续分析或者报告生成。本文将详细介绍如何优化 Flink SQL 将数据写入 MySQL 的过程。 ### 1. 实现流程 在进行 Flink SQL s
原创 10月前
123阅读
Flink CDC读取MySQL数据并将其写入Kafka 在实时数据处理领域,Flink是一个非常强大的工具。它提供了强大的流式处理能力和丰富的连接器,用于将数据从各种数据源读取并将其写入各种数据接收器。这篇文章将介绍如何使用Flink CDC将MySQL数据库中的数据读取并写入Kafka。 首先,让我们来了解一下Flink CDC和Kafka。 Flink CDC是一种用于捕获数据库变更的
原创 2024-01-27 05:30:40
522阅读
查看Flink 1.9.0版本的官方文档​ 可以看到连接里面是没有Redis,不过Bahir中有
转载 2021-10-27 15:59:40
192阅读
目录1. 基于控制台和文件Sink2. 自定义Sink3. Scala代码演示1. 基于控制台和文件的SinkAPI:ds.print 直接输出到控制台ds.printToErr() 直接输出到控制台,用红色ds.writeAsText("本地/HDFS的path",WriteMode.OVERWRITE).setParallelism(1)注意:在输出到path的时候,可以在前面设置并行度当并
转载 2024-02-23 12:28:42
208阅读
开源大数据处理技术从 Hadoop 开始,经历了 Storm,Spark,现在又到 Flink 的发展过程,计算模型也经历了从批流的转换,目前的新趋势也已经开始朝着批流融合方向演进。QCon 北京 2019 设有“实时计算”专题, 点此查看 ,了解各种新型实时计算技术的发展趋势及一线生产场景的应用案例。 从媒体的最新资讯推送,购物狂欢的实时数据大屏,实时计算已经应用到了多个生活、工
## 实现Flink HDFS Sink ### 概述 在Flink中,将数据写入HDFS是非常常见的操作,可以通过Flink提供的HDFS Sink实现。HDFS Sink可以将Flink流处理应用程序的输出数据写入HDFS中,实现数据持久化。 ### 实现步骤 下面是实现Flink HDFS Sink的步骤以及对应的代码示例: | 步骤 | 操作
原创 2024-04-30 11:41:15
101阅读
## 实现 Flink Sink MySQL 的流程 ### 1. 准备工作 在开始之前,你需要确保已经完成以下准备工作: 1. 安装 Flink:你可以从 Flink 官方网站下载并安装 Flink。 2. 安装 MySQL:确保已经在你的机器上安装了 MySQL 数据库,并且可以通过连接字符串连接到数据库。 ### 2. 导入依赖 在你的项目中,你需要导入以下 Flink 和 MyS
原创 2023-08-10 12:14:48
223阅读
## 了解 Flink Sink RedisTemplate Apache Flink 是一个用于大规模流处理的开源框架,它支持实时处理和批处理。Flink 提供了各种内置的 Sink,用于将处理后的数据写入不同的数据存储系统。其中,Sink RedisTemplate 是用于将数据写入 Redis 的 Sink。 ### Sink RedisTemplate 的作用 Sink RedisT
原创 2024-03-27 07:04:06
29阅读
前言Flink 是一种流式计算框架,为什么我会接触到 Flink 呢?目前在做的项目是平台业务的告警部分,负责告警这边需要从 kafka topic 里面实时读取到终端数据,并将读取到的终端数据做一些 聚合/转换/计算 等操作,然后将计算后的结果与告警规则的阈值进行比较,然后做出相应的告警措施。画了个简单的图如下:Flink是什么?批处理 (处理历史数据集)流处理 (处理实时数据流)事件监控 (监
  • 1
  • 2
  • 3
  • 4
  • 5