一、table source1、TableSource源码trait TableSource[T] { //TableSource 是一个接口总共有三个方法 def getReturnType: TypeInformation[T] //获取返回的DataStream或者 DataSet的类型 def getTableSchema: TableSchema //获取table
转载 2024-03-10 22:45:35
61阅读
先来看看对比一下以前的join,如果对于普通的关系型数据库,我们很容易就想到join应该怎么做的,先来两个场景。场景一加入要计算某天对于第7天的留存率,那么对于传统关系型数据库来说,我们只需要计算出留存用户,然后和当天的用户活跃数去做个比值就OK了。insert into retention_user select a.id,b.id from a left join b on a.id = b
我们知道因为通常流是无限的(无界的),所以在流上的工作方式与批处理不同,使用相同的方式对流中的所有元素进行计数是不可能的。 但是很多时候又需要使用聚合事件(比如计数、求和)统计流上的数据,这个时候的聚合就用到了 window,因为需要由 window 来划定范围,比如 "计算过去的5分钟" , "统计最后100个元素的和" 等等。 window 窗口操作是一种可以把无限数据切割
转载 2024-03-15 05:45:30
24阅读
0 简介 Flink provides a specialized StreamTableEnvironment in Java and Scala for integrating with the DataStream API. Those environments extend the regu ...
转载 2021-08-29 23:09:00
1056阅读
3评论
“前一篇文章中<一文了解Flink数据-有界数据与无界数据>大致讲解了Apache Flink数据的形态问题。Apache Flink实现分布式集合数据集转换、抽取、分组、统计等。根据数据源的类型,即为有界数据与无界数据,提供了DataSet与DataStream的基础API。” DataSet与DataStream 根据数据源的类型,即为有界数据与无界数据。Apa
转载 2024-04-22 07:34:52
47阅读
0 简介 Flink程序所处理的流中的事件一般是对象类型。操作符接收对象输出对象。所以Flink的内部机制需要能够处理事件的类型。在网络中传输数据,或者将数据写入到状态后端、检查点和保存点中,都需要我们对数据进行序列化和反序列化。为了高效的进行此类操作,Flink需要流中事件类型的详细信息。Flin ...
转载 2021-08-26 22:29:00
336阅读
2评论
我们在系列文章第一篇已经为大家介绍了 Flink 的基本概念以及安装部署的过程,希望能够帮助读者建立起对 Flink 的初步印象。接下来将进入第二部分,即 Flink 实际开发的相关内容。本文重点介绍 Flink 开发中比较核心的 DataStream API 。我们首先将回顾分布式流处理的一些基本概念,这些概念对于理解实际的 DataStream API 有非常大的作用。然后,我们将详
转载 2024-04-22 07:10:46
0阅读
一、概述我们在上一篇文章中通过一个wordcount例子引入了对StreamExecutionEnviornment的思考,这一篇文章我们依然从这个例子说起,我们来看看wordcount中算子转化的部分吧。DataStream<WordWithCount> windowCount = text.flatMap(new FlatMapFunction<String, WordWit
The following code shows how to use fromChangelogStream for different scenarios. import org.apache.flink.streaming.api.datastream.DataStream; import o ...
转载 2021-08-30 00:33:00
1604阅读
2评论
The following code shows how to use toChangelogStream for different scenarios. import org.apache.flink.streaming.api.datastream.DataStream; import org ...
转载 2021-08-30 00:35:00
731阅读
2评论
checkpoint介绍checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保 证应用流图状态的一致性。Flink的checkpoint机制原理来自“Chandy-Lamport algorithm”算法。每个需要checkpoint的应用在启动时,Flink的JobManage
转载 2024-10-09 10:25:21
45阅读
When using side outputs, you first need to define an OutputTag that will be used to identify a side output stream: // this needs to be an anonymous in ...
转载 2021-08-24 23:26:00
665阅读
2评论
第一章 Flink简介 1.1 初识Flink Flink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会,参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员,2014年12月,Flink一跃成为Ap
转载 2024-06-18 11:05:42
82阅读
目录概念标识和视图临时和永久表表定义创建 table 对象创建 sql 视图catalog什么是 catalog如何理解 hive catalog 概念标识标识由3部分组成:catalog name (常用于标识不同的“源”, 比如 hive catalog, inner catalog 等)database name(通常语义中的“库”)table name(通常语义中的“
转载 2024-04-15 23:32:42
48阅读
基本知识TableSource提供了从外部系统(消息队列,KV存储,数据库,文件系统等)接入数据,之后注册到TableEnvironment中,然后可以通过Table API或者SQL进行查询。TableSink提供了将flink内部注册的Table中的数据写出到外部系统(Es ,Hbase ,消息队列数据库,文件系统等)。TableFactory用来创建TableSource 、TableSin
转载 2024-02-27 21:41:39
24阅读
前言之前的文章中已经屡次提到过Flink的事件时间(event time)、水印(watermark)、乱序(out-of-order)、迟到数据(late element)这些概念,虽然它们都非常基础,但笔者还没有对它们做过像样的介绍,感觉不太合适。正好今天脑子比较累,又是Friday night,不适合写复杂的东西,就来谈谈简单的吧。(来源:简书 作者:LittleMagic)事件时间与水印所
转载 2024-04-25 15:46:08
20阅读
https://database.cs.brown.edu/svn/idd/scripts/tpcds/create table dbgen_version ( dv_version
sed
原创 2022-07-19 12:06:09
357阅读
TableEnvironment 是用来创建 Table & SQL 程序的上下文执行环境 ,也是 Table & SQL 程序的入口,Table & SQL 程序的所有功能都是围绕 TableEnvironment 这个核心类展开的。TableEnvironment 的主要职能包括:对接外部系统,及元数据的注册和检索,执行SQL语句,提供更详细的配置选项。FLINK1.
转载 2024-02-28 21:26:49
62阅读
NO.1 code The following code shows how to use fromDataStream for different scenarios. import org.apache.flink.streaming.api.datastream.DataStream; imp ...
转载 2021-08-29 23:16:00
641阅读
2评论
A StreamTableEnvironment offers the following methods to convert from and to DataStream API: fromDataStream(DataStream): Interprets a stream of insert ...
转载 2021-08-29 23:12:00
201阅读
2评论
  • 1
  • 2
  • 3
  • 4
  • 5