目录高阶聚合时间窗口 TVF(表值函数)支持的时间窗口类型window 聚合window joinregular joininterval joinlookup jointemporal joinarray joinover 窗口聚合 Flink SQL除了支持基本查询外,还支持一些复杂的高阶聚合和关联。 高阶聚合语法group by cube(维度 1,维度 2,维度 3)
group by
转载
2024-02-28 16:30:34
367阅读
高性能作业指南本文通过代码和一些配置信息来优化blink/flink作业的性能。 共分为几部分: 1.group aggregate优化: 开启minibatch,开启localglobal,开启partialfinal,count distinct改写为agg with filter(count distinct优化) 2.topN优化 使用UpdateFastRank算法:order by s
转载
2024-03-06 10:40:22
270阅读
本篇核心目标是让大家概要了解一个完整的 Apache Flink SQL Job 的组成部分,以及 Apache Flink SQL 所提供的核心算子的语义,最后会应用 TumbleWindow 编写一个 End-to-End 的页面访问的统计示例。1.Apache Flink SQL Job 的组成 我们做任何数据计算都离不开读取原始数据,计算逻辑和写入计算结果数据三部分,当然基于 A
Flink入坑指南系列文章,从实际例子入手,一步步引导用户零基础入门实时计算/Flink,并成长为使用Flink的高阶用户。简介Group By + Agg这个最经典的SQL使用方式。Group By是SQL中最基础的分组操作,agg的全称是aggregation(聚合操作),是一类SQL算子的统称,Flink中最常用的Agg操作有COUNT/SUM/AVG等,详情参见Flink支持的聚合操作列表
转载
2024-02-25 10:20:31
537阅读
Flink窗口机制Window(窗口)Tumbling Window(翻滚窗口)Sliding Window(滑动窗口)Sliding Window(滑动窗口)设置Watermark时间 Window(窗口)Window是Flink处理无限流的核心,Windows将流拆分为有限大小的“桶”,我们可以在其上应用计算。Flink认为Batch是Streaming的一个特例,所以Flink底层引擎是一
转载
2023-11-25 12:36:14
74阅读
【hive中的file_format】SEQUENCEFILE:生产中绝对不会用,k-v格式,比源文本格式占用磁盘更多TEXTFILE:生产中用的多,行式存储RCFILE:生产中用的少,行列混合存储,OCR是他得升级版ORC:生产中最常用,列式存储PARQUET:生产中最常用,列式存储AVRO:生产中几乎不用,不用考虑JSONFILE:生产中几乎不用,不用考虑INPUTFORMAT:生产中几乎不用
转载
2023-08-31 20:14:40
25阅读
复习略---01---这次的数据是乱序的。基于web服务器的热门数据的统计。实时的热门的页面的统计。如今分析这个log日志呢,就是根据代码的url去分析的。单例对象是object的。看下这个数据是乱序的。在数据源分配时间戳和水位线。主要是搭建了代码的整体的框架。我们看下keyBy的返回值,可以看下是一个元组。如何可以不得到元组呢?所以需要改进下keyBy,注意这个是返回的是元组的类型的:如何直接返
转载
2024-03-17 09:04:32
22阅读
数据倾斜导致子任务积压业务背景: 一个流程中,有两个重要子任务:一是数据迁移,将kafka实时数据落Es,二是将kafka数据做窗口聚合落hbase,两个子任务接的是同一个Topic GroupId。上游Topic的 tps高峰达到5-6w。问题描述: &nb
FlinkSql 传统数据库/批处理场景下数据集是有限的,天然避免了流计算面临的两大问题:1. 流计算中两条流数据的输入可能存在时间差,如何能保证在时间不一致情况下Join的准确性。2. 流计算中数据是无限的,历史数据不能一直被保存,否则会带来极大内存、磁盘压力,如何做取舍。针对第一个问题,Flink采用了retract操作,对于没有Join到的数据会先下发Null,后续等J
转载
2024-07-26 16:25:01
152阅读
.Apache Flink提供了两种顶层的关系型API,分别为Table API和SQL,Flink通过Table API&SQL实现了批流统一。其中Table API是用于Scala和Java的语言集成查询API,它允许以非常直观的方式组合关系运算符(例如select,where和join)的查询。Flink SQL基于Apache Calcite 实现了标准的SQL,用户可以使用标准的
转载
2024-04-26 18:02:58
100阅读
1. 简单介绍1.1 什么是 Table API 和 Flink SQLFlink本身是批流统一的处理框架,所以Table API和SQL,就是批流统一的上层处理API。 目前功能尚未完善,处于活跃的开发阶段。 Table API是一套内嵌在Java和Scala语言中的查询API,它允许我们以非常直观的方式,组合来自一些关系运算符的查询(比如select、filter和join)。而对于Flink
转载
2024-04-12 11:47:52
105阅读
Flink 1.10.0 于近期刚发布,释放了许多令人激动的新特性。尤其是 Flink SQL 模块,发展速度非常快,因此本文特意从实践的角度出发,带领大家一起探索使用 Flink SQL 如何快速构建流式应用。本文将基于 Kafka, MySQL, Elasticsearch, Kibana,使用 Flink SQL 构建一个电商用户行为的实时分析应用。本文所有的实战演练都将在 Flink SQ
转载
2024-08-07 21:08:09
89阅读
上一篇我们介绍了Flink CEP的API,这一篇我们将以结合一个案例来练习使用CEP的API编写应用程序,以强化对API的理解。所选取的案例是对网络遭受的潜在攻击进行检测并给出告警。当下互联网安全形势仍然严峻,网络攻击屡见不鲜且花样众多,这里我们以DDOS(分布式拒绝服务攻击)产生的流入流量来作为遭受攻击的判断依据。假定一家云服务提供商,有多个跨地区的数据中心,每个数据中心会定时向监控中心上报其
转载
2024-05-28 07:55:38
0阅读
FLINKSQL自定义UDF函数3之自定义累加器 文章目录FLINKSQL自定义UDF函数3之自定义累加器前言一、自定义String List累加器创建累加器类创建AggregateFunction注意点二、自定义泛型累加器1.创建累加器创建AggregateFunction注意点总结 前言这里记录自定义累加器得实现以及过程中得问题。一、自定义String List累加器创建累加器类public
转载
2024-05-04 17:01:59
105阅读
TopN语句用于获取流表中的前N条记录。本文总结Flink Table & SQL 中实时TopN的用法。语法SELECT [column_list]
FROM (
SELECT [column_list],
ROW_NUMBER() OVER ([PARTITION BY col1[, col2...]]
ORDER BY col1 [asc|desc][,
转载
2024-03-15 05:16:10
658阅读
1. 版本说明本文档内容基于flink-1.15.x,其他版本的整理,请查看本人博客的 flink 专栏其他文章。2. 简介2.1. 介绍Flink的Table API和SQL程序可以连接到其他外部系统,用于读写批处理表和流处理表。 表source提供对存储在外部系统(如数据库、键值存储、消息队列或文件系统)中数据的访问。表sink向外部存储系统发送数据。根据source和sink的类型,它们支持
转载
2024-04-28 12:27:38
34阅读
Flink Table API 和 Flink-SQL使用详解 1.Table API & Flink SQL-核心概念 Apache Flink 有两种关系型 API 来做流批统一处理:Table APITable API 是用于 Scala 和 Java 语言的查询API,它可以用一种非常直观的方式来组合使用选取、过滤、join 等关系型算子Flink SQLFlink SQL 是
转载
2024-03-29 06:40:10
71阅读
目录0. 相关文章链接1. select算子2. where算子3. distinct算子4. group by算子5. union算子 和 union all算子6. join算子7. group window算子7.1. tumble window算子7.2. hop window算子7.3. session window算子0. 相关文章链接Flink文章汇总1. select算子
转载
2024-05-22 11:26:44
63阅读
目录十一:Table API和SQL11.1 快速上手11.1.1 需要引入的依赖11.1.2 一个简单示例11.2 基本 API11.2.1 程序架构11.2.2 创建表环境11.2.3 创建表11.2.4 表的查询十一:Table API和SQL在 Flink 提供的多层级 API 中,核心是 DataStream API,这是我们开发流 处理应用的基本途径;底层则是所谓的处理函数(proce
转载
2024-05-03 15:15:03
44阅读
目录前言一、Flink SQL 自定义函数有哪些?二、标量函数(UDF)三、表值函数(UDTF)四、聚合函数(UDAGG)五、表值聚合函数(UDTAGG)总结 前言Flink版本: 1.12.4Scala版本:2.11Java版本:1.8《Flink使用指南》该系列博客是本人在日常使用Flink实时计算时的经验总结,从入门到熟悉的过程,会记录下官网的入门使用以及在使用过程中遇到的问题及解决办法。提
转载
2023-10-27 13:59:24
61阅读