1.Flink简介
Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算
应用行业:市场营销报表,电商,业务流程
     物联网,电信业,金融业
Flink的主要特点:事件驱动(Event-driven)
Flink的世界观中一切都是流组成的,离线数据是有界的流,实时数据是没有界限的流
分层API
   High-level Analytics API  :            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-08 15:46:48
                            
                                53阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Flink1.12新特性SQL Connectors 中的 Metadata 处理Flink 1.12 中,元数据列是 SQL 标准的扩展,参数中connector和format配置提供的metadata字段。元数据列由METADATA关键字指示。例如,元数据列可用于在 Kafka 记录中读取和写入时间戳,以进行基于时间的操作。连接器和格式文档列出了每个组件的可用元数据字段。但是,在表的架构中声明            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-15 13:56:06
                            
                                93阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            定义Apache Flink 是一个分布式流式计算引擎,用于在数据流上进行有状态的计算(Flink系列:无界和有界数据流定义与区别)。特性低延迟有状态的 Flink 程序针对本地状态访问进行了优化。任务的状态始终保留在内存中,如果状态大小超过可用内存,则会保存在能高效访问的磁盘数据结构中。任务通过访问本地(通常在内存中)状态来进行所有的计算,从而产生非常低的处理延迟。故障恢复定期异步地对本地状态进行持久化存储来保证故障场景下精确一次的状态一致性...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-03-09 11:08:53
                            
                                114阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            定义Apache Flink 是一个分布式流式计算引擎,用于在数据流上进行有状态的计算(Flink系列:无界和有界数据流定义与区别)。特性低延迟有状态的 Flink 程序针对本地状态访问进行了优化。任务的状态始终保留在内存中,如果状态大小超过可用内存,则会保存在能高效访问的磁盘数据结构中。任务通过访问本地(通常在内存中)状态来进行所有的计算,从而产生非常低的处理延迟。故障恢复定期异步地对本地状态进行持久化存储来保证故障场景下精确一次的状态一致性...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-09-12 10:15:39
                            
                                520阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            windowwindow是针对DataStream,一种可以把无界的数据切割为有界数据块的手段,可以是时间驱动的【time window】或者数据驱动的【count window】,元素个数。类型:分为 tumbling window:滚动窗口【没有重叠】、sliding window:滑动窗口【有重叠】time window通过socket接收数据,统计窗口内的单词数量。不使用keyBy时,使用            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-09-02 10:04:41
                            
                                68阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            watermark 水位线 处理乱序数据流从数据产生到DataSource,再到具体的算子,中间是有一个过程和时间,有可能会导致数据乱序问题,通过watermark + EventTime来处理。作用:由于网络延迟等原因,一条数据会迟到计算,比如使用event time来划分窗口,我们知道窗口中的数据是计算一段时间的数据,如果一个数据来晚了,它的时间范围已经不属于这个窗口了,则会被丢弃,但他的ev            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-09-04 09:31:23
                            
                                97阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1. Apache Flink 介绍Apache Flink 是近年来越来越流行的一款开源大数据计算引擎,它同时支持了批处理和流处理,也能用来做一些基于事件的应用。使用官网的一句话来介绍 Flink 就是 “Stateful Computations Over Streams”。首先 Flink 是一个纯流式的计算引擎,它的基本数据模型是数据流。流可以是无边界的无限流,即一般意义上的流处理。也可以            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-26 09:29:12
                            
                                39阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录01 引言02 BroadcastState介绍03 BroadcastState API介绍04 BroadcastState 案例4.1 需求4.2 编码步骤4.3 编码实现05 文末01 引言在前面的博客,我们总结了Flink的一些API了,有兴趣的同学可以参阅下:《Flink教程(01)- Flink知识图谱》《Flink教程(02)- Flink入门》《Flink教程(03)- Flink环境搭建》《Flink教程(04)- Flink入门案例》《Flink教程(05)-            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-04-20 15:05:57
                            
                                354阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录01 引言02 双流join介绍03 Window Join3.1 Tumbling Window Join3.2 Sliding Window Join3.3 Sessio             
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-03-25 14:45:18
                            
                                10000+阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1、flink定义flink是一个分布式处理引擎,可以在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。2、有界流和无界流无界流:有定义流的开始,但没有定义流的结束。也就是流式处理 有界流:定义流开始,也有定义流结束。就是批处理可以类似spark streaming。但是flink的批计算没有spark强。3、flink核心特性1、            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-07 23:00:20
                            
                                32阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            官方文档 https://ci.apache.org/projects/flink/flink-docs-master/dev/libs/state_processor_api.htmlApache Flink 的状态处理器 API 为使用 Flink DataSet API 读取, 写入和修改 Savepoint 和 Checkpoin            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-18 10:10:27
                            
                                61阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Flink一览什么是FlinkApache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-19 10:40:56
                            
                                53阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录01 引言02 File Sink介绍03 File Sink案例演示04 文末01 引言在前面的博客PI(            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-03-22 13:37:04
                            
                                675阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录01 引言02 异步IO2.1 异步IO介绍2.2 使用Aysnc I/O的前提条件2.3  Async I/O API03 案例演示04 原            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-04-20 15:06:35
                            
                                232阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink 1.10 release 文档描述了一些比较重要的点,比如配置、操作、依赖、1.9 版本和 1.10 版本之间的区别,如果你准备将 Flink 升级到 1.10 版本,建议仔细看完下面的内容。集群和部署•文件系统需要通过插件的方式加载•Flink 客户端根据配置的类加载策略加载,parent-first 和 child-first 两种方式•允许在所有的 TaskManager 上均匀            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-21 16:04:58
                            
                                27阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink 1.10 release 文档描述了一些比较重要的点,比如配置、操作、依赖、1.9 版本和 1.10 版本之间的区别,如果你准备将 Flink 升级到 1.10 版本,建议仔细看完下面的内容。集群和部署•文件系统需要通过插件的方式加载•Flink 客户端根据配置的类加载策略加载,parent-first 和 child-first 两种方式•允许在所有的 TaskManager 上均匀            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-09-08 13:23:38
                            
                                113阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            此文章为 8 月 7 日 Flink Meetup 的分享整理,1.14 版本最新进展采用注释的方式在文末进行说明。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2022-05-23 20:41:07
                            
                                377阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            day08_Flink高级特性和新特性今日目标BroadcastState状态管理Flink DataStream 双流 JoinStreaming File sink 落地File Sink 落地FlinkSQL 整合 HiveBroadcastState 状态管理broadcast state 广播变量状态应用场景关联更新的规则,获取指定的数据(给ip得到经度纬度)=> 地图 API 获取到 省市区街道位置需求实时Flink DataStream 过滤出配            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-04-21 14:54:36
                            
                                118阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录结构任务和算子链Job Managers、Task Managers、客户端(Clients)Task Slots 和资源State BackendsSavepoints任务和算子链分布式计算中,Flink 将算子(operator)的 subtask 链接(chain)成 task。 每个 task 由一个线程执行。 把算子链接成 tasks 能够减少线程间切换和缓冲的开销,在降低延迟的同时            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-20 22:32:06
                            
                                117阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink1.13发布新特性概要这个版本是一些永久性的更新,帮助用户更好理解Flink程序的性能。当我们的流处理的速度并不是我们希望看到的性能的时候,这些新特性能帮助我们找到原因:数据加载和背压图能帮助定位性能瓶颈所在, CPU火焰图可以定位哪些代码是程序中的热点代码,State Access Latencies可以查看状态的保存情况除了上述的特征,Flink社区还改进了系统的许多地方,其中有一些            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-09 21:51:15
                            
                                25阅读
                            
                                                                             
                 
                
                                
                    