一、Flink基础API-Flink编程的基本概念1.1、Flink程序Flink 程序是实现了分布式集合转换(例如过滤、映射、更新状态、join、分组、定义窗口、聚合)的规范化程序。集合初始创建自 source(例如读取文件、kafka 主题,或本地内存中的集合)。结果通过 sink 返回,例如,它可以将数据写入(分布式)文件,或标准输出(例如命令行终端)。Flink 程序可以在多种环境中运行,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-22 21:51:22
                            
                                187阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录什么是 DataStream什么能被转化为流流式Flink程序的开发流程DataStream的数据源迭代数据流配置运行时参数什么是 DataStreamDatastream API的名称来自一个特殊的DataStream类,该类用于表示Flink程序中的数据集合。可以将它们视为可以包含重复项的不可变数据集合。这些数据可以是有界的,也可以是无界的,用于处理它们的API是相同的。注意:Flink            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-13 21:02:42
                            
                                74阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            由于工作需要最近学习flink 现记录下Flink介绍和实际使用过程 这是flink系列的第二篇文章 Flink DataStream API 介绍及使用Flink 中的 APIDataStream 介绍DataStream API 程序剖析获取一个执行环境加载/创建初始数据指定数据相关的转换指定计算结果的存储位置触发程序执行 Flink 中的 API 这里介绍我们常用的DataStream AP            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-21 11:53:56
                            
                                56阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink流处理API 使用一、Source1、以kafka消息队列的数据作为来源import org.apache.flink.api.common.serialization.SimpleStringSchema; import org.apache.flink.streaming.api.datastream.DataStreamSource; import org.apache.flink            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-04 22:12:07
                            
                                111阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Flink程序是实现分布式集合转换的常规程序(例如, filtering, mapping, updating state, joining, grouping, defining windows, aggregating)。最初从源创建集合(例如,通过从文件,kafka主题或从本地的内存集合中读取)。结果通过接收器返回,接收器可以例如将数据写入(分布式)文件或标准输出(例如,命令行终端)。 Fl            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-25 15:47:39
                            
                                765阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            API的基本概念Flink 程序是一种能够对分布式集合进行转换(transformation)的常规程序,比如:过滤、映射、更新状态、联合、分组、定义窗口、聚合等。集合(Collections )最初是通过源(sources )来创建(例如:从文件中读取、KAFKA 主题、或者来源于本地,以及从内存中收集)。处理结果是通过槽(sinks)返回的,它可以写入文件(包括分布式文件系统,如HBase),            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-07 21:50:03
                            
                                40阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1.Environment1.1 getExecutionEnvironment    创建一个执行环境,表示当前执行程序的上下文。 如果程序是独立调用的,则此方法返回本地执行环境;如果从命令行客户端调用程序以提交到集群,则此方法返回此集群的执行环境,也就是说,getExecutionEnvironment会根据查询运行的方式决定返回什么样的运行环境,是最常            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-16 13:49:38
                            
                                38阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            DataStream API(一)在了解DataStream API之前我们先来了解一下Flink API的构成。Flink API是分层的。由最底层的Stateful Stream Process到最顶层的SQL分为四层。如下图:DataStream API 顾名思义,就是DataStream类的API,DataStream表示Flink程序中的流式数据集合。它是一个包含重复项的不可变数据集合,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-09 13:56:17
                            
                                188阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink程序是实现分布式集合转换的常规程序。集合最初是从源创建的。通过接收器(slink)返回结果,接收器可以将数据写到某个文件或stdout。Flink可以在各种环境(context)中运行,本地JVM或集群。1.数据集和数据流Flink用特殊的类DataSet and DataStream来表示程序中的数据。可以认为他们是可以包含重复数据的不可变数据集合。在DataSet            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-19 20:58:55
                            
                                123阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Flink 流处理API的编程可以分为environment,source,transform,sink四大部分1 Flink支持的数据类型  在Flink底层因为要对所有的数据序列化,反序列化对数据进行传输,以便通过网络传送它们,或者从状态后端、检查点和保存点读取它们。所以Flink要有一套自己的类型提取系统,就是TypeInformation机制。Flink使用类型信息的概念来表示数据类型,并            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-20 16:28:10
                            
                                121阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、创建执行环境//创建批处理执行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
        //创建流处理执行环境
        StreamExecutionEnvironment env_stream =
                StreamExecuti            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-18 16:34:03
                            
                                84阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Fink DataSet 常用API一、DataSource二、Transformation三、Sink  Flink DataSet 常用API主要分为3部分: DataSource:是程序的数据源的输入,可以自定义数据源;transformation:具体的操作,对一个或多个输入进行计算处理;Sink:程序的输出,将Transformation处理之后的数据输出到指定的存储介质中;一、Dat            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-25 17:09:51
                            
                                29阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录1、文件系统 SQL 连接器2、如何指定文件系统类型3、如何指定文件格式4、读取文件系统4.1 开启 目录监控 4.2 可用的 Metadata5、写出文件系统5.1 创建分区表5.2 滚动策略、文件合并、分区提交5.3 指定 Sink Parallelism6、示例_通过FlinkSQL读取kafka在写入hive表6.1、创建 kafka source表用于读            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-06 10:00:36
                            
                                115阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录前言Statekeyed State1.ValueState 2.ListState  3.MapState4.ReducingState5.AggregatingState6.FoldingStateOperator State 存储状态MemoryStateBackend      FsStateBackend            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-01 15:44:47
                            
                                182阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Index1 data-source1.1 kafk-source1.2 hadoop-source1.3 udfkafka-source2 data-sink2.1 kafak-source-hdfs-sink2.2 hdfs-sink2.3 redis-sink2.4 kafka-sink3 operator4 state-fault-tolerance4.1 managed-keyed-st            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-11 18:39:44
                            
                                83阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Flink中的DataStream程序是实现数据流转换的常规程序(例如:filtering, updating state, defining windows, aggregating)。数据流最初是从各种来源创建的 (例如 message queues, socket streams, files)。 结果通过sink返回, 通过sink可以将数据写入文件或者是标准输出(例如:命令行终端), F            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-28 10:43:22
                            
                                23阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Source 基于集合 /** * @author WGR * @create 2021/9/3 -- 13:38 */ public class SourceTest1 { //注:并行度默认取的是CPU的线程,我电脑为8核16线程。 public static void main(String[ ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-09-09 16:39:00
                            
                                213阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            1 Rich Function几乎所有 Function 接口的子接口,都有其 Rich 版本;在 Rich 版本中,可以在获取运行状态的上下文,从而支持使用状态,从而支持实现更复杂的功能。要使用 Rich 版本的 Function,只需要将实现 Function 子接口改为继承 rich 版本的抽象类即可,在使用中,与使用非 rich 版本一样,直接传给 DataStream API 即可。样例            
                
         
            
            
            
            Flink四大基石Flink之所以能这么流行,离不开它最重要的四个基石:Checkpoint、State、Time、Window。 Checkpoint这是Flink最重要的一个特性。Flink基于Chandy-Lamport算法实现了一个分布式的一致性的快照,从而提供了一致性的语义。Chandy-Lamport算法实际上在1985年的时候已经被提出来,但并没有被很广泛的应用,而Flin            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-22 10:24:04
                            
                                356阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink 流处理 API前言一、API类型二、Environment1.getExecutionEnvironment2.createLocalEnvironment3.createRemoteEnvironment三、Source1.从集合中读取数据2.从文件中读取数据3.从Kafka中读取数据4.自定义Source四、Transform1.Map算子2.FlatMap算子3.Filter算            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-26 12:44:26
                            
                                69阅读
                            
                                                                             
                 
                
                                
                    