一、背景对于clickhouse有过使用经验的开发者应该知道,ck的写入,最优应该是批量的写入。但是对于流式场景来说,每批写入的数据量都是不可控制的,如kafka,每批拉取的消息数量是不定的,flink对于每条数据流的输出,写入ck的效率会十分缓慢,所以写了一个demo,去批量入库。生产环境使用还需要优化二、实现思路维护一个缓存队列当做一个缓冲区,当队列数据条数到达一定阈值,或者数据滞留时间超过一            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-09 20:51:05
                            
                                221阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            实现Flink写入MongoDB的流程如下:
| 步骤 | 描述 |
|------|------|
| 步骤一 | 引入Flink和MongoDB相关的依赖 |
| 步骤二 | 初始化Flink的执行环境 |
| 步骤三 | 定义数据源 |
| 步骤四 | 创建MongoDB的连接配置 |
| 步骤五 | 将数据写入MongoDB |
下面是每一步需要做的具体操作:
1. 步骤一:引入Fl            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-01-13 07:02:54
                            
                                139阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            随着大数据应用的不断深入,企业不再满足离线数据加工计算的时效,实时数据需求已成为数据应用新常态。伴随着实时分析需求的不断膨胀,传统的数据架构面临的成本高、实时性无法保证、组件繁冗、运维难度高等问题日益凸显。为了适应业务快速迭代的特点,帮助企业提升数据生产和应用的时效性、进一步挖掘实时数据价值,实时数仓的构建至关重要。本文将分享如何基于 Apache Doris 和 Apache Flink 快速构            
                
         
            
            
            
            主要maven依赖<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-filesystem_2.11</artifactId>
    <version>${flink.version}</version            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-19 13:37:41
                            
                                95阅读
                            
                                                                             
                 
                
                             
         
            
            
            
              Flink 提供了 Apache Kafka 连接器,用于从 Kafka topic 中读取或者向其中写入数据,可提供精确一次的处理语义。一:简单使用1.pom<!--Flink Connector KAFKA-->
        <dependency>
            <groupId>org.apach            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-13 20:42:16
                            
                                130阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Doris版本:0.15.0-rc04 文章目录任务流程异常说明Stream Load介绍简单说明支持数据格式前置条件启动批量删除方式相关代码示例 任务流程异常说明当MySQL端批量进行Delete或Update操作,产生大量Binlog,进入到Flink实时同步任务中,Flink实时同步任务通过拼装INSERT INTO语句,批量执行数据同步,这时,就有可能会导致Doris的数据版本超过了最大的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-27 06:56:14
                            
                                246阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言之前文章 Flink 写入数据到 ElasticSearch 写了如何将 Kafka 中的数据存储到 ElasticSearch 中,里面其实就已经用到了 Flink 自带的 Kafka source connector(FlinkKafkaConsumer)。存入到 ES 只是其中一种情况,那么如果我们有多个地方需要这份通过 Flink 转换后的数据,是不是又要我们继续写个 sink            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-07 16:35:31
                            
                                122阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录开始实例IcebergStreamWriterIcebergFilesCommitter附:flink task执行流程参考 开始实例flink支持DataStream和DataStream写入icebergStreamExecutionEnvironment env = ...;
DataStream<RowData> input = ... ;
Configuration            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-07 13:06:04
                            
                                164阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            相信从事大数据开发的人员,越来越多的人从事实时计算方向,flink技术就显示十分重要,说该技术重要,不仅仅是因为它的流式计算,更多的是和其他技术的整合比较强大,在开发过程中,除了写入消息中间件等场景,有的时候也需要写入传统的数据库,如Oracle或者MySql。我们习惯于连接关系型数据库的时候采用一些连接池如c3p0,在传统的业务开发或者数据量不是很大的时候,是没有问题的,但是在大数据量的情况,这            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-30 18:56:08
                            
                                219阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             Flink Doris Connector设计方案该方案首先感谢社区Spark Doris Connector的作者从Doris角度看,将其数据引入Flink,可以使用Flink一系列丰富的生态产品,拓宽了产品的想象力,也使得Doris和其他数据源的联合查询成为可能从我们业务架构出发和业务需求,我们选择了Flink作为我们架构的一部分,用于数据的ETL及实时计算框架,社区目前支持Sp            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-29 09:17:26
                            
                                201阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            0. 相关文章链接Flink文章汇总1. 开发目的        在日常的Flink开发中,我们经常要从Kafka中获取数据,或将计算统计后的结果输出到Kafka中,如果我们每次开发程序都去手动的创建 KafkaProducer 或者 KafkaConsumer ,这样就会造成开发时间的浪费,并且在代码中也会很冗余。这时,就可以将公用的代码进行抽取            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-28 01:23:57
                            
                                51阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            作者:孙金城摘要:本文为 Flink 生产环境应用中的疑问剖析,Flink 无法实时写入 MySQL 是初学者常见问题之一,由社区同学罗鹏程提出,Apache Flink PMC 孙金城(金竹)老师分享该问题的解决方案及分析思路。主要分为以下四部分:问题描述解决思路原因剖析举一反三Tips:更多生产环境问题交流及反馈请订阅 Flink 中文邮件列表~问题描述Flink 1.10 使用 flink-            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-09 21:01:03
                            
                                20阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            RFC - 24: Hoodie Flink Writer Proposal在Hudi 0.7.0版本中支持了Flink写Hudi的第一个版本,第一个版本中存在一些瓶颈,该RFC由阿里Blink团队的Danny提出,以解决第一个版本中的一些瓶颈,大部分代码已经合入master主干分支。1. 现有架构现有Flink写Hudi架构如下现有的架构存在如下瓶颈
InstantGeneratorOperat            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-23 06:44:17
                            
                                165阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言之前其实在 《从0到1学习Flink》—— 如何自定义 Data Sink ? 文章中其实已经写了点将数据写入到 MySQL,但是一些配置化的东西当时是写死的,不能够通用,最近知识星球里有朋友叫我: 写个从 kafka 中读取数据,经过 Flink 做个预聚合,然后创建数据库连接池将数据批量写入到 mysql 的例子。       于是才有了这篇文章,更多提问和想要我写的文章可以            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-27 21:58:08
                            
                                158阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            要想Flink实现ExactlyOnce需要Source能够记录偏移量,Sink支持开启事务一、Source1、使用KafkaSource需要调用addSource方法,传入一个FlinkKafkaConsumer的实例2、FlinkKafkaConsumer类实现了FlinkKafkaConsumerBase,点到FlinkKafkaConsumerBase里面我们看到他有一个成员变量,这个成员            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-07 00:57:22
                            
                                270阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             
 准备你需要将这两个依赖添加到 pom.xml 中<dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
    <version>5.1.34</version>
</depe            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-14 21:50:16
                            
                                359阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Kudu 是现在比较火的一款存储引擎,集HDFS的顺序读和HBase的随机读于一身,非常适合物流网场景,刚刚到达的数据就马上要被终端用户使用访问到,未来还要做大规模的数据分析。kudu 适合的场景(以下内容来自网络):1. 适用于那些既有随机访问,也有批量数据扫描的复合场景
2. CPU密集型的场景
3. 使用了高性能的存储设备,包括使用更多的内存
4. 要求支持数据更新,避免数据反复迁移的场景
            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-25 13:04:12
                            
                                114阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            方式一 通过JDBCOutputFormat在flink中没有现成的用来写入MySQL的sink,但是flink提供了一个类,JDBCOutputFormat,通过这个类,如果你提供了jdbc的driver,则可以当做sink使用。JDBCOutputFormat其实是flink的batch api,但也可以用来作为stream的api使用,社区也推荐通过这种方式来进行。JDBCOutputFor            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-05-23 14:47:34
                            
                                437阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录Doris系列前言一、Kafka集群使用步骤1.启动kafka集群环境2.创建kafka的topic主题3.往kafka中插入一批测试数据二、Doris使用步骤1.创建对应表2.创建导入作业三、Doris常用的参数总结 前言接着上次的Doris系列继续和大家分享,上次讲了Doris 建表操作,和从Broker Load导入hdfs数据操作,今天和大家分享从Routine Load导入kaf            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-19 17:40:45
                            
                                180阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1、前言  本文是在《如何计算实时热门商品》[1]一文上做的扩展,仅在功能上验证了利用Flink消费Kafka数据,把处理后的数据写入到HBase的流程,其具体性能未做调优。此外,文中并未就Flink处理逻辑做过多的分析,只因引文(若不特殊说明,文中引文皆指《如何计算实时热门商品》一文)中写的很详细了,故仅给出博主调试犯下的错。文中若有错误,欢迎大伙留言指出,谢谢!  源码在GitHub上,地址:            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-15 14:21:56
                            
                                166阅读