# 使用 Apache Flink 实现实时数据写入 HBase
在大数据处理中,实时数据流的处理和存储是一个关键的环节。Apache Flink 是一个强大的流处理框架,而 HBase 是一个流行的 NoSQL 数据库。将 Flink 与 HBase 结合,可以有效地处理实时数据并存储。本文将向您展示如何实现 Flink 实时数据写入 HBase 的代码。
## 整体流程
在开始之前,我们            
                
         
            
            
            
            文章目录分享说明资料架构优势maven导包tabel API和SQL本地环境配置优化stream支持scala支持自定义格式或函数程序结构Blink(新)和flink(旧)计划器区别程序结构总结 分享大数据博客列表说明Flink Table 相关知识是我一直感兴趣的部分,现决定跨过一些不必要的知识,直接学习 Flink Table ,本文主要介绍 flink table 架构和接口实现。Apac            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-03 13:24:56
                            
                                73阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、普通实时计算和实时数仓的比较  普通实时计算优先考虑时效性,从数据采集经过计算直接得到结果,时效性更好,但是中间结果没有沉淀下来,当面临大量实时计算的时候,计算的复用性差,开发成本大大提高;  实时数仓是基于数仓理论对数据分层,提高数据的复用率; 二、实时数仓分层  ods:原始数据,业务  dwd:数据对象进行分流,比如页面访问,订单等  dim:维度数据  dwm:对部分数据进一            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-24 16:01:21
                            
                                205阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            都2022年了,身为大数据工程师的你,还在苦学 Spark、Hadoop、Storm,却还没搞过 Flink?每年双十一,阿里都在 Flink 实时计算技术的驱动下全程保持了“如丝般顺滑”,基于 Flink 的阿里巴巴实时计算平台简直强·无敌。最恐怖的是,阿里几乎每年的实时计算峰值都达到了破纪录的每秒40亿条记录,数据量也达到了惊人的7TB每秒,相当于一秒钟需要读完500万本《新华字典》!Flin            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-29 22:52:42
                            
                                50阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在HDFS上面最不明确的事情之一就是数据的冗余。它完全是自动进行的,因为无法得知其中详细的信息,我们需要做的就是相信它。HBase完全相信HDFS存储数据的安全性和完整性,并将数据文件交给HDFS存储。正是因为HDFS的数据冗余方式对于HBase来说是完全透明的,产生了一个问题:HBase的效率会受到多大的影响?说的简单一点,当HBase需要存取数据时,如何保证有一份冗余的数据块离自己最近?当我们            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-14 16:02:47
                            
                                0阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Flink什么是CDC?CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。1. 环境准备mysqlhbaseflink 1.13.5 on            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-15 18:03:56
                            
                                136阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            HBase数仓架构1.整体架构选型主要有两个,第一个是实时,实时采集利用 Maxwell,直接采集公司数据库 MySQL,将数据直接以 json 格式发送到 Kafka 集群,数仓存储选型是 HBase。上图是实时数仓架构图,主要的存储层还是以 HBase 为主。第一层业务系统数据库在Mysql上。使用 Maxwell,其支持白名单和黑名单。业务平台的表可能有两三百个,大数据平台的计算可能只需要            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-12 19:16:46
                            
                                463阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            flink 关联 hbase 表非主键关联 Hbase 表非主键的功能,是我们一直都在做的事情,只是实现的方式不同。在 Flink 1.10 版本的时候,SQL 关联 Hbase,都是在 SqlSubmit 程序启动的时候,基于配置文件生成 UDF 并注册成临时函数,直到 Flink 官方的 Hbase connector 支持 Lookup join,使用 lookup join 替换 udf            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-21 23:29:37
                            
                                583阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            今天分享的内容主要分为四个部分,首先会介绍下严选实时数仓的背景、产生的一些问题。然后是针对这些背景和问题对实时数仓的整体设计和具体的实施方案,接着会介绍下在实时数仓的数据质量方面的工作,最后讲一下实时数仓在严选中的应用场景。1. 背景严选实时数仓项目是从 17 年下半年开始做的,背景总结为三个方面:第一个是长链路且快速变化的业务,严选作为一个 ODM 电商,整个业务链度从商品采购、生产、仓库、到销            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-14 10:39:41
                            
                                13阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1.简介Fink是一个开源的分布式,高性能,高可用,准确的实时数据计算框架,它主要优点如下:流式计算: Fink可以连接处理流式(实时)数据。 容错: Fink提供了有状态的计算,会记录任务的中间状态,当执行失败时可以实现故障恢复。 可伸缩: Fink集群可以支持上千个节点。 高性能: Fink能提供高吞吐,低延迟的性能。 三大实时计算框架对比:Spark Streaming: 可以处理秒级别延迟            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-23 07:38:44
                            
                                359阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            创建数据写入任务为了方便介绍,本节的数据源采用随机数据源(random),实际使用中可以根据实际情况创建数据源。在实时计算控制台上,点击项目管理>项目列表,单击项目名进入目标项目。点击开发>新建作业,创建数据写入的Flink SQL作业。写入ADB PG的作业举例。 --SQL--*****************************************************            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-14 17:13:09
                            
                                205阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            实时数据分析正在成为企业数字化经营的核心,如何有效构建实时数据分析系统是每个企业都在面临的挑战。当前在构建实时数仓时,由于数据源的多样性,需要使用不同的采集工具,如 Flume、Canal、Logstash。对于不同的业务,我们通常会采用不同的分析引擎。比如,对于固定报表业务,根据已知的查询语句可以预先将事实表与维度表打平成宽表,充分利用 ClickHouse 强大的单表查询能力;对于高并发的查询            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-28 07:44:24
                            
                                74阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1. 环境准备•Flink 1.12.2_2.11•Hudi 0.9.0-SNAPSHOT(master分支)•Spark 2.4.5、Hadoop 3.1.3、Hive 3.1.22. Flink CDC写入HudiMySQL建表语句如下create table users(    id bigint auto_increment primary key,    name varchar(20)            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-12-21 17:23:32
                            
                                1424阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1. 环境准备•Flink 1.12.2_2.11•Hudi 0.9.0-SNAPSHOT(master分支)•S...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-07-13 13:30:06
                            
                                2725阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前面介绍了读取 state,这篇笔记介绍下 state 是如何触发写入的。1. Why考虑订阅 Kafka 写 HBase 的场景:写入 HBase 时,为了获取最大的写入性能,可能会先缓存到内存然后批量写入消费 Kafka 时,需要记录当前的 offsets,方便重启时继续消费。因此,就需要有数据同步的机制,在上传 kafka 的 offsets 前,确保 hbase 收到了全部数据并且将内存的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-07 07:32:20
                            
                                108阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            需要异步I / O操作先决条件异步I / O API超时处理结果顺序活动时间容错保证实施技巧警告本页介绍了Flink API与外部数据存储的异步I / O的使用。对于不熟悉异步或事件驱动编程的用户,有关Futures和事件驱动编程可能是有用的准备。注:有关异步I / O实用程序的设计和实现的详细信息,请参阅提议和设计文档 FLIP-12:异步I / O设计和实现。需要异步I / O操作当            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-22 18:57:14
                            
                                166阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            设计思路之前通过分流等处理手段,将数据拆分成了独立的kafka topic,接下来处理数据,我们应该考虑的是将实时计算使用的指标项进行处理,时效性是实时数仓所追求的,所以在一些场景没有必要和离线数仓一样,大而全的中间层,只需要中间层将一些计算指标保存即可,为下次计算使用提供便利。 所以需要考虑一些实时计算的指标需求,把这些指标以主题宽表的形式输出就是dws层 这里列出来一部分指标,主要为服务可视化            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-02 01:09:12
                            
                                184阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            面向数据时代的实时计算技术接踵而至。从我们最初认识的 Storm,再到 Spark 的异军突起,迅速占领了整个实时计算领域。Apache Flink 同时支持流式及批量分析应用,实现批流一体。Flink 在实时数仓和实时 ETL 中有天然的优势:状态管理,实时数仓里面会进行很多的聚合计算,这些都需要对于状态进行访问和管理,Flink 支持强大的状态管理;丰富的 API,Flink 提供极为丰富的多            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-21 14:02:10
                            
                                131阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            数仓技术应对关系型结构化数据游刃有余,但对于多元异构数据,却爱莫能助。最近行业大佬都在聊怎么部署数据湖,这波操作未来走向如何?数据湖技术能够实现全量数据的单一存储,通常存储原始格式的对象块或者文件。不管是传统数仓承载的结构化数据还是半结构化数据、非结构化数据、二进制数据等任意类型的数据,数据湖都可以轻松实现采集、存储和分析。更为人性化的是,数据湖可根据企业的业务需求提供可大可小的弹性扩充,数据可在            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-14 17:12:50
                            
                                67阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink流处理API运行环境EnvironmentgetExecutionEnvironment创建一个执行环境,表示当前执行程序的上下文。 如果程序是独立调用的,则此方法返回本地执行环境;如果从命令行客户端调用程序以提交到集群,则此方法返回此集群的执行环境,也就是说,getExecutionEnvironment 会根据查询运行的方式决定返回什么样的运行环境,是最常用的一种创建执行环境的方式。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-26 15:04:58
                            
                                80阅读
                            
                                                                             
                 
                
                                
                    