一、小米数仓架构演变1.1 数仓架构现状在介绍演变前,我们先来了解下小米当前的技术现状。上图展示的是小米目前的技术架构,在存储侧我们主要应用数据湖 Iceberg 和自研消息队列 Talos,计算层主要应用 Flink 和 Spark,他们统一运行在 Yarn 上,统一通过 Metacat 获取元数据信息,并通过 Ranger 来进行统一的鉴权服务。我们内部使用 Spark 和 Presto 来支            
                
         
            
            
            
            今天分享的内容主要分为四个部分,首先会介绍下严选实时数仓的背景、产生的一些问题。然后是针对这些背景和问题对实时数仓的整体设计和具体的实施方案,接着会介绍下在实时数仓的数据质量方面的工作,最后讲一下实时数仓在严选中的应用场景。1. 背景严选实时数仓项目是从 17 年下半年开始做的,背景总结为三个方面:第一个是长链路且快速变化的业务,严选作为一个 ODM 电商,整个业务链度从商品采购、生产、仓库、到销            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-14 10:39:41
                            
                                13阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言Broadcast State是Flink支持的一种Operator State。使用Broadcast State,可以在Flink程序的一个Stream中输入数据记录,然后将这些数据记录广播(Broadcast)到下游的每个Task中,使得这些数据记录能够为所有的Task所共享,比如一些用于配置的数据记录。这样,每个Task在处理其所对应的Stream中记录的时候,读取这些配置,来满足实际            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-05 13:22:30
                            
                                79阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            DWD层业务数据分流回顾一下之前业务数据的处理; 首先把脚本生成的业务数据发送到MySql数据库中,在表gmall0709中可以看到数据: 这里就是生成的对应数据表,然后通过Maxwell把数据输入到Kafka中,保存在ods_base_db_m主题中;此时我们需要把这个kafka主题中的数据进行过滤和分流处理,过滤处理很容易,这里我们过滤掉data为空,或者是长度<3的数据内容,当然这个数            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-16 01:22:13
                            
                                61阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink电商数仓项目笔记电商实时数仓分层介绍 普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。如此做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以当面对大量实时需求的时候,计算的复用性较差,开发成本随着需求增加直线上升。 实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。例如下图:例如:我们在普通实时SparkStre            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-01 15:25:35
                            
                                136阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Process Function用来构建事件驱动的应用以及实现自定义的业务逻辑,Flink提供了8个Process Function:• ProcessFunction :最原始,自定义程度高,什么都能做
• KeyedProcessFunction:keyby后使用得process中传入得Process Function
• CoProcessFunction:connect后使用得proces            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-03 20:16:00
                            
                                21阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            数据仓库是一项发展历程漫长的技术,主要为企业的业务决策提供支持与服务。随着数字化业务的扩张,企业的数据量呈现爆发式增长,数据开始从 BP 发展到 PB 级别,此时,适应海量数据的实时计算、可灵活扩展的实时数仓几乎成为企业的“刚需”。它作为数据智能的基础环节,在快速获取数据反馈帮助企业更快的做出决策,更好的进行产品迭代的过程中起到了不可替代的作用。实时数仓从 0 开始落地,有什么可参考的方法或者路径            
                
         
            
            
            
            Flink实时数仓项目—项目初了解前言一、实时数仓分层介绍1.普通的实时计算与实时数仓比较2.实时电商数仓分层规划二、实时数仓需求概览1.离线计算和实时计算的比较2.实时需求种类2.1 日常统计报表或分析图中需要包含当日部分2.2 实时数据大屏监控2.3 数据预警或提示2.4 实时推荐系统三、数仓架构分析1.离线数仓架构2.实时数仓架构 前言学习完了Flink1.13,拿个项目练练手。一、实时数            
                
         
            
            
            
            DWD层日志数据分离在数仓搭建过程中,对日志数据做分离是非常有必要而且有意义的,我们可以通过把日志分为启动、隔离、曝光、异常、页面等日志,可以计算获取访客数量、独立访客数量、页面跳转、页面跳出等统计指标数据; 那么在实时数仓和离线数仓中,这里有什么不同点呢?异同点分析在离线数仓的搭建过程中,我们可以获取一段时间内的离线日志数据,然后将日志数据进行过滤和分离,但是在实时数仓中,我们需要得到实时的流数            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-01 23:32:25
                            
                                356阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            导读随着公司用户增长业务快速发展,陆续孵化出 部落、同镇、C 端会员、游戏等非常多的业务板块。与此同时产品及运营对实时数据需求逐渐增多,帮助他们更快的做出决策,更好的进行产品迭代,实时数仓的建设变得越发重要起来。本文主要介绍用户增长业务基于 Flink 构建实时数仓的实践之路。实时数仓1.0介绍如下图是早期的实时计算架构,实时数据需求较少,架构简单,数据链路少,一路到底的开发模式能很快满足业务需求            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-06 11:02:11
                            
                                92阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            整理|路培杰(Flink 社区志愿者) 摘要:Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以 Iceberg、Hudi、Delta 为代表的解决方案应运而生,Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表,并提供对 Apache Flin            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-29 07:27:06
                            
                                145阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            项目概览项目主要通过实时数仓的搭建来完成对Flink的进一步掌握和学习,Flink代码的编写使用的是Java,其中会涉及到Flink的很多知识点,FlinkCDC,FlinkSQL,开船,富函数等,用来学习Flink顺便过一下数仓还是很可以的。根据FlinkForward2021中的一些动态,FlinkSQL化已经势不可挡,流式数仓StreamHouse也开始慢慢推进。 在这里实时数仓主要是为了提            
                
         
            
            
            
            今天分享的内容主要分为四个部分,首先会介绍下严选实时数仓的背景、产生的一些问题。然后是针对这些背景和问题对实时数仓的整体设计和具体的实施方案,接着会介绍下在实时数仓的数据质量方面的工作,最后讲一下实时数仓在严选中的应用场景。1. 背景严选实时数仓项目是从 17 年下半年开始做的,背景总结为三个方面:第一个是长链路且快速变化的业务,严选作为一个 ODM 电商,整个业务链度从商品采购、生            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-13 09:41:42
                            
                                26阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言Flink 1.9 版本开源了很多 Blink 方面的功能,尤其是在 SQL 方面,这使得我们在开发 Flink 实时任务变得更加方便。目前 Blink SQL 支持了 Create Table 功能,以及维表的功能。我们的实时任务整体流程为,读取Kafka的数据,然后去关联 HBase 维表的数据,最后在输出到 Kafka 中,虽然整体流程跑通,但是其中也遇到了很多坑,这里记录一下,和大家一            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-09 21:22:25
                            
                                40阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            介绍:基于Flink实现的商品实时推荐系统。flink统计商品热度,放入redis缓存,分析日志信息,将画像            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-06-13 21:19:58
                            
                                919阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            表定义动态表(dynamic table):动态表是流的另一种表达方式,动态表作为一个逻辑的抽象概念,使我们更容易理解flink中将streaming发展到table这个层次的设计,本质都是对无边界、持续变更数据的表示形式,所以动态表与流之间可以相互转换。版本表(dynamic table):动态表之上的定义,版本是一个拥有主键和时间属性的动态表(建表语句必需包含PRIMARY KEY和WATER            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-30 00:29:51
                            
                                76阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            作者 | Fabian Hueske and Vasiliki Kalavri目录一、系统架构       1.Flink架构组件       2.应用部署       3.任务执行       4.高可用配置            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-22 08:25:49
                            
                                69阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             文章目录DWD层流量域未经加工的事务事实表(※)流量域独立访客事务事实表流量域用户跳出事务事实表Join方式介绍(附)交易域加购事务事实表交易域订单预处理表(※)交易域下单事务事实表交易域取消订单事务事实表交易域支付成功事务事实表交易域退单事务事实表交易域退款成功事务事实表工具域优惠券领取事务事实表工具域优惠券使用(下单)事务事实表工具域优惠券使用(支付)事务事实表互动域收藏商品事务事实表互动域            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-15 12:39:08
                            
                                91阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            需要异步I / O操作先决条件异步I / O API超时处理结果顺序活动时间容错保证实施技巧警告本页介绍了Flink API与外部数据存储的异步I / O的使用。对于不熟悉异步或事件驱动编程的用户,有关Futures和事件驱动编程可能是有用的准备。注:有关异步I / O实用程序的设计和实现的详细信息,请参阅提议和设计文档 FLIP-12:异步I / O设计和实现。需要异步I / O操作当            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-22 18:57:14
                            
                                166阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            背景Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。自 2015 年开始,阿里巴巴开始调研开源流计算引擎,最终决定基于 Flink 打造新一代计算引擎,针对 Flink 存在的不足进行优化和改进,并且在 2019 年初将最终代码开源,也就是我们熟知的 Blink。Blink 在原来的 Flink 基础上最显著的一个贡            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-08 11:09:54
                            
                                289阅读
                            
                                                                             
                 
                
                                
                    