文章目录前言Apollo配置中心设置配置环境(ENV)创建应用发布配置Springboot配置引入Maven依赖编辑配置文件增加启动类和测试接口测试使用开发环境(ENV)配置切换到生产环境(PRO)配置测试配置中心断线注册中心动态更新配置参考 前言参考这一篇 在Linux部署Apollo配置中心 可以搭建出一套Apollo配置中心服务,我们在这里重点看看Springboot如何整合Apollo,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-22 16:28:05
                            
                                38阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            基于FLINK搭建实时数仓技术调研基于FLINK搭建实时数仓技术调研确定适合的OLTP数据库结合OLTP和OLAP的实时数仓架构实时数仓ETL流程总结 基于FLINK搭建实时数仓技术调研____数据仓库(DATA WAREHOUSE),是做大数据基本都会去涉及的项目。简单来说,数仓是数据结构化存储和查询,并利用分布式计算引擎进行计算得到业务需要的指标,以支持企业商业智能,通过充分挖掘数据价值,形            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-23 21:07:44
                            
                                64阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言随着我司业务飞速增长,实时数仓的建设已经提上了日程。虽然还没有正式开始实施,但是汲取前人的经验,做好万全的准备总是必要的。本文简单松散地记录一下想法,不涉及维度建模方法论的事情(这个就老老实实去问Kimball他老人家吧)。动机随着业务快速增长,传统离线数仓的不足暴露出来:运维层面——所有调度任务只能在业务闲时(凌晨)集中启动,集群压力大,耗时越来越长;业务层面——数据按T+1更新,延迟高,数            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-19 15:25:41
                            
                                126阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 实时数据仓库Kappa架构技术栈实现指南
## 一、整体流程
在实现一个实时数据仓库的Kappa架构时,我们通常会按照以下几个步骤进行:
| 步骤            | 描述                                    |
|----------------|----------------------------------------|
| 1. 需求分            
                
         
            
            
            
            文章目录1.数据仓库概念2.离线大数据架构3.Lambda 架构4.Kappa 架构5. Lambda 架构与 Kappa 架构的对比1.数据仓库概念数据仓库是一个面向主题的            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-05-26 01:21:52
                            
                                2493阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            |0x00 数仓为什么要实时去年开始,实时数仓的概念突然火了。也许是传统的离线数仓搞了很多年,技术相对成熟了,因此大家都把注意力放到了挑战性更高的实时上来;也许是随着存量市场竞争的到来,对于速度的要求越来越快,T+1已经不能满足数据的获取要求了,实时的构建需求也就应运而生了。 总之,时效性开始大于分析性。 文本简单介绍实时数仓的一些基础理论,更系统性的理论,仍然行业需要更大范围的应用和总结。总之,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-02 21:17:37
                            
                                76阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            2、实时数仓方案2.1、为何需要实时数仓架构随着数据量的增大,传统数据的方案在时效性上和数据维护上变得越来越困难。实时数仓架构应运而生。具体方案落地上实时数仓有很多方案可以选择,不同的业务和应用场景到底应该选择哪种技术方案?针对该问题梳理了市场上常见的实时数仓方案和对应的应用场景。2.2、数仓如何分层 & 各层用途数仓一般分为:ODS层、DWD层、DWS层和ADS层。1)ODS层:ODS是            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-01-07 23:09:50
                            
                                1541阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-04-11 10:34:00
                            
                                414阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            文章目录第1章 实时需求概览1.1 实时需求与离线需求的比较1.2 数仓架构设计1.2.1 离线image-202101201154530071.2.2 实时1.3 本项目主要需求1.3.1 当日用户首次登录(日活)分时趋势图,昨日对比1.3.2 当日新增付费用户(首单)分析(ods+dwd)1.3.3 订单明细实付金额分摊以及交易额统计(dws)1.3.4 ADS聚合及可视化(ads)第2章            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-06 21:53:37
                            
                                18阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目前企业数据架构基本也就包含3种模式,离线数仓,实时数仓,实时流。 离线数仓没有任何歧义,实时数仓和实时流之前有什么区别呢?从技术实现上,实时数仓肯定可以通过实时流来实现的,那么为什么会把这2种东西做一个区分. 在概念上,数据主题和指标会有很多,通常离线做一套,实时也会做一套,保证有些指标能实时的出数据,这部分实际上是更多的倾向报表类型,比如公司的大屏展示,而很多业务系统也需要实时的计算数据,不仅            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-15 02:37:59
                            
                                51阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1.概述Hologres是阿里巴巴自主研发的一站式实时数仓引擎,支持海量数据实时写入、实时更新、实时分析,支持标准SQL(兼容PostgreSQL协议),支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving),与MaxCompute、Flink、DataWorks深度融合,提供企业级离在线一体化全栈数仓解决方案。2.功能概述多场景查询分析Ho            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-10 10:58:36
                            
                                186阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1 为什么要建设实时数仓在开始说如何建设实时数仓之前,我们先说一下建设实时数仓的目的,实时数仓解决了什么问题。其实在很多情况下,我们对于实时数仓的定位可能是没有那么准确的。我们都知道,传统数仓一个非常重要的功能是用于记录历史,而实时数仓恰恰相反,它更重视处理当前的状态。因此,我们创建实时数仓的目的就在于解决传统数据仓库由于时效性低而解决不了的问题。传统数仓可以解决的问题,我们不解决;如果问题本身就            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-04 11:04:08
                            
                                80阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            实时数仓考虑到时效性问题,分层设计需要尽量精简,降低中间流程出错的可能性,不过总体而言,实时数仓还是会参考离线数仓的分层思想来设计。从传统的经验来讲,我们认为数仓有一个很重要的功能,即能够记录历史。通常,数仓都是希望从业务上线的第一天开始有数据,然后一直记录到现在。但实时处理技术,又是强调当前处理状态的一门技术,所以我们认为这两个相对对立的方案重叠在一起的时候,它注定不是用来解决一个比较广泛问题的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-16 22:16:08
                            
                                155阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录一、实时数据1.1 日志采集器1.1 日志生成器1.3 日志分发器1.4 采集流脚本二、实时采集2.1 项目搭建2.2 Kafka 数据获取2.3 Redis 数据去重2.4 ES 数据存储2.5 精准一次性消费2.6 Kibana 可视化配置2.7 发布数据接口三、实时监控3.1 Canal3.1.1 配置 MySQL3.1.2 安装 canal3.2 Canal ODS 层数据分流3            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-08 13:15:35
                            
                                269阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录一、数仓分层介绍二、实时需求概览三、统计架构分析四、日志数据采集1. 模拟日志生成器的使用2. 日志采集模块-本地测试3. 日志采集模块-打包单机部署五、业务数据库数据采集1. MySQL 的准备2. 环境搭建3. 代码实现六、Nginx 安装七、Maxwell 安装八、Canal 安装 一、数仓分层介绍1. 普通实时计算与实时数仓比较普通的实时计算优先考虑时效性,所以从数据源采集经过实时计            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-07 15:52:47
                            
                                298阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            随着互联网的发展从红海时代进入蓝海时代,数据的时效性对企业的精细化运营越来越重要,在每天产生的海量数据中,如何挖掘出实时有效的信息,对于公司的快速决策、产品的快速迭代都非常重要。在本地生活服务领域的两大巨头,滴滴在自己的业务如顺风车、美团在自己的业务如团购外卖中进行实时数仓的建设,为消费者提供更好的服务,如我们在滴滴上可以更快的打到更便宜的车、在美团上可以更快的取到最想要吃的餐,这其中的功劳也要算            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-03 13:57:07
                            
                                45阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
                    “数据智性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时数仓在这一过程中起到了不可替代的作用。一、实时数仓建设的背景        传统意义上的数据仓库主要处理T+1数据(即:今天产生            
                
         
            
            
            
            整理|路培杰(Flink 社区志愿者) 摘要:Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以 Iceberg、Hudi、Delta 为代表的解决方案应运而生,Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表,并提供对 Apache Flin            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-29 07:27:06
                            
                                145阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
                     目前的数仓大概分为离线数仓和实时数仓。离线数仓一般是T+1的数据ETL方案;实时数仓一般是分钟级别甚至更短的时间内的ETL方案。实时数仓一般是将上游业务库的数据通过binlog等形式,实时抽取到Kafka,进行实时ETL。但目前主流的实时数仓也会细分为两类,一类是标准的实时数仓,所有的ETL过程都通过            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2019-12-26 09:33:00
                            
                                284阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            基于FlinkSql实时数仓构建   文章目录基于FlinkSql实时数仓构建1、案例简介1.1 指标2、架构设计2.1 架构设计概要2.2 架构分层设计3、业务数据3.1 业务数据表关系3.2 业务数据表4、数据处理流程4.1 ODS层数据同步4.2 DIM层数据处理4.3 DWD层数据处理4.4 ADS层数据处理4.5 Flink Sql Client 执行5 、指标可视化6、API6、技术探            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-17 09:29:47
                            
                                70阅读
                            
                                                                             
                 
                
                                
                    