声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章               2. 由于是个人总结, 所以用最精简的话语来写文章  &nbs            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-12 10:42:11
                            
                                129阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在数据处理领域,离线计算工具如Apache Spark和实时处理工具如Apache Flink分别扮演着至关重要的角色。通过Spark,我们可以利用强大的数据处理能力进行批处理,而Flink则允许我们实现持续的数据流处理。在科学数据分析、实时监控以及复杂事件处理等场景中,二者结合使用可以形成强大的数据处理能力。但同时,这也带来了许多挑战,例如如何有效地集成两者,以便在不同的应用场景中优化性能。接下            
                
         
            
            
            
            在线工程在机器学习场景下,在线离线处理也会面临一些问题。首先会将离线的数据进行预处理和特征工程(如红框标注所示),然后进行离线的模型训练,训练好的模型会推到线上做推理。推理模块加载模型后,在线的数据也会有进行预处理和特征工程的过程,将处理之后的数据喂给模型做在线推理。在机器学习领域除了离线的模型训练以外,还有在线的模型训练。如下图所示,我们通常会将预处理的数据写到一个 Message Queue            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-06 11:02:01
                            
                                97阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            数据仓库的一般架构 Apache IcebergApache Iceberg是一种用于大型分析数据集的开放表格,Iceberge向Trino和Spark添加了使用高性能格式的表,就像Sql表一样。Iceberg为了避免出现不变要的一些意外,表结构和组织并不会实际删除,用户也不需要特意了解分区便可进行快速查询。(1)Iceberg的表支持快速添加、删除、更新或重命名操作(2)将分区列进行隐            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-02 10:34:12
                            
                                106阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            提供离线数据与实时数据整合功能,支撑实时数据应用,实现离线数据和实时数据的关联计算。 通过广播变量将离线数据广播,数据存储在内存中,通过connect方法获取广播流数据,实现与实时数据的高效率整合,广播流数据随离线数据进行更新。 KafkaWithBroadcast import bean.Test ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-10-28 18:18:00
                            
                                1710阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            离线数仓 刚入库的业务数据,大致分为两种,一种是 MySQL 的 binlog,另外一种是业务系统中的业务打点,这个日志打点信息可以通过 Flume 等工具去采集,再离线入库到数仓中。 然后随着业务越来越多,业务中的各个表可以做一些抽象,抽象的好处是更好的管理和更高效的数据复用和计算复用。所以数仓就分成了多层 (明细层、中间层、服务层等等),每一层存的是数据表,数据表之间通过 HiveSQL 的计            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-25 20:19:06
                            
                                87阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink的特点1、事件驱动型(Event-Driven)2、流与批3、分层API4、支持有状态计算5、支持exactly-once语义6、支持事件时间(Event Time) 1、事件驱动型(Event-Driven)事件驱动型应用是一类具有状态的应用,它从一个或多个事件流提取数据,并根据到来的事件触发计算、状态更新或其他外部动作。比较典型的就是以kafka为代表的消息队列几乎都是事件驱动型应            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-23 15:43:59
                            
                                280阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、简介Flink提供的有状态可查询机制,可以通过第三方程序读取到flink内部的状态数据 就是flink计算之后的结果(state),允许通过第三方应用程序查询到1.1应用场景用户在进行登录前需要同过flink中获取到状态来判断本次登录是否有风险 说明:二、架构 说明:在Flink的状态可查询的架构中,存在三个基本概念 QueryableStateClient:第三方程序,不是flink架构中的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-28 09:31:05
                            
                                63阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Flink流处理与网络安全是一篇深度探讨Flink流处理技术及其在网络安全领域的应用的专业技术博客文章。本文将从以下几个方面进行探讨:背景介绍核心概念与联系核心算法原理和具体操作步骤以及数学模型公式详细讲解具体代码实例和详细解释说明未来发展趋势与挑战附录常见问题与解答本文旨在帮助读者更好地理解Flink流处理技术及其在网络安全领域的应用,并为读者提供一些实际操作的经验和见解。1.1 Flink简介            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-05 18:35:14
                            
                                78阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录0. 相关文章链接1. 离线 Compaction1.1. 设置参数1.2. 原理1.3. 使用方式1.3.1. 执行命令1.3.2. 参数配置1.3.3. 案例演示2. 离线 Clustering2.1. 设置参数2.2. 原理2.3. 使用方式2.3.1. 执行命令2.3            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-22 11:50:41
                            
                                129阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            flink即做实时,有做离线我们有哪几种框架的选择1.直接从日志采集服务器用flume转数据,定义一个Source,两个channel,两个Sink,一个写kafka,一个写hdfsSink答案 不现实,太浪费,出问题原因 1.不现实:对日志采集服务器压力很大,我们一般使用到网卡是千兆的网卡,超过了理论单网卡的传输数据是125M,kafka用的80M/秒,hdfs用60/秒,加起来140M/秒,超            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-25 04:32:51
                            
                                92阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前言Flink 1.9 版本开源了很多 Blink 方面的功能,尤其是在 SQL 方面,这使得我们在开发 Flink 实时任务变得更加方便。目前 Blink SQL 支持了 Create Table 功能,以及维表的功能。我们的实时任务整体流程为,读取Kafka的数据,然后去关联 HBase 维表的数据,最后在输出到 Kafka 中,虽然整体流程跑通,但是其中也遇到了很多坑,这里记录一下,和大家一            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-09 21:22:25
                            
                                40阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            通常的认识是:Flink 流模式跑流任务,批模式跑批任务,用流模式跑离线任务也是个有意思的事情虽然新版 Flink 已经在 sql 上实现了一定程度的流批一体,但是 DataStream 和 DataSet API 还是相差比较大的用 Flink 跑离线任务也是机缘巧合(也是必然,毕竟我不会 Spark)现在的项目组经常会跑历史数据,当然是批模式的,在用 Flink batch 被遇到各种各样的问            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-27 19:46:36
                            
                                151阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Apache Flink作为分布式处理引擎,用于对无界和有界数据流进行状态计算。其中实时任务用于处理无界数据流,离线任务用于处理有界数据。通过本文你将掌握让大型离线任务运行稳定的能力,同时能够通过分析离线任务运行特点,降低任务运行资源消耗,减少任务成本。下面我们进入正题:01—离线任务情况说明对于平台处理的离线任务,任务大都是处理:从HDFS到HIVE的数据清洗任务。这类任务的特点是数据来一条处理            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-27 22:41:19
                            
                                181阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            事件驱动型应用是一类具有状态的应用,它从一个或多个事件流提取数据,并根据到来的事件触发计算、状态更新或其他外部动作。比较典型的就是以kafka为代表的消息队列几乎都是事件驱动型应用。(Flink的计算也是事件驱动型)与之不同的就是SparkStreaming微批次,如图:事件驱动型:批处理的特点是有界、持久、大量,非常适合需要访问全套记录才能完成的计算工作,一般用于离线统计。流处理的特点是无界、实            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-25 06:52:31
                            
                                72阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录 
 
8. 实时数仓同步数据
9. 离线数仓同步数据
9.1 用户行为数据同步
9.1.1 数据通道
9.1.1.1 用户行为数据通道
9.1.2 日志消费Flume配置概述
9.1.2.1 日志消费Flume关键配置
9.1.3 日志消费Flume配置实操
9.1.3.1 创建Flume配置文件
9.1.3.2 配置文件内容            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-02 00:00:14
                            
                                294阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            离线实时架构是一种用于处理大数据的架构模式,能够实时地处理大规模数据并提供实时的结果。在传统的离线架构中,数据首先被收集到一个中心化的数据仓库中,然后通过批处理作业进行处理。然而,这种方式存在一定的延迟,无法满足实时处理的需求。离线实时架构通过将批处理和实时处理结合起来,解决了这个问题。
离线实时架构的基本思想是将数据分成多个流,每个流都有一个独立的消费者进行处理。这样可以将数据的处理过程并行化            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-12-23 04:29:10
                            
                                94阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            背景Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。自 2015 年开始,阿里巴巴开始调研开源流计算引擎,最终决定基于 Flink 打造新一代计算引擎,针对 Flink 存在的不足进行优化和改进,并且在 2019 年初将最终代码开源,也就是我们熟知的 Blink。Blink 在原来的 Flink 基础上最显著的一个贡            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-08 11:09:54
                            
                                289阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            不去记录,有些事情都好像没有发生过。示例作用 1.示例提供了docker命令启动,可以查看控制台的各项指标。 2.可以参考docker编排脚本,自己开发基于docker的交付软件 3.参考此项目的上一级项目flink-playground的data-generator项目,获得使用kafka模拟持续数据流入的示例 4.学习docker操作命令 编码值得借鉴的点: 1.SpendReportTest            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-23 17:02:05
                            
                                155阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             文章目录DWD层流量域未经加工的事务事实表(※)流量域独立访客事务事实表流量域用户跳出事务事实表Join方式介绍(附)交易域加购事务事实表交易域订单预处理表(※)交易域下单事务事实表交易域取消订单事务事实表交易域支付成功事务事实表交易域退单事务事实表交易域退款成功事务事实表工具域优惠券领取事务事实表工具域优惠券使用(下单)事务事实表工具域优惠券使用(支付)事务事实表互动域收藏商品事务事实表互动域            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-15 12:39:08
                            
                                91阅读
                            
                                                                             
                 
                
                                
                    