实时数据分析正在成为企业数字化经营核心,如何有效构建实时数据分析系统是每个企业都在面临挑战。当前在构建实时数时,由于数据源多样性,需要使用不同采集工具,如 Flume、Canal、Logstash。对于不同业务,我们通常会采用不同分析引擎。比如,对于固定报表业务,根据已知查询语句可以预先将事实与维度打平成宽,充分利用 ClickHouse 强大查询能力;对于高并发查询
转载 2024-01-28 07:44:24
74阅读
都2022年了,身为大数据工程师你,还在苦学 Spark、Hadoop、Storm,却还没搞过 Flink?每年双十一,阿里都在 Flink 实时计算技术驱动下全程保持了“如丝般顺滑”,基于 Flink 阿里巴巴实时计算平台简直强·无敌。最恐怖是,阿里几乎每年实时计算峰值都达到了破纪录每秒40亿条记录,数据量也达到了惊人7TB每秒,相当于一秒钟需要读完500万本《新华字典》!Flin
一、普通实时计算和实时数比较  普通实时计算优先考虑时效性,从数据采集经过计算直接得到结果,时效性更好,但是中间结果没有沉淀下来,当面临大量实时计算时候,计算复用性差,开发成本大大提高;  实时数是基于数理论对数据分层,提高数据复用率; 二、实时数分层  ods:原始数据,业务  dwd:数据对象进行分流,比如页面访问,订单等  dim:维度数据  dwm:对部分数据进一
转载 2023-07-24 16:01:21
205阅读
文章目录一 分流Sink之建立维度HBase(Phoenix)1 拼接建表语句(1)定义配置常量类(2)引入依赖(3)hbase-site.xml(4)在phoenix中执行(5)增加代码a TableProcessFunctionb checkTable(6)测试2 过滤字段(1)代码编写(2)测试(3)总结二 分流Sink之保存维度数据到HBase(Phoenix)1 程序执行流程2 D
转载 2023-08-30 20:04:12
161阅读
一、小米数架构演变1.1 数架构现状在介绍演变前,我们先来了解下小米当前技术现状。上图展示是小米目前技术架构,在存储侧我们主要应用数据湖 Iceberg 和自研消息队列 Talos,计算层主要应用 Flink 和 Spark,他们统一运行在 Yarn 上,统一通过 Metacat 获取元数据信息,并通过 Ranger 来进行统一鉴权服务。我们内部使用 Spark 和 Presto 来支
目录Hudi源码编译Hudi扫盲基于Spark-shell集成Hudi基于Spark-Hive集成Hudi手动创建HIVE基于SparkSQL集成Hudi自动创建HIVE基于FlinkSQL集成Hudi基于FlinkSQL-HIVE集成Hudi手动创建HIVE基于FlinkSQL集成Hudi-自动创建Hive基于FlinkCDC采集MySQL写入Hudi基于FlinkCDC采集Postg
转载 2024-01-15 00:49:41
94阅读
@toc1.电商实时数分层介绍1.1普通实时计算与实时数比较!在这里插入图片描述(https://s2.51cto.com/images/blog/202209/02090201_63115609aeb0c90120.png?xossprocess=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_1
原创 2022-09-02 09:04:55
1148阅读
DWD层业务数据分流回顾一下之前业务数据处理; 首先把脚本生成业务数据发送到MySql数据库中,在gmall0709中可以看到数据: 这里就是生成对应数据,然后通过Maxwell把数据输入到Kafka中,保存在ods_base_db_m主题中;此时我们需要把这个kafka主题中数据进行过滤和分流处理,过滤处理很容易,这里我们过滤掉data为空,或者是长度<3数据内容,当然这个数
一、流处理演进与架构设计graph TD A[数据源] --> B[Flink SQL] B --> C[动态] C --> D[持续查询] D --> E[结果输出] subgraph 流批一体架构 B1[Kafka实时流] --> B B2[MySQL CDC] --> B
原创 2月前
83阅读
Flink电商数项目笔记电商实时数分层介绍 普通实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。如此做时效性更好,但是弊端是由于计算过程中中间结果没有沉淀下来,所以当面对大量实时需求时候,计算复用性较差,开发成本随着需求增加直线上升。 实时数基于一定数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据复用性。例如下图:例如:我们在普通实时SparkStre
转载 2024-03-01 15:25:35
136阅读
整理|路培杰(Flink 社区志愿者) 摘要:Apache Flink 是目前大数据领域非常流行流批统一计算引擎,数据湖是顺应云时代发展潮流新型技术架构,以 Iceberg、Hudi、Delta 为代表解决方案应运而生,Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg ,并提供对 Apache Flin
# HBase实时数 ## 引言 在现代数据分析领域,实时数是一个重要概念。实时数允许我们实时存储和查询大量结构化和非结构化数据,以便进行实时分析和决策。HBase是一个分布式、可扩展列族存储系统,非常适合用于构建实时数。 本文将介绍HBase实时数基本概念和应用场景,并提供代码示例来演示如何使用HBase构建实时数。 ## HBase简介 HBase是一个分布式
原创 2023-08-26 05:08:44
150阅读
本文整理自 2019 年 4 月 13 日在深圳举行 Flink Meetup 会议,分享嘉宾张俊,目前担任 OPPO 大数据平台研发负责人,也是 Apache Flink contributor。本文主要内容如下:OPPO 实时数演进思路;基于 Flink SQL 扩展工作;构建实时数应用案例;未来工作思考和展望。 一.OPPO 实时数演进思路 1.1.OPPO
简介:本文由岳猛分享,主要从以下四个部分将为大家介绍 Flink + Kafka 在网易云音乐应用实战:背景Flink + Kafka 平台化设计Kafka 在实时数应用问题 & 改进一、背景介绍(一)流平台通用框架目前流平台通用架构一般来说包括消息队列、计算引擎和存储三部分,通用架构如下图所示。客户端或者 web log 日志会被采集到消息队列;计算引擎实时计算消息队列
Flink实时数项目—项目初了解前言一、实时数分层介绍1.普通实时计算与实时数比较2.实时电商数分层规划二、实时数需求概览1.离线计算和实时计算比较2.实时需求种类2.1 日常统计报表或分析图中需要包含当日部分2.2 实时数据大屏监控2.3 数据预警或提示2.4 实时推荐系统三、数架构分析1.离线数架构2.实时数架构 前言学习完了Flink1.13,拿个项目练练手。一、实时数
DWD层日志数据分离在数搭建过程中,对日志数据做分离是非常有必要而且有意义,我们可以通过把日志分为启动、隔离、曝光、异常、页面等日志,可以计算获取访客数量、独立访客数量、页面跳转、页面跳出等统计指标数据; 那么在实时数和离线数中,这里有什么不同点呢?异同点分析在离线数搭建过程中,我们可以获取一段时间内离线日志数据,然后将日志数据进行过滤和分离,但是在实时数中,我们需要得到实时流数
转载 2023-08-01 23:32:25
356阅读
HBase架构1.整体架构选型主要有两个,第一个是实时实时采集利用 Maxwell,直接采集公司数据库 MySQL,将数据直接以 json 格式发送到 Kafka 集群,数存储选型是 HBase。上图是实时数架构图,主要存储层还是以 HBase 为主。第一层业务系统数据库在Mysql上。使用 Maxwell,其支持白名单和黑名单。业务平台可能有两三百个,大数据平台计算可能只需要
转载 2023-06-12 19:16:46
463阅读
数据仓库是一项发展历程漫长技术,主要为企业业务决策提供支持与服务。随着数字化业务扩张,企业数据量呈现爆发式增长,数据开始从 BP 发展到 PB 级别,此时,适应海量数据实时计算、可灵活扩展实时数几乎成为企业“刚需”。它作为数据智能基础环节,在快速获取数据反馈帮助企业更快做出决策,更好进行产品迭代过程中起到了不可替代作用实时数从 0 开始落地,有什么可参考方法或者路径
项目概览项目主要通过实时数搭建来完成对Flink进一步掌握和学习,Flink代码编写使用是Java,其中会涉及到Flink很多知识点,FlinkCDC,FlinkSQL,开船,富函数等,用来学习Flink顺便过一下数还是很可以。根据FlinkForward2021中一些动态,FlinkSQL化已经势不可挡,流式数StreamHouse也开始慢慢推进。 在这里实时数主要是为了提
1、简述WordCount 实现过程2、简述MapReduce与 Spark 区别与联系3、Spark 在客户端与集群运行区别4、相同 SQL 在 HiveSql 与 SparkSQL 实现中,为什么 Spark 比 Hadoop 快5、简述自定义 UDF实现过程6、HBase 设计有哪些注意事项7、谈谈你对HBase HLog理解8、数据同样存在 HDFS,为什么 HBase
转载 2024-04-15 13:43:31
416阅读
  • 1
  • 2
  • 3
  • 4
  • 5