声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章               2. 由于是个人总结, 所以用最精简的话语来写文章  &nbs
进入大数据时代,大数据存储的解决方案,往往涉及到数据仓库的选型策略。从传统时期的数据仓库,到大数据环境下的数据仓库,其核心的技术架构是在随着最新技术趋势而变化的。今天的大数据开发学习分享,我们就来讲讲,大数据环境下的数据仓库。 数据仓库的概念,最早是在1991年被提出,而直到最近几年的大数据趋势下,实时数据处理快速发展,使得数据仓库技术架构不断向前,出现了实时数,而实时数又分为批数据+流数据
# 大数据离线技术架构图 ## 什么是大数据离线大数据离线是指通过离线方式收集、存储和处理大量的数据,以支持企业的数据分析和决策。它通常包含数据采集、数据存储、数据处理和数据查询等模块。 ## 技术架构图概述 大数据离线技术架构图主要包括以下几个关键组件: - 数据源:数据源是指从各种数据源中采集数据的模块,例如数据库、文件、日志等。我们可以使用不同的技术和工具来采
原创 11月前
92阅读
MapReduce是Hadoop的核心组件之一,是一种并行编程模型,用于大规模数据集(TB级别)的并行计算。MapReduce框架将并行计算抽象成为两个函数:Map和Reduce。Hadoop MapReduce是基于HDFS的分布式编程框架,可以使没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。 文章目录一、概述1.MapReduce概述2.Map函数和Reduce函数
小节一:介绍小节二:离线应用应用架构本小结介绍下离线的一个应用架构一个简单的离线架构图如下这里粗粒度的划分了异构数据源、数据传输、数据仓库、应用分析、及整体管理几层。其中源数据主要指的数据来源,有数据数据、文件类型数据、还有接口等http传输的数据数据数据大多都是业务的数据,例如mysql、oracle等;文件类型大多是日志数据离线csv等格式化数据;http传输主要
转载 2023-08-08 11:12:56
252阅读
数据仓库概念的提出都要追溯到上世纪了,我们认为在大数据元年之前的可以称为传统,而后随着海量数据不断增长,以及Hadoop生态不断发展,主要基于Hive/HDFS的离线架构可以兴起并延续至今,近几年随着Storm/Spark(Streaming)/Flink等实时处理框架的更新迭代乃至相互取代,各厂都在着力构建自己的实时数,特别是近两年,随着Flink声名鹊起,实时数更是名声在外并且
数据仓库的概念,最早是在1991年被提出,而直到最近几年的大数据趋势下,实时数据处理快速发展,使得数据仓库技术架构不断向前,出现了实时数,而实时数又分为批数据+流数据、批流一体两种架构。1、离线 离线,其实简单点来说,就是原来的传统数据以T+1的形式计算好放在那里,给前台的各种分析应用提供算好的数据。到了大数据时代,这种模式被称为“大数据的批处理”。   只不过原本的单
一、MapReduce简单概述 在Hadoop中有两个核心的模块,一个是大数据量文件的存储HDFS,另一个是能够做快速的数据分析,则为MapReduce。 百度百科介绍: 二、MapReduce的特点 它适合做“离线”(存储在本地)的海量数据计算,通常计算的数据量在PB级别或者ZB级别 MapReduce的主要特点如下: 易
Hive离线 总体架构尚硅谷离线5.0总体架构图用户行为采集平台本项目收集和分析的用户行为信息主要有页面浏览记录、动作记录、曝光记录、启动记录和错误记录。用户行为采集平台 - 核心本地磁盘 -> 采集Flume + Kafka + 消费Flume-> HDFS采集FlumeTailDir Source优点:断点续传(通过保存文件实现)
转载 8月前
72阅读
文章目录新增用户业务指标每日新增用户明细表留存用户业务指标用户留存明细表 新增用户业务指标留存用户:指某段时间的新增用户,经过一段时间后,仍继续使用应用认为是留存用户新增会员:第一次使用应用的用户,定义为新增会员;卸载再次安装的设备,不会被算作一次新增。计算关系:先计算新增会员 => 再计算留存用户在DWD用户每日启动明细表中,新增用户数+旧的所有用户信息=新的所有用户信息,此时的计算关系
最近在跟一位粉丝聊天,聊起来了做离线时该用那些技术。于是根据我的经验和参考一些资料于就有本篇文章。在这里我会分享三个案例,仅供参考。
原创 2021-01-24 18:48:16
886阅读
1.对大数据的认识 大数据是指巨量的数据集合,在一定时间范围内无法以常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。 大数据具有海量的数据规模,快速的数据流转、多样的数据类型和价值密度低等四大特征。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据技术,包括大规模并行处理(
目录前言一、ODS层 (用户行为数据)1. 创建日志表 ods_log2. Shell 中单引号和双引号区别3. ODS 层日志表加载数据脚本二、ODS 层 (业务数据)1. 创建业务表2. ODS 层业务表首日数据装载脚本3. ODS层业务表每日数据装载脚本 前言保持数据原貌不做任何修改,起到备份数据的作用。数据采用 LZO 压缩,减少磁盘存储空间。100G 数据可以压缩到 10G 以内。创建
文章原文:​​直播预告|离线建设,企业大数据的业务驱动与技术实现​​报名链接:​点此报名​一、课程介绍随着企业的高速发展,业务范围不断扩展,企业数据量暴增,面对着海量多源异构数据的存储与处理、数据的快速分析及深度挖掘等需求,传统所面临的问题越来越明显。尤其在增量市场越发饱和的现实背景下,如何提高数据处理效率,成功通过数据赋能业务,成为许多企业需要思考的问题。要想成功提升数据生产效率,为上层
原创 2022-05-25 13:47:52
2662阅读
​报名链接:​​https://app.jingsocial.com/microFrontend/leadGeneration/jsf-leads/list/webinar/o2GseB3oe33eSUXqEsTUW5/Ej5eRQdzk34uutST6gtLYB​​  一、课程介绍随着企业的高速发展,业务范围不断扩展,企业数据量暴增,面对着海量多源异构数据的存储与处理、数据的快速分析
原创 2022-11-29 09:21:44
3525阅读
# 替换Hive的离线技术探讨 在大数据生态系统中,Apache Hive 曾经是构建离线的主流选择。随着数据量的增加和业务需求的变化,Hive 在某些方面如性能和灵活性上逐渐显露出短板,促使我们寻求更优秀的替代方案。本文将介绍一些替代 Hive 的新技术和工具,并通过代码示例和类图解释其背后原理。 ## 替代技术概述 在 Hive 的传统体系下,大多数的查询是通过 MapRedu
原创 1月前
15阅读
目录前言:1.实时数1.02.实时数2.03实时数3.0 前言:数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数建设和大数据架构的批流一体建设。1.实时数1.0传统意义上我们通常将数据处理分为离线数据处理和实
RustArroyo流处理引擎,新项目,可以看看源码……https://doc.arroyo.dev/getting-startedhttps://github.com/ArroyoSystems/arroyoDataFusion浅显说明:https://github.com/apache/arrow-datafusion/DataFusion 是一个可扩展的查询执行框架,用 Rust 编写,使用
原创 2023-04-13 10:27:54
356阅读
面试题问题1:in exists 的区别 not in 和 not exists的区别?答案:n 是一个集合运算符. a in {a,c,d,s,d…} 这个运算中,前面是一个元素,后面是一个集合,集合中的元素类型是和前面的元素一样的. 而exists是一个存在判断,如果后面的查询中有结果,则exists为真,否则为假.not in 和not exists如果查询语句使用了not in 那么内外表
文章目录数据质量管理概述数据质量管理定义数据质量评价指标数据质量管理实操需求分析功能模块开发环境准备Python开发环境准备初始化MySQL环境规则检测模块单一规则检测脚本编写各层检测脚本编写告警集成模块调度模块可视化模块 数据质量管理概述数据质量管理定义数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可
  • 1
  • 2
  • 3
  • 4
  • 5