Apache Hive™数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动程序,用于将用户连接到Hive。 Hive是什么(官网概念)Apache Hive™数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动程序,用于
1、Spark平台基本介绍Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and PeopleLab) 开发,可用来构建大型的、低延迟的数据分析应用程序。Spark 是在Scala 语言中实现的,它将 Scala 用作其应用程序框架。Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。Spark 是一种与Hadoop 相似的开源集群计算环境
转载 2023-10-18 20:13:09
134阅读
# Hive离线中的大宽表数据整合实践 在现代数据分析中,数据仓库扮演着至关重要的角色。尤其是Hive作为一种基于Hadoop的框架,广泛应用于大规模数据处理。本文将探讨如何在Hive离线中构建大宽表,并实现数据整合,解决实际业务中的数据处理问题。 ## 1. 问题背景 在一家电商公司,随着用户数据、订单数据和商品数据不断增多,分析师发现现有的数据模型无法满足复杂查询的需求。传统的星
原创 9月前
152阅读
第一章 概念定义(Data Warehouse)为企业所有决策制定过程,提供所有系统数据支持的战略合辑 说白了,公司所有的数据都可以汇聚到数据仓库里 公司的数据来源 - 日志采集系统 - 业务系统数据库 - 爬虫系统等 所有业务部门的数据都可以放入,数据库就无法完成这样的功能的好处可帮助企业改进业务流程,控制成本,提高产品质量能做什么清洗,转义,分类,重组,合并,拆分,统计等
# Hadoop离线系统框架 Hadoop是一种广泛使用的开源框架,主要用于处理大规模数据集,支持高效的存储、管理和计算。在近几年,数据仓库的概念越来越受到重视,尤其是在企业决策和分析中。本文将介绍Hadoop离线系统的框架,分析其结构、组件及工作流程,并通过代码示例进行演示。 ## 1. Hadoop离线系统概述 Hadoop离线系统通常由以下主要组件构成: - **Ha
原创 8月前
162阅读
       了解hadoop,首先就需要先了解hadoop的数据流,就像了解servlet的生命周期似的。hadoop是一个分布式存储(hdfs)和分布式计算框架(mapreduce),但是hadoop也有一个很重要的特性:hadoop会将mapreduce计算移动到存储有部分数据的各台机器上。术语        
如何构建离线author:宋权备注:在工作和面试过程中,越来越多的公司开始使用,并构建自己的,无论是使用阿里云,还是自己的服务器来进行搭建,通过构建数据仓库,进而实现数据集市,应对各个部门的数据分析,业务报表,以及机器学习相关数据的使用,所以通过B站上的资料,自己通过学习,进行下整理,减少要看几百集视频来学习,时间的花费,提取精华,同时也做一个自己学习的记录,如果有不对的地方,欢迎大家
Hive是SQL的抽象,高延迟。由Facebook研发Hive基本架构Hive通过CLI/JDBC/ODBC或者HWI接受相关的HiveSQL查询,并通过Driver组件进行编译,分析优化最后变成可执行的MapReduce。Hive主要组件执行过程如下:Hive SQL关键概念 内部表(managed table):Hive管理的表,包含实际的物理意义。删除数据也没了。 CREATE TABLE
# 基于Hadoop离线架构入门指南 在现代数据处理和分析领域,离线架构是非常重要的组成部分。Hadoop作为流行的分布式存储和计算框架,常用于搭建这样的。在本文中,我们将建立一个基于Hadoop离线架构,适合刚入行的开发者学习。 ## 流程概述 以下是搭建基于Hadoop离线架构的流程步骤: | 步骤 | 描述 | |------|------| | 1
原创 10月前
113阅读
Hadoop离线的建立过程 在当今大数据时代,企业为了处理大量数据、提取有价值的信息,越来越多的选择建立离线Hadoop作为一种广泛应用的分布式计算框架,能够满足大数据的存储与处理需求。本篇将深入探讨“Hadoop离线的建立过程”,从背景、核心维度到实战对比与选型指南,帮你全面理解如何有效构建和运用Hadoop离线。 ### 适用场景分析 离线非常适合需要对历史数据进行大
原创 6月前
18阅读
小节一:介绍小节二:离线应用应用架构本小结介绍下离线的一个应用架构一个简单的离线架构图如下这里粗粒度的划分了异构数据源、数据传输、数据仓库、应用分析、及整体管理几层。其中源数据主要指的的数据来源,有数据库数据、文件类型数据、还有接口等http传输的数据。数据库数据大多都是业务的数据,例如mysql、oracle等;文件类型大多是日志数据、离线csv等格式化数据;http传输主要
转载 2023-08-08 11:12:56
291阅读
数据仓库概念的提出都要追溯到上世纪了,我们认为在大数据元年之前的可以称为传统,而后随着海量数据不断增长,以及Hadoop生态不断发展,主要基于Hive/HDFS的离线架构可以兴起并延续至今,近几年随着Storm/Spark(Streaming)/Flink等实时处理框架的更新迭代乃至相互取代,各厂都在着力构建自己的实时数,特别是近两年,随着Flink声名鹊起,实时数更是名声在外并且
转载 2024-06-10 10:19:25
216阅读
一:数据仓库(概述)所有的表设计都要参照业务总线矩阵 三: 维度建模理论之事实表  事实表通常比较“细长”,即列较少,但行较多,且行的增速快。事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计。其包含与该业务过程有关的维度引用(维度表外键)以及该业务过程的度量(通常是可累加的数字类型字段)。事实表主要包含维度外键和度量事务事实表,周期快照事实表,累计快照事实表
    声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章               2. 由于是个人总结, 所以用最精简的话语来写文章  &nbs
转载 2023-12-28 22:11:31
95阅读
目录前言一、ODS层 (用户行为数据)1. 创建日志表 ods_log2. Shell 中单引号和双引号区别3. ODS 层日志表加载数据脚本二、ODS 层 (业务数据)1. 创建业务表2. ODS 层业务表首日数据装载脚本3. ODS层业务表每日数据装载脚本 前言保持数据原貌不做任何修改,起到备份数据的作用。数据采用 LZO 压缩,减少磁盘存储空间。100G 数据可以压缩到 10G 以内。创建
转载 2024-03-11 13:14:51
130阅读
数据仓库的概念,最早是在1991年被提出,而直到最近几年的大数据趋势下,实时数据处理快速发展,使得数据仓库技术架构不断向前,出现了实时数,而实时数又分为批数据+流数据、批流一体两种架构。1、离线 离线,其实简单点来说,就是原来的传统,数据以T+1的形式计算好放在那里,给前台的各种分析应用提供算好的数据。到了大数据时代,这种模式被称为“大数据的批处理”。   只不过原本的单
转载 2023-10-12 08:39:51
151阅读
离线实战---网站流量日志分析系统一、理论1.1、什么是数据仓库1.2、数据仓库的分层1.2.1、数据仓库的分层1.2.2、数据仓库为什么要分层1.3、数据仓库命名规范1.3.1、表命名1.3.2、脚本命名1.3.3、表字段类型1.4、数据仓库的建模1.4.1、维度表1.4.2、事实表1.4.3、维度模型分类1.4.4、ODS层1.4.5、DIM层和DWD层1.4.6、DWS层与DWT层
目录前言:1.实时数1.02.实时数2.03实时数3.0 前言:数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数建设和大数据架构的批流一体建设。1.实时数1.0传统意义上我们通常将数据处理分为离线数据处理和实
目录 sqoop概述sqoop注意点sqoop1和sqoop2区别sqoop1安装部署sqoop概述Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HD
1.ODS层(1)HDFS用户行为数据(2)HDFS业务数据 (3)针对HDFS上的用户行为数据和业务数据,我们如何规划处理?(1)保持数据原貌不做任何修改,起到备份数据的作用。(2)数据采用压缩,减少磁盘存储空间(例如:原始数据100G,可以压缩到10G左右)(3)创建分区表,防止后续的全表扫描2.DWD层DWD层需构建维度模型,一般采用星型模型,呈现的状态一般为星座模型。维度建模一般
  • 1
  • 2
  • 3
  • 4
  • 5