项目介绍使用旧方法对仓储信息进行系统化管理已经不再让人们信赖了,把现在的网络信息技术运用在仓储信息的管理上面可以解决许多信息管理上面的难题,比如处理数据时间很长,数据存在错误不能及时纠正等问题。这次开发的仓储管理系统有管理员和用户两个角色,有个人中心,员工管理,设备管理,商品管理,出入库管理,盘点管理,供应商管理,公告管理,基础数据管理。经过前面自己查阅的网络知识,加上自己在学校课堂上学习的知识,            
                
         
            
            
            
            用户行为数据:埋点业务交互数据:业务流程产生的登陆 订单 用户 商品 支付 等有关的数据 通常存储在DB中0.创建gmall数据库1.创建ODS层原始数据层:外部表,ods_start_log时间日志表:ods_event_log创建输入数据是LZO,输出是text,支持json解析的分区表drop table if exists ods_start_log;CREATE EX...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-07-09 10:37:16
                            
                                370阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            用户行为数据:埋点业务交互数据:业务流程产生的登陆 订单 用户 商品 支付 等有关的数据 通常存储在DB中0.创建gmall数据库1.创建ODS层原始数据层:外部表,ods_start_log时间日志表:ods_event_log创建输入数据是LZO,输出是text,支持json解析的分区表drop table if exists ods_start_log;CREATE EX...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-03-28 17:54:02
                            
                                358阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            数仓 重点在于建模,也就是理清思路,知道要怎么做,还要很具体的知道每个表用来干什么,每个表需要哪些字段。数仓分层 可以使用不同的库来区分。多个数据层用多个数据库来存放不同层的数据。即席查询 使用不同的表名区分主题。统一放在ads层就可以。然后将每个部门需要的数据,推送到相应部门自己的数据库中,数据量不大就推全量,数据量大就推增量。 假设财务部门的即席查询,那就建立一个财务的库,专门用来接收财务的相            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-06 16:21:05
                            
                                87阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Hive环境搭建数仓中所有数据交给hive管理,所以数仓环境其实就是Hive环境计算交给SparkSQL1. 两种计算模式比较Hive on Spark:Hive既作为存储元数据Hive负责SQL的解析优化语法是HQL语法执行引擎变成了Spark,Spark负责采用RDD执行。Spark on Hive :SparkSQL对接Hive数据源Hive只作为存储元数据Spark负责SQL解析优化语法是            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-20 20:08:19
                            
                                114阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             目录一、集群规划二、下载与设置三、初始化元数据四、hive启与停五、tez的配置 本节讲解Hive的安装与配置。配置文件下载一、集群规划在node01 安装,同步到node02,node03node01node02node03hivehivehive二、下载与设置# 1. 下载hive
[jack@node01 u02]$ wget https://mirror.bit.edu.cn/apach            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-20 20:07:56
                            
                                65阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # 如何搭建 Redis + HBase + Phoenix 数据仓库
在大数据时代,数据仓库成为了数据处理和分析的重要组成部分。Redis、HBase 和 Phoenix 的结合为我们提供了一个高效、可靠的数据存储与管理平台。本文将一步步引导您完成搭建过程,帮助您快速了解和实现这一体系。
## 一、搭建流程
以下是搭建 "Redis + HBase + Phoenix" 数据仓库的流程表:            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-10-09 06:09:13
                            
                                50阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、数仓之Cloudera Manager 1、CM简介 拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具 快速安装,快速运维,提高集群的效率 CM架构 2、阿里云服务器准备 注册账号 购买ECS云服务器 ECS配置及安全组修改(开放各服务的端口) 3、CM部署准备 服务器连接 修改ho            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-06-04 00:31:02
                            
                                337阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1. TCP Sourceimport org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.{Seconds, StreamingContext}
/*
* 需求: 使用netcat工具向9999端口            
                
         
            
            
            
            # 搭建Hive数仓的指南
在大数据时代,Hive是一个非常强大的数据仓库工具,旨在简化对Hadoop数据的查询和分析。本文将为刚入行的小白详细介绍如何搭建Hive数仓。以下是整个搭建过程的流程:
## 搭建流程
| 步骤 | 描述                     |
|------|--------------------------|
| 1    | 安装Hadoop            
                
         
            
            
            
            一、数据仓库基础概念1、数仓概述数据仓库(数仓、DW):一个用于存储、分析、报告的数据系统。OLAP(联机分析处理)系统:面向分析、支持分析的系统。数据仓库的目的:构建面向分析的集成化数据环境,分析结果为企业提供决策支持。数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用2、数仓特征面向主题:主题是一个抽象的概念,是较            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-07 09:22:47
                            
                                65阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            四:数仓搭建-ODS层首先,先了解一下ODS层的任务即其功能:1)保持数据原貌不做任何修改,起到备份数据的作用。2)数据采用LZO压缩,减少磁盘存储空间。100G数据可以压缩到10G以内。3)创建分区表,防止后续的全表扫描,在企业开发中大量使用分区表。4)创建外部表。在企业开发中,除了自己用的临时表,创建内部表外,绝大多数场景都是创建外部表。4.1 ODS层(用户行为数据)4.1.1&n            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-12 06:45:25
                            
                                107阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            环境        Leo采用的环境为:        Ubuntu-Kylin-16.04        jdk1.8.0_151        Hadoop            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-07 22:25:55
                            
                                53阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             目录前言一、ODS层 (用户行为数据)1. 创建日志表 ods_log2. Shell 中单引号和双引号区别3. ODS 层日志表加载数据脚本二、ODS 层 (业务数据)1. 创建业务表2. ODS 层业务表首日数据装载脚本3. ODS层业务表每日数据装载脚本 前言保持数据原貌不做任何修改,起到备份数据的作用。数据采用 LZO 压缩,减少磁盘存储空间。100G 数据可以压缩到 10G 以内。创建            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-11 13:14:51
                            
                                130阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录Hive的介绍Hive的产生背景Hive概述Hive架构Hive的体系架构Hive的部署架构Hive与RDBMS数据库的区别Hive的部署搭建(阿里云)最终的hive-site配置Hive DDLHive DML Hive的介绍Hive的产生背景根据博主前面对于MapReduce的讲解,可以回想一下,我们做一个再简单不过的wordcount(我们都可以用java的计算函数几行代码搞定),需要            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-10 22:12:18
                            
                                184阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、前言:
数据仓库主要用来用来存储公司或者企业的历史数据,即日积月累的数据。1、数据库与数据仓库区别:关系型数据库是基于事务性的,数据仓库是根据主题构建的。2、使用示例:l 用户使用天然气的大数据分析l 电影票房分析收视率等l 百度搜索关键词分析热词二、Hive简介:可爱的小蜜蜂
1、Hive是建立在Hadoop之上的数据仓库基础架构工具,可以将结构化的数据文件映射            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-08 12:37:21
                            
                                36阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1、hive环境搭建1.1、hive引擎简介Hive引擎包括:默认MR、tez、sparkHive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。Spark on Hive : Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行。1.2、hi            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-10 13:14:52
                            
                                42阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            [Hadoop]数仓工具Hive的安装部署?作者:喜欢水星记?系列:Hadoop高可用集群?收藏:本文记录我搭建过程供大家学习和自己之后复习,如果对您有用,希望能点赞收藏加关注Hive的简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。最初,Hive是由Facebook开发,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-11 12:34:32
                            
                                62阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 如何用Spark搭建数仓
## 背景介绍
在大数据时代,企业需要处理海量的数据并进行分析,以便做出更好的决策。搭建一个高效的数仓是至关重要的。Spark作为一种强大的数据处理引擎,可以帮助我们构建一个快速且稳定的数仓。
## 实际问题
假设我们有一家电商公司,需要搭建一个数仓来存储用户行为数据,并进行分析,以便优化营销策略。我们将使用Spark来搭建这个数仓。
## 解决方案
我们可以按            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-05-05 05:29:53
                            
                                87阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录3.0 数据生成模块(P14-P29)3.1目标数据3.1.1页面3.1.2事件(动作)3.1.3曝光3.1.4启动3.1.5错误3.2 数据埋点3.2.1 主流埋点方式(了解)3.2.2 埋点数据上报时机3.2.3 埋点数据日志结构3.3 服务器和JDK准备3.3.6 环境变量配置说明3.4 模拟数据3.4.1 使用说明3.4.2集群日志生成脚本 上文访问:离线数仓搭建_01_数仓概念