数据仓库理论一和二,主要讲流量域; 数据仓库理论三和四,主要讲业务域,即业务库里的数据。一、sqoop导入数据处理字典表,小杂表:全量导入 实体表(量级很大),事实表(每天都变化的业务表):增量导入增量导入后的数据,存储在数仓的 ODS 层中,对于统计分析,不便利;需要滚动合并生成全量快照。1、将数据全量导入建表并全量导入2、将每天的增量数据使用sqoop导入,放在ODS层导入增量脚本:#####
一、星型摸型事实表是记录一个事实的,可以理解为订单表, 纬度表是提供更丰富信息的表,可以理解为商品明细表、订单明细表;它是由一个事实表和一组维表组成,每个维表都有一个维作为主键,所有这些维的主键组成事实表的主键。二、雪花模型当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解像多个雪花连接在一起,故而称为雪花模型。三、漏斗模型漏斗模型主要分析业务转化率的四、三范式模型
一、DWS 层开发它的建模思想,就是为最终需求计算来提供支持服务,所以建模相对灵活。常见建模方法:1.维度集成(建宽表):事实表中,将各种维度 id,和维度表关联后换成各种维度值,有可能将多个不同主题的事实表进行关2、主题轻度聚合:对明细按“特定主题”进行轻度聚合计算,为后续大量相关主题的统计报表提供复用的便利 比如,为各种流量统计报表计算,设计:流量会话聚合、流量用户聚合3、主题划分:比如,我们
Nginx (engine x) 是一个高性能的负载均衡和反向代理web服务器,同时也提供了IMAP/POP3/SMTP服务。一、nginx的安装1、下载linux版本安装包,解压2、安装C语言编译器3、安装依赖库yum install -y pcre-devel openssl-devel gcc curl4、重新编译这样,nginx就安装到了 /usr/local/nginx 下
Table & SQL API 是一种关系型 API,用户可以像操作 mysql 数据库表一样的操作数据,而不需要写java 代码完成 Flink Function,更不需要手工的优化 java 代码调优。BatchTableEnvironment (离线批处理Table API)ExecutionEnvironment env = ExecutionEnvironment.getExec
项目架构: 数据分析出来的结果, 如果数据量小的话,可以存到关系型数据库/redis数据库; 如果是单一维度数据,可以存到Hbase; 如果是灵活多变的多维度数据,可以存到OLAP;项目指标:package cn.itcast.spark.day7import org.apache.spark.{SparkConf, SparkContext} /** * Created by roo
如果数据量大,维度多,用keyBy并不方便,建议写到外部实时数仓里,Clickhouse擅长实时查询,flink擅长实时处理。一、多维度复杂统计(使用Clickhouse)使用是clickhouse的ReplacingMergeTree,可以将同一个分区中,ID相同的数据进行merge,可以保留最新的数据,可以使用这个特点实现Flink + Clickhouse(勉强)实现数据一致性。存在的问题:
一、数据仓库:一个面向分析、反映历史变化的的数据仓库; 中小公司数据量:一天1000万条数据,17G;一个月500G,一年6T数据量;数据仓库技术:1、传统数仓一般是采用关系型数据库; 2、大数据领域中: 使用HDFS做存储、使用spark 或mapreduce做运算、使用spark sql或者hive做sql引擎; impala既可以做运算又可是做sql引擎; click house即可以做存储
一、用户画像就是为所有用户,生成各类“标签”,比如消费等级(A,B,C),活跃等级(A,B,C), 流失风险等级(A,B,C),品类偏好 TOP3,活跃事实(月登陆次数,月访问时长)事实标签(统计标签)——在数仓中直接取数、使用 sql 聚合统计即可模型标签(算法模型)——使用 sparkmllib 中的机器学习算法进行计算二、评论区分好评差评1、使用分词工具HaNLP: 自然语言处理2.、创建分
业务数据库的实时分析:业务数据库就是MySQL(集群),假设直接在业务数据库中写SQL进行查询,如果复杂的查询(多维度聚合、join、并且数据流比较大)业务数据库的性能就会下降。甚至不能完成正常的业务功能(不能完成普通的业务数据的查询、插入、修改或是性能下降)离线:MySQL -----> Sqoop / SparkSQL/ DataX -----> HDFS(Hive) 实时:MyS
canal是用java开发的基于数据库增量日志解析,提供增量数据订阅&消费的中间件。目前,canal主要支持了MySQL的binlog解析,解析完成后才利用canal client 用来处理获得的相关数据。canal可以记录mysql的binlog的偏移量,对mysql侵入性比较小,支持灵活配置,可以配置输出的存储系统
canal是用java开发的基于数据库增量日志解析,提供增量数据订阅&消费的中间件。目前,canal主要支持了MySQL的binlog解析,解析完成后才利用canal client 用来处理获得的相关数据。canal可以记录mysql的binlog的偏移量,对mysql侵入性比较小,支持灵活配置,可以配置输出的存储系统。
一、Drools安装1、导入相关依赖<dependency> <groupId>org.drools</groupId> <artifactId>drools-compiler</artifactId> <version>7.23.0.Final</version></dependency><dependency> <groupId>org.proj
业务数据库的实时分析:业务数据库就是MySQL(集群),假设直接在业务数据库中写SQL进行查询,如果复杂的查询(多维度聚合、join、并且数据流比较大)业务数据库的性能就会下降。甚至不能完成正常的业务功能(不能完成普通的业务数据的查询、插入、修改或是性能下降)...
一、OpenResty介绍OpenResty 是一个基于 Nginx与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。OpenResty通过汇聚各种设计精良的 Nginx模块
一、数据采集服务
一、Drools安装1、导入相关依赖<dependency> <groupId>org.drools</groupId> <artifactId>drools-compiler</artifactId> <version>7.23.0.Final</version></dependency&g
如果数据量大,维度多,用keyBy并不方便,建议写到外部实时数仓里,Clickhouse擅长实时查询,flink擅长实时处理。一、多维度复杂统计(使用Clickhouse)使用是clickhouse的ReplacingMergeTree,可以将同一个分区中,ID相同的数据进行merge,可以保留最新的数据,可以使用这个特点实现Flink + Clickhouse(勉强)实现数据一致性。存在的问
一、OpenResty介绍OpenResty 是一个基于 Nginx与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。OpenResty通过汇聚各种设计精良的 Nginx模块,从而将 Nginx有效地变成一个强大的通用 Web 应用平台。,快速构造出足
一、星型摸型它是由一个事实表和一组维表组成,每个维表都有一个维作为主键,所有这些维的主键组成事实表的主键。二、雪花模型当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解像多个雪花连接在一起,故而称为雪花模型。三、数据仓库数据仓库主要用于数据挖掘和数据分析
数据仓库理论一和二,主要讲流量域;数据仓库理论三和四,主要讲业务域,即业务库里的数据。
四、DWS 层开发
一、数据仓库:一个面向分析、反映历史变化的的数据仓库;中小公司数据量:一天1000万条数据,17G;一个月500G,一年6T数据量;数据仓库技术:1、传统数仓一般是采用关系型数据库;2、大数据领域中:使用HDFS做存储;使用spark 或mapreduce做运算、使用spark sql或者hive做sql引擎;impala既可以做运算又可是做sql引擎;click house即可以做存储,又可以做运算、sql引擎;分层设计:数据仓库中的数据表,往往是分层管理、分层计算的:ODS 层:操
背景:公司做数据仓库时,管理自己多张表时,需要使用元数据管理系统进行管理。更多java、大数据学习面试资料,请扫码关注我的公众号:
一、用户画像:就是为所有用户,生成各类“标签”,比如消费等级(A,B,C),活跃等级(A,B,C), 流失风险等级(A,B,C),品类偏好 TOP3,活跃事实(月登陆次数,月访问时长)更多java、大数据学习面试资料,请扫码关注我的公众号:...
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号