数据仓库与数据库区别
- 数据库:主要面向OLTP服务
- 数据仓库:主要面向OLAP服务
- OLTP:
- 联机事务处理,用来实时记录交易信息。
- 快速返回响应信息,毫秒级
- 倾向于业务
- OLAP:
- 联机及分析处理,用来分析查询所存数据。
- 一般系统按天、周、月生成报表。
- OLAP属于商业智能范畴,数据需要研究、处理、分析,驱动商业决策
- 倾向于分析
- CAP原则
指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼 - ETL
ETL工程师
用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。
爬虫、数据的算法(清洗、转换)、ETL工具
HIVE的优点及缺点
HIVE的优点
- HIVE
定位是数据仓库,偏向数据分析和计算方向。
计算引擎mapreduce只是其中之一。
计算引擎spark - 高可靠、高容错
- HIVE Sever采用:主备模式
有主有从。当主机挂掉,备机马上启动。即【高可用】单点故障。 - 双MetaStore
- 超时重试
- 类SQL
- 类似SQL语法
- 内置大量函数
- 可扩展
- 自定义存储格式
- 自定义函数(UDF/UDAF/UDTF)
- 多接口
- Beeline,JDBC,Thrift,Python,Rest
HIVE的缺点
- 延迟较高
- 默认为M/R为执行引擎,启动有延迟
- 不支持物理化视图
- 不能在视图上更新、插入、删除
- 不适用OLTP
- 暂不支持列级别添加、更新、删除
- 暂不支持存储过程
- 当前版本不支持存储过程,只能听哦那个过UDF实现一些逻辑处理
UDF(不影响条数),UDAF(会让条数减少),UDTF(会让调试增加)
HIVE的应用场景
- 数据挖掘
- 用户行为分析
- 兴趣分区
- 区域展示
- 非实时分析
- 日志分析
- 文本分析
- 数据汇总
- 每天/周用户点击情况
- 流量统计
- 作为数据仓库
- 数据抽取
- 数据加载
- 数据转换