数据仓库与数据库区别

  • 数据库:主要面向OLTP服务
  • 数据仓库:主要面向OLAP服务
  • OLTP:
  • 联机事务处理,用来实时记录交易信息。
  • 快速返回响应信息,毫秒级
  • 倾向于业务
  • OLAP:
  • 联机及分析处理,用来分析查询所存数据。
  • 一般系统按天、周、月生成报表。
  • OLAP属于商业智能范畴,数据需要研究、处理、分析,驱动商业决策
  • 倾向于分析

  • CAP原则
    指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼
  • ETL
    ETL工程师
    用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。
    爬虫、数据的算法(清洗、转换)、ETL工具

HIVE的优点及缺点

HIVE的优点
  • HIVE
    定位是数据仓库,偏向数据分析和计算方向。
    计算引擎mapreduce只是其中之一。
    计算引擎spark
  • 高可靠、高容错
  • HIVE Sever采用:主备模式
    有主有从。当主机挂掉,备机马上启动。即【高可用】单点故障。
  • 双MetaStore
  • 超时重试
  • 类SQL
  • 类似SQL语法
  • 内置大量函数
  • 可扩展
  • 自定义存储格式
  • 自定义函数(UDF/UDAF/UDTF)
  • 多接口
  • Beeline,JDBC,Thrift,Python,Rest
HIVE的缺点
  • 延迟较高
  • 默认为M/R为执行引擎,启动有延迟
  • 不支持物理化视图
  • 不能在视图上更新、插入、删除
  • 不适用OLTP
  • 暂不支持列级别添加、更新、删除
  • 暂不支持存储过程
  • 当前版本不支持存储过程,只能听哦那个过UDF实现一些逻辑处理

UDF(不影响条数),UDAF(会让条数减少),UDTF(会让调试增加)


HIVE的应用场景

  • 数据挖掘
  • 用户行为分析
  • 兴趣分区
  • 区域展示
  • 非实时分析
  • 日志分析
  • 文本分析
  • 数据汇总
  • 每天/周用户点击情况
  • 流量统计
  • 作为数据仓库
  • 数据抽取
  • 数据加载
  • 数据转换