数据仓库工具箱第三版数据仓库常用工具

转载

mob64ca14038b36 2023-08-21 02:09:39

文章标签 数据仓库工具箱第三版不能bostype没有元数据异常数据元数据数据可视化 文章分类 数据仓库大数据

数据仓库是解决方案，真正落地的时候，还要依托于工具平台。

数据仓库工具箱第三版数据仓库常用工具_不能bostype没有元数据异常

工具平台包括两种，一种是存储系统如hdfs，计算系统如hive/mr/spark/flink等，是数据仓库的基础，在此基础上进行数据的建设与使用(主要说的是依赖自建的集群进行数据建设，其它的情况后续再说)。

而本文说的是第二种，数据仓库的辅助系统:数据服务平台。

数据服务平台：数据建设，数据使用的辅助与后盾。

对于外部用户，如分析师，项目团队来说，数据可视化/元数据是重要的，通过这两个系统，可以很容易的知道数据的基本情况以及统计结果，可以进行多种分析。

对于内部用户，如数据团队来说，调度系统/质量监控是必不可少的，调度系统可以让任务准时地完成，质量监控可以保证提前发现数据问题。

数据仓库工具箱第三版数据仓库常用工具_不能bostype没有元数据异常_02

下面分别对这四个系统进行说明。

1. 数据可视化/报表/数据查询 —— 数据的服务员。

数据的意义是知晓历史，查看现状，规划未来，前提是我们能"看到数据"。能被看到，能被理解的数据才有意义。用合适的方法把数据展示出来，让用户轻松理解，是一个比较困难的事情。

不同的数据，需要用不同的方法，比如看数据，用表格；看趋势，用折线图；看分布，用饼图；看流量变化，用漏斗图；看分布，用热力图等等。合适的表现形式，才能让人更好地从数据中获取知识。

数据仓库工具箱第三版数据仓库常用工具_数据_03

举一个真实的例子，在一家公司时，只做数据建设，没有好好地做数据可视化，然后我们给高管做汇报的时候，在命令行敲命令，得到一个黑底白字的表格，尴尬至极。

汇报之后，我们就立刻组建了数据可视化的团队。

分析师，数据PM，是使用数据的用户，而他们往往没有技术能力，无法直接使用数据。同时，在离线/实时两种数据场景中，需要使用比如mysql/hive/kylin/druid/clickhouse/es等等工具，无疑更增加了用户的使用成本，并且工具是发展的，随时可能引入新的工具，难不成需要用户随时学习新工具的用法么？

当然不应该这样，所以需要一个统一的系统，能够展示报表数据、图表分析，能让用户在一个界面轻易地查多个平台甚至跨平台的数据。

数据仓库工具箱第三版数据仓库常用工具_不能bostype没有元数据异常_04