ETL是做什么的呢?

        或许在面试数据仓库的时候面试官很多时候会问我们懂ETl吗,其实如果是干数据相关的工作的话,都应该做个ETL的数据过程。所谓的ETL,就是数据的一个从产生到实际用途的流程吧。

        数据是如何产生的呢?

        数据的产生就是我们日常发生的事情,比如我们在某个平台注册了什么,又或者在淘宝买了什么,又或者你今天走了多少步,吃了什么,做了什么,这些都会产生大量的数据。相对于企业来说,一天的数据量产生会更大更多,这样就需要一个完整的系统去驾驭这些数据,对数据的统筹和分配和梳理,进而到数据的下发研究和分析处理,而ETL在其中就扮演了一个重要的角色了。

         ETl的过程就是对数据的抽取,加载,清洗和模型处理,到数据的最后输出的一个过程。

          1、数据的抽取:数据的抽取是依赖数据已经录入了某个库里,从而从这个库种把数据抽取出来放到一些中心转换站种等待被使用

          2、数据的加载:把抽取出来的数据加载到目标库里等待下一步的处理

          3、数据的清洗:抽取加载出来的数据可能存在一些垃圾数据,也会有一些私密的数据,不能被查询处理,这样就要对这些数据进行清洗处理

          4、数据模型:模型是数据实现意义的表现,业务可以根据自身的要求去建立数据模型,对数据的分析汇总和生成数据图展示出来,为企业的决策和走向打下数据的基础,有大量数据的支撑,才能更好的决定发展的方向,减少弯路。