一个数据架构师做什么?只是设计表?那是我能第一时间想的。但事实证明,这并不是。数据架构师的主要职责是:
数据建模与分析(45%)
数据加载和交付(25%)
数据可用性,性能,安全性保证(15%)
数据质量与治理(10%)
其他(5%)
1. 数据建模与分析
了解数据(Understand the data)
在组织机构中理解数据是最重要的职责。如果他在证券机构工作,他需要了解什么是收益率等专业名词。一个不能真正理解数据意义的架构师是无法创造出完整实用的功能。
数据建模(Data modelling)
它不只是设计数据库表。也包含着对XML文件和架构(XSD),OLAP多维数据集,接口文件格式定义等。不只是表的设计还要包含着索引、日志、分区、数据库和数据服务器、触发器,审计等等。物理数据模型和逻辑数据模型。虽然我们会经常忽略数据库的物理组成,把这部分工作交给DBA。
数据分析(Data Analysis)
我们经常会把数据分析的工作交给专门的数据分析师。我们一贯认为自己的工作是设计数据模型,业务分析不是我的工作内容。这是个错误的观点。作为一个数据架构师要知道所有的事情。可以帮助我们更好的设计数据架构。
2. 数据加载
数据是不能够自己按照我们的要求跑到我们数据库中,而是需要经过一个复杂的过程一步一步的更新/插入到我们的数据仓库中。我们的需要理解整个数据加载的详细细节。理解整个加载程序架构,他们中间每一步具体做了什么。如果用了调度工具比如Autosys, 要理解它的工作原理。怎么去创建一个条件预警,一个循环,如何检测加载时间等等。当然其中的很多任务是由产品支持团队(Production Support)在做, 但是设计整个加载的流程/框架是数据架构师的职责。
如果一个数据架构师,只知道数据模型而不了解数据加载的过程,那么他跟盲人没什么区别。什么时候通过什么样的方式将数据加载到数据库中,对那些数据会产生明显的变化。
*************************************
(未完待续)。。。。