数据建模是一门复杂的科学,涉及组织企业的数据以适应业务流程的需求。它需要设计逻辑关系,以便数据可以相互关联,并支持业务。然后将逻辑设计转换成物理模型,该物理模型由存储数据的存储设备、数据库和文件组成。

历史上,企业已经使用像SQL这样的关系数据库技术来开发数据模型,因为它非常适合将数据集密钥和数据类型灵活地链接在一起,以支持业务流程的信息需求。不幸的是,大数据现在包含了很大比例的管理数据,并不能在关系数据库上运行。它运行在像NoSQL这样的非关系数据库上。这导致人们认为可能不需要大数据模型。

问题是,企业确实需要对大数据进行数据建模。

以下是大数据建模的六个提示:

1.不要试图将传统的建模技术强加于大数据

传统的固定记录数据在其增长中稳定且可预测的,这使得建模相对容易。相比之下,大数据的指数增长是不可预测的,其无数形式和来源也是如此。当网站考虑建模大数据时,建模工作应该集中在构建开放和弹性数据接口上,因为人们永远不知道何时会出现新的数据源或数据形式。这在传统的固定记录数据世界中并不是一个优先事项。

2.设计一个系统,而不是一个模式

在传统的数据领域中,关系数据库模式可以涵盖业务对其信息支持所需的数据之间的大多数关系和链接。大数据并非如此,它可能没有数据库,或者可能使用像NoSQL这样的数据库,它不需要数据库模式。

正因为如此,大数据模型应该建立在系统上,而不是数据库上。大数据模型应包含的系统组件包括业务信息需求、企业治理和安全、用于数据的物理存储、所有类型数据的集成、开放接口,以及处理各种不同数据类型的能力。

3.寻找大数据建模工具

有商业数据建模工具可以支持Hadoop以及像Tableau这样的大数据报告软件。在考虑大数据工具和方法时,IT决策者应该包括为大数据构建数据模型的能力,这是要求之一。

4.关注对企业的业务至关重要的数据

企业每天都会输入大量的数据,而这些大数据大部分是无关紧要的。创建包含所有数据的模型是没有意义的。更好的方法是确定对企业来说至关重要的大数据,并对这些数据进行建模。

5.提供高质量的数据

如果组织专注于开发数据的正确定义和完整的元数据来描述数据来自何处、其目的是什么等等,那么可以对大数据模型产生更好的数据模型和关系。可以更好地支持支持业务的数据模型。

6.寻找数据的关键切入点

当今最常用的大数据载体之一就是地理位置,这取决于企业的业务和行业,还有其他用户需要的大数据常用密钥。企业越能够识别数据中的这些常用入口点,就越能够设计出支持企业关键信息访问路径的数据模型。