云服务的搭建需要将许多数据特性考虑在内,包含物理特、性能要求、易变性、容量、监管要求、事务边界、保存期限7个方面,所有这些数据需求都会对如何存储底层数据造成决策影响。

一、物理特性

我们需要收集很多数据点来进行物理特性的分析。数据的位置是一条重要信息。数据已经存在还是全新的数据集?如果已经存在,数据是否需要迁移至云端,或者将在云端生成?

如果数据必须传送至云中,那么数据的规模有多大?对于搭建SaaS、PaaS或IaaS方案的公司而言,对数据所有和数据共享方式的确定,会对为了满足某些有关隐私、安全和服务等级协议(SLA)的特定需求,是否需要隔离数据库甚至按每个客户隔离数据库服务器这样的设计决策产生决定性的影响。

二、性能要求

性能分为三类∶实时、近实时以及延时。实时性能通常定义为亚秒级的响应时间。网站通常会争取达到半秒级或更短的响应时间,近实时通常指在1~2秒之内。延时所指的时间范围,可能是几秒,也可能是一个按日、周、月等计算的时间框架。

三、易变性

易变性是指数据变化的频率,数据集可以分为静态数据集和动态数据集两类。静态数据集通常是事件驱动的数据,按时间顺序发生。典型的例子是Web日志、事务和收集数据。此类静态数据集属于“一次写入,多次读取"类型的数据集,这些数据集通常会存放很长一段时间,占用TB级的数据空间。动态数据要求完全不同的设计,规范化的关系型数据库管理系统(RDMS)是最常见的解决方案。

在云里,数据流动(增、改、删)的速度是决定数据层整体架构的重要影响因素。了解云里不同的磁盘存储系统非常重要。

四、容量

容量是指一个系统必须保存和处理的数据量。使用关系型数据库的好处很多,但当数据容量达到某一规模时,关系型数据库会变得非常慢,维护费用也高得难以承受。对数据库和文件系统进行备份是保证业务的可持续性和灾难恢复的关键,必须满足监管法规的要求。

五、监管要求

法规在制定与数据有关的决策时扮演了重要角色。公司选择使用私有云和混合云的主要原因,因为许多公司拒绝将敏感和私有数据存放在公有、多租户环境中。理解法规的限制和风险可以驱动部署模式的决策。

六、事务边界

事务边界可以理解成一种工作单元。在电子商务中,购物者与网页表单的数据进行交互,并按照自己的想法对数据进行各种更改。当最终下单之后,基于信用卡是否有效、可用余额是否足够或者所选货物是否仍然有库存等条件,他们所做出的所有决定或者成功提交,或者被拒绝。

七、保存期限

保存期限是指数据必须保存的时限。例如财务数据通常需要保存7 年以满足审计的需求。理解保存期限对于选择适当的存储解决方案非常重要。通常这些存档数据会被异地保存在一个灾难恢复站点处。而需要立刻进行检索的数据则需要被存放在一个具有冗余备份且可快速从故障中恢复的高性能磁盘上。