定义数据和信息

数据是可从中得出结论的未经处理的事实的集合,可分为结构化数据(数据库和表)和非结构化数据,结构化数据以严格定义的格式按行和列进行组织,以便应用程序能够有效地进行检索和处理,通常用于数据库管理系统。如果数据的元素不能存储在行和列中,因而难以通过应用程序进行查询和检索,这样的数据就成为非结构化数据,我们所创建的大部分都是非结构化数据。

大数据是指大小超过常用的软件在可接受时间限制内的捕获、存储、管理和处理能力得数据集。例如,源生成的结构化和非结构化数据,业务应用程序事务、网页、视屏、图像,电子邮件,社会媒体等,这些数据通常需要实时地捕获或更新以便分析、预测和建模和决策制定。

描述存储体系结构和发展历史

以服务器为中心的存储体系结构,组织将计算机和信息存储设备(磁带组合磁盘组)集中放在数据中心内。随着开放系统的演变,其成本合理性和易部署性使得各业务部门有机会拥有自己的服务器和存储,在开放系统早期实施中,存储通常内置于服务器中,这些存储设备无法与其他任何的服务器共享,称为以服务器为中心的存储体系。每台服务器具有有限数量的存储设备,且任何管理任务(例如服务器维护或增加存储容量)都可能导致信息不可用。企业中部门服务器的激增导致信息支离破碎,且缺乏保护和管理,因为增加了资本的支出和运营的成本。

 

以信息为中心的存储体系结构,存储设备的到集中管理且独立于服务器,多台服务器可共享这些集中管理的存储设备。在环境中部署新的服务器后,将从相同的共享存储设备向该服务器分配存储,通过添加更多的存储设备可动态增加共享存储容量,而不影响信息的可用性。在此体系结构中,信息管理更加简单,经济高效。

 

描述数据中心的核心元素

数据中心,它是包括存储,计算,网络和其他IT资源以提供集中式数据处理功能的设备。组织通过维护数据中心向整个企业提供集中式的数据处理功能,数据中心拥有并管理大量的数据。

核心元素:

1)应用程序,为计算操作提供逻辑的计算机程序

2)数据库管理系统DBMS提供结构化的存储方式,可将数据存储在相互关联并按逻辑组织的多个表中。

3)主机或计算,运行应用程序或数据库的计算平台(硬件、固件、或软件)

4)网络,便于各种网络设备之间进行通信的数据路径。

5)存储,持久存储数据提供后续使用的设备。

这些核心元素协同工作,以满足数据处理的需求。

列出数据中心的关键特征

可用性,数据中心应确保在需要的时候可以使用信息,信息不可用每小时会造成数百万美元的业务损失。

安全性,数据中心必须制定策略、建立流程并进行核心元素集成以防止他人在未经授权的情况下访问信息。

可扩展性,随着企业规模的扩大,通常需要部署更多服务器、新应用进程和其他数据库,数据中心资源应进而扩展,而不中断业务运营。

性能,数据中心的所有元素应根据所需的服务级别提供最佳性能。

数据完整性,指错误修正码,或奇偶校验位等机制。这些机制可以确保收到的数的原样存储和检索数据。

容量,数据中心运行需要充足的资源,才能高效地存储和处理大量的数据。当容量要求增加时,数据中心必须提供额外的容量,而不影响可用性或将中断降至最低。可通过重新地分配现有的资源或者添加新资源来管理容量。

可管理性,数据中心应提供对其所有元素简单且集成的管理。可管理性可通过自动处理常见任务,减少人为干预来实现。

 

概述虚拟化和云计算

虚拟化指的是抽象化物力资源并让其显示为逻辑资源的技术,例如计算系统中使用的虚拟内存和原始磁盘分区。

共用物理资源并提供物力资源功能的聚合视图,例如存储虚拟化支持多个共用设备显示为一个大的存储实体。类似地,通过计算虚拟化,将共用物理服务器的CPU容量视为所有CPU处理能力的聚合。虚拟化还支持集中化管理共用的资源。

可根据共用物理资源创建虚拟资源,提高IT资源的利用率,根据业务需求,向虚拟资源中添加容量或从中删除容量,而不会中断应用程序或影响用户,随着IT资产利用率的提高,将节省与采购和管理新物理资源关联的成本。减少物理资源意味着降低空间和能源消耗,这将带来更高的经济价值和实现绿色计算。

云计算,支持个人和组织通过网路将IT资源作为服务使用,支持自助请求且自动化完成请求过程,支持用户快速纵向扩展计算资源的使用。支持基于消耗量的计量,用户只为他们使用的资源付费,例如使用费CPU小时数,数据传输量和数据存储量。