第二章 商务智能系统架构

2.1 商务智能系统的组成

商务智能架构图 商务智能基础架构_数据仓库


1. 数据源与数据提取

数据是商务智能系统的基础,通常包括企业内部数据和外部数据(来自市场研究公司或Internet 等):

  • 内部数据包括企业各种应用系统、办公自动化系统等产生的业务数据、文等;
  • 外部数据包括有关市场、竞争对手的数据以及各类外部统计数据等。

这些数据可能是结构化的,如关系表和电子数据表(spreadsheet)等;也可能是非结构化的,如平面文件图像等多媒体数据,需要借助**企业信息集成(enterprise information integration,EII)**的技术整合才能用于业务的全面分析。业务数据需要经过数据评价、数据筛选以及数据抽取(extrat)、转换(transform)和装载 (load),即经过 ETL 后才可存储在数据库中,为数据的分析奠定了基础。


2. 数据仓库

数据仓库是一个面向主题、集成、时态、非易失性的数据集合,支持企业决策活动,包括元数据经过ETL的业务数据

元数据是关于数据的数据,包括数据源、抽取规则、转换规则、加载频率和数据仓库模型等信息。数据源中的数据按照元数据库的规则,经过抽取、清理、转换、集成,按照决策主题重新组织、存储。

数据集市是数据仓库的一个子集,但含有特定的主题,一般只在某个部门或局部范围内使用。一些数据仓库系统还带有操作型数据存储(ODS)。

内存计算技术是近年来的一种新兴技术,它可以将大量的业务数据直接导入内存,并以列存储方式存储,分析也直接在内存中进行,以提高大数据量的业务分析速度。


3. 访问工具

访问工具包括应用接口中间件服务器。数据库中间件允许用户透明地访问数据仓库服务器,用于即席查询(ad-hoc query)、在线分析处理和数据挖掘。

中间件服务器是连接数据仓库和访问工具之间的桥梁,它提供了一组标准的API和工具,使用户可以通过常见的查询和报表工具访问数据仓库中的数据。这些API和工具包括ODBC(开放式数据库连接)、OLE DB(对象链接和嵌入)、JDBC(Java数据库连接)、ADO.NET(ActiveX数据对象)、XMLA(XML for Analysis)等。中间件服务器还可以提供查询优化、安全性管理、缓存管理和负载均衡等功能,以提高数据仓库系统的性能和可靠性。


4. 决策支持工具

决策支持工具包括即席查询、报表、在线分析处理和数据挖掘等多种组成部分,这些工具可以对数据进行不同层次的加工和分析,以支持决策制定。

  • 即席查询和报表可以方便用户获取需要的数据并按一定的方式显示出来,支持对数据进行简单的分析和总结。
  • 在线分析处理则支持用户进行多维数据分析和查询,以发现更深层次的业务趋势。而数据挖掘则是对数据的深层次加工,通过从大量数据中提取隐藏的、有用的知识,为决策制定提供支持。

不同的工具可以在不同的决策情境下发挥作用,帮助用户做出更准确、更有针对性的决策。

  • 报表工具是商务智能系统的基础之一,具备封装各种数据集的功能,支持在报表绘制过程中灵活定义 SQL检索、存储过程复杂 SQL、Text 文件XML 文件以及自定义等不同类型的数据集。

成熟的报表具有先进的前端展现功能,可以无缝输出至 PDF、Excel 等常用文件中,实现动态形象地展现数据,对企业业务进行汇总、分析,真实地反映公司业务的状况。

商务智能架构图 商务智能基础架构_数据集成_02


常见的报表软件
除了 Excel等常用的报表工具外,目前市场上比较流行的国外报表软件还有 BusinessObjects(SAP)的水晶报表(Crystal Reports)以及 Cognos(IBM)等。


5.商务智能应用

商务智能应用,如利润成本分析资产分析营销分析投资组合分析以及人力资源管理顾客关系管理供应链管理等各种业务的分析都是根据各级决策者的需求,从数据仓库中提相关的数据,然后确定数据分析的方法,并把分析结果通过前端展示工具提供给决策者问。


6. 系统管理

系统管理包括系统安全管理(用户身份验证和权限管理)、元数据的管理与更新**、数据仓库的日常维护与监控数据使用审计容量规划等。


7. 元素局管理

元数据管理包括对开发、管理数据仓库时所用的技术元数据和支持业务人员的业务元数据进行管理,它对数据仓库的设计和维护起着重要作用。


2.2 数据集成

在信息化过程中,企业面临着各种来自不同业务部门、不同数据来源的数据,这些数据格式、质量等方面存在差异,导致数据孤岛的形成,使企业无法有效地利用数据资源进行决策分析。因此,数据集成成为了解决这一问题的重要手段。

在数据集成过程中,需要进行数据源识别数据提取数据转换数据加载等步骤。对于不同的数据源和数据格式,可以采用不同的数据集成方式,包括手动数据集成、ETL工具和数据集成平台等。手动数据集成需要手动编写代码进行数据转换和加载,相对较为繁琐;ETL工具可以通过可视化界面和预设的转换规则,快速进行数据集成,适用于数据量较大的情况;数据集成平台可以通过自动化的方式实现数据集成,支持多种数据源和数据格式,适用于需要频繁进行数据集成和数据分析的场景。

同时,数据集成也面临着一些挑战,例如数据质量问题、数据格式不一致、数据安全等问题。为了解决这些问题,需要采用一些数据清洗数据整合数据安全措施,从而确保数据集成的准确性和安全性。


在企业数据集成领域,已经有很多成熟的方法可以使用。目前通常采用数据联邦(federation)基于中间件模型数据仓库和**主数据管理(master data management,MDM)**等方法来构造集成的系统。

  • 数据联邦是指将分布在不同数据源中的数据集成起来,形成一个虚拟的数据库,可以通过统一的接口进行查询和访问。这种方法可以避免数据复制和冗余,降低数据集成的成本和复杂度。
  • 基于中间件模型的数据集成方法是指通过中间件将不同数据源的数据进行转换和集成,形成一个统一的数据视图,方便用户进行查询和分析。这种方法可以提高数据集成的灵活性和可扩展性,同时也可以减少数据冗余。
  • 数据仓库是指将企业中不同业务系统中的数据进行抽取、转换和加载,形成一个面向主题的、统一的数据仓库,用于支持企业的决策分析和业务运营。数据仓库一般采用ETL工具进行数据集成和转换,可以提高数据的质量和一致性,同时也方便企业进行数据分析和报表生成。
  • 主数据管理是指对企业中关键的数据实体(如产品、客户、供应商等)进行标准化和管理,确保这些数据实体在不同业务系统中的数据一致性和准确性。主数据管理可以避免数据冗余和数据不一致,提高数据的可信度和准确性。