商业智能也称作bi是英文单词business intelligence的缩写。商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。而商业智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策。为了将数据转化为知识,需要利用数据仓库、联机分析处理(olap)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、olap和数据挖掘等技术的综合运用。
商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。目前,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据。而商业智能能够辅助的业务经营决策既可以是操作层的,也可以是战术层和战略层的决策。为了将数据转化为知识,需要利用数据仓库、联机分析处理(olap)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、olap和数据挖掘等技术的综合运用。
因此,把商业智能看成是一种解决方案应该比较恰当。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(extracti
目前,商业智能产品及解决方案大致可分为数据仓库产品、数据抽取产品、olap产品、展示产品、和集成以上几种产品的针对某个应用的整体解决方案等。
一、商业智能应具有的功能
目前,很多厂商活跃在商业智能(下面称bi)领域。事实上,能够满足用户需要的bi产品和方案必须建立在稳定、整合的平台之上,该平台需要提供用户管理、安全性控制、连接数据源以及访问、分析和共享信息的功能。bi平台的标准化也非常重要,因为这关系到与企业多种应用系统的兼容问题,解决不了兼容问题,bi系统就不能发挥出应有效果。这里我们通过对一个实验室的bi系统模型(我们将其称为d系统)进行功能解剖,来介绍bi系统。
d系统是一个面向终端使用者,直接访问业务数据,能够使管理者从各个角度出发分析利用商业数据,及时地掌握组织的运营现状,作出科学的经营决策的系统。d系统可实现从简单的标准报表浏览到高级的数据分析,满足组织内部人员的需求。d系统涵盖了常规意义上商业智能(bi)系统的功能,主要构架包括以下几个方面。
读取数据
d系统可读取多种格式(如excel、access、以tab分割的txt和固定长的txt等)的文件,同时可读取关系型数据库 (对应odbc)中的数据。在读取文本和数据的基础上,d系统还可以完成:
连接文本 把2个csv文件中的共同项目作为键(key),将所需的数据合并到一个文件,这样可以象操作数据库一样方便,但无须用户编程即可实现。
设置项目类型 作为数据的项目类型,除按钮(butt
期间设置 日期项目数据可以根据年度或季度等组合后生成新的期间项目。同样,时间项目数据可以根据上午、下午或时间带等组合后生成新的时间项目。
设置等级 对于数值项目,可以任意设置等级,生成与之相对应的按钮。例如,可以生成与年龄项目中的20岁年龄段、30岁年龄段的等级相对应的按钮。
分析功能
关联/限定 关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是,事件发生的概率和条件概率应该符合一定的统计意义。d系统把这种关联的分析设计成按钮的形式,通过选择有/无关联,同时/相反的关联。对于结构化的数据,以客户的购买习惯数据为例,利用d系统的关联分析,可以发现客户的关联购买需要。例如,一个开设储蓄账户的客户很可能同时进行债券交易和股票交易。利用这种知识可以采取积极的营销策略,扩展客户购买的产品范围,吸引更多的客户。
显示数值比例/指示显示顺序 d系统可使数值项目的数据之间的比例关系通过按钮的大小来呈现,并显示其构成比,还可以改变数值项目数据的排列顺序等。选择按钮后,动态显示不断发生变化。这样能够获得直观的数据比较效果,并能够凸显差异,便于深入分析现象背后的本质。
监视功能 预先设置条件,使符合条件的按钮显示报警(红)、注意(黄)信号,使问题所在一目了然。比如说:上季度营业额少于100万元的店警告(×××标出),少于50万元的报警(红色标出)。执行后,d系统就把以店名命名的按钮用相应的颜色表示出来。
按钮增值功能 可将多个按钮组合,形成新的按钮。比如:把[4月]、[5月]、[6月]三个按钮组合后得到新的按钮[第2季度]。
记录选择功能 从大量数据中选择按钮,取出必要的数据。挑出来的数据可重新构成同样的操作环境。这样用户可以把精力集中在所关心的数据上。
多媒体情报表示功能 由数码相机拍摄的照片或影像文件、通过扫描仪输入的图形等多媒体文件、文字处理或者电子表格软件做成的报告书、html等标准形式保存的文件等,可以通过按钮进行查找。
分割按钮功能 在分割特定按钮类的情况下,只需切换被分割的个别按钮,便可连接不断实行已登录过的定型处理。
程序调用功能 把通过按钮查找抽取出的数据,传给其他的软件或用户原有的程序,并执行这些程序。
查找按钮名称功能 通过按钮名查找按钮,可以指定精确和模糊两种查找方法。另外,其他的按钮类也可以对查找结果相关的数据进行限定。
丰富的画面
列表画面 可以用and/or改变查找条件,可以进行统计/排序。统计对象只针对数值项目,统计方法分三种:合计、件数、平均,而且可以按照12种方式改变数值的显示格式。
视图画面 提供切换视角和变换视图功能,通过变换与设置条件相应的数值(单元格)的颜色表示强调。依次变换视角可进行多方面的数据分析。视图的统计对象只针对数值项目,统计方法有合计、平均、构成比(纵向、横向)、累计(纵向、横向)、加权平均、最大、最小、最新和绝对值等12种。
数值项目切换 通过按钮类的阶层化(行和列最多可分别设置8层),由整体到局部,一边分层向下挖掘,一边分析数据,可以更加明确探讨问题所在。
图表画面 d系统使用自己开发的图形库,提供柱形图、折线图、饼图、面积图、柱形+折线五大类35种。在图表画面上,也可以像在阶层视图一样,自由地对层次进行挖掘和返回等操作。
数据输出功能
打印统计列表和图表画面等,可将统计分析好的数据输出给其他的应用程序使用,或者以html格式保存。
定型处理
所需要的输出被显示出来时,进行定型登录,可以自动生成定型处理按钮。以后,只需按此按钮,即使很复杂的操作,也都可以将所要的列表、视图和图表显示出来。
d系统应用范围
商业智能系统可辅助建立信息中心,如产生各种工作报表和分析报表。用作以下分析:
销售分析 主要分析各项销售指标,例如毛利、毛利率、交叉比、销进比、盈利能力、周转率、同比、环比等等;而分析维又可从管理架构、类别品牌、日期、时段等角度观察,这些分析维又采用多级钻取,从而获得相当透彻的分析思路;同时根据海量数据产生预测信息、报警信息等分析数据;还可根据各种销售指标产生新的透视表。
商品分析 商品分析的主要数据来自销售数据和商品基础数据,从而产生以分析结构为主线的分析思路。主要分析数据有商品的类别结构、品牌结构、价格结构、毛利结构、结算方式结构、产地结构等,从而产生商品广度、商品深度、商品淘汰率、商品引进率、商品置换率、重点商品、畅销商品、滞销商品、季节商品等多种指标。通过d系统对这些指标的分析来指导企业商品结构的调整,加强所营商品的竞争能力和合理配置。
人员分析 通过d系统对公司的人员指标进行分析,特别是对销售人员指标(销售指标为主,毛利指标为辅)和采购人员指标(销售额、毛利、供应商更换、购销商品数、代销商品数、资金占用、资金周转等)的分析,以达到考核员工业绩,提高员工积极性,并为人力资源的合理利用提供科学依据。主要分析的主题有,员工的人员构成、销售人员的人均销售额、对于销售的个人销售业绩、各管理架构的人均销售额、毛利贡献、采购人员分管商品的进货多少、购销代销的比例、引进的商品销量如何等等。
二、商业智能定义为下列软件工具的集合
终端用户查询和报告工具。专门用来支持初级用户的原始数据访问,不包括适应于专业人士的成品报告生成工具。
olap工具。提供多维数据管理环境,其典型的应用是对商业问题的建模与商业数据分析。olap也被称为多维分析。
数据挖掘(data mining)软件。使用诸如神经网络、规则归纳等技术,用来发现数据之间的关系,做出基于数据的推断。
数据仓库(data warehouse)和数据集市(data mart)产品。包括数据转换、管理和存取等方面的预配置软件,通常还包括一些业务模型,如财务分析模型。
联机分析处理 (olap) 的概念最早是由关系数据库之父e.f.codd于1993年提出的,他同时提出了关于olap的12条准则。olap的提出引起了很大的反响,olap作为一类产品同联机事务处理 (oltp) 明显区分开来。
当今的数据处理大致可以分成两大类:联机事务处理oltp(on-line transaction processing)、联机分析处理olap(on-line analytical processing)。oltp是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。olap是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
olap是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。olap的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimensi
olap的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。
钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。
旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
olap有多种实现方法,根据存储数据的方式不同可以分为rolap、molap、holap。
rolap表示基于关系数据库的olap实现(relati olap)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。rolap将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了“星型模式”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。
molap表示基于多维数据组织的olap实现(multidimensi olap)。以多维数据组织方式为核心,也就是说,molap使用多维数组存储数据。多维数据在存储中将形成“立方块(cube)”的结构,在molap中对“立方块”的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术。
holap表示基于混合数据组织的olap实现(hybrid olap)。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。
还有其他的一些实现olap的方法,如提供一个专用的sql server,对某些存储模式(如星型、雪片型)提供对sql查询的特殊支持。
olap工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行分析、查询和报表。维是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构成的多维数组则是olap分析的基础,可形式化表示为(维1,维2,……,维n,度量指标),如(地区、时间、产品、销售额)。多维分析是指对以多维形式组织起来的数据采取切片(slice)、切块(dice)、钻取(drill-down和roll-up)、旋转(pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。
主流的商业智能工具包括bo、cognos、brio。一些国内的软件工具平台如kcom(http://www.kcomsoft.com/)也集成了一些基本的商业智能工具。
根据综合性数据的组织方式的不同,目前常见的olap主要有基于多维数据库的molap及基于关系数据库的rolap两种。molap是以多维的方式组织和存储数据,rolap则利用现有的关系数据库技术来模拟多维数据。在数据仓库应用中,olap应用一般是数据仓库应用的前端工具,同时olap工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。