商业智能 BI、数据仓库 DW、数据挖掘 DM
商业智能BI(Business Intelligence) 。相比于数据仓库、数据挖掘,它是一个更大的概念。商业智能可以说是基于数据仓库,经过了数据挖掘后,得到了商业价值的过程。所以说数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金。
数据仓库DW(Data Warehouse) 。它可以说是 BI 这个房子的地基,搭建好 DW 这个地基之后,才能进行分析使用,最后产生价值。数据仓库可以说是数据库的升级概念. 和数据库并无明显差别都是通过数据库技术来存储数据的。数据仓库将原有的多个数据来源中的数据进行汇总、整理而得。数据进入数据仓库前,必须消除数据中的不一致性,方便后续进行数据分析和挖掘。
数据挖掘DM(Data Mining) 。在商业智能 BI 中经常会使用到数据挖掘技术。数据挖掘的核心包括分类、聚类、预测、关联分析等任务,通过这些炼金术,我们可以从数据仓库中得到宝藏,比如商业报告。
元数据 and 数据元
元数据(MetaData): 描述其它数据的数据,也称为“中介数据”。数据元(Data Element): 就是最小数据单元。
在生活中,只要有一类事物,就可以定义一套元数据。举个例子,比如一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息,我们就可以把这些属性定义成一套图书的元数据。
在图书这个元数据中,书名、作者、出版社就是数据元。你可以理解是最小的数据单元。元数据最大的好处是使信息的描述和分类实现了结构化,让机器处理起来很方便。
_元数据的作用:
元数据可以很方便地应用于数据仓库。比如数据仓库中有数据和数据之间的各种复杂关系,为了描述这些关系,元数据可以对数据仓库的数据进行定义,刻画数据的抽取和转换规则,存储与数据仓库主题有关的各种信息。而且整个数据仓库的运行都是基于元数据的,比如抽取调度数据、获取历史数据等。
数据挖掘的流程数据挖掘(Knowledge Discovery in Database)数据库中知识发现,简称KDD。在数据挖掘中有几个非常中要的任务分别是分类,聚类,预测和关系分析。
1.分类:
就是通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类。
训练集和测试集的概念:
一般来说数据可以划分为训练集和测试集。训练集是用来给机器做训练的,通常是人们整理好训练数据,以及这些数据对应的分类标识。通过训练,机器就产生了自我分类的模型,然后机器就可以拿着这个分类模型,对测试集中的数据进行分类预测。同样如果测试集中,人们已经给出了测试结果,我们就可以用测试结果来做验证,从而了解分类器在测试环境下的表现。
2.聚类:
人以群分,物以类聚。聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在一起的差异性大。我们往往利用聚类来做数据划分。
3.预测:
就是通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和风险。
4.关系分析:
就是发现数据中的关联规则,它被广泛应用在购物篮分析,或事务数据分析中。比如某宝中的物品绑定推送。
数据库中知识发现(KDD)过程:
输入数据 --> 数据预处理(特征选择,维规约,规范化,选择数据子集) --> 数据挖掘 --> 后处理(模式过滤,可视化,模式表示) --> 信息
数据预处理时进行的步骤:
1.数据清洗
主要是为了去除重复数据,去噪声(即干扰数据)以及填充缺失值。
2.数据集成
是将多个数据源中的数据存放在一个统一的数据存储中。
3.数据变换
就是将数据转换成适合数据挖掘的形式。比如,通过归一化将属性数据按照比例缩放,这样就可以将数值落入一个特定的区间内,比如 0~1 之间。
白话讲解:比如你认识了两个漂亮的女孩。
商业智能 会告诉你要追哪个?成功概率有多大?
数据仓库 会说,我这里存储了这两个女孩的相关信息,你要吗?
其中每个女孩的数据都有单独的文件夹,里面有她们各自的姓名、生日、喜好和联系方式等,这些具体的信息就是 数据元 ,加起来叫作 元数据 。
数据挖掘 会帮助你确定追哪个女孩,并且整理好数据仓库,这里就可以使用到各种算法,帮你做决策了。
你可能会用到 分类算法 。御姐、萝莉、女王,她到底属于哪个分类?
如果认识的女孩太多了,多到你已经数不过来了,比如说 5 万人!你就可以使用 聚类算法 了,它帮你把这些女孩分成多个群组,比如 5 个组。然后再对每个群组的特性进行了解,进行决策。这样就把 5 万人的决策,转化成了 5 个组的决策。成功实现降维,大大提升了效率。如果你想知道这个女孩的闺蜜是谁,那么 关联分析算法 可以告诉你。如果你的数据来源比较多,比如有很多朋友给你介绍女朋友,很多人都推荐了同一个,你就需要去重,这叫 数据清洗 ;为了方便记忆,你把不同朋友推荐的女孩信息合成一个,这叫 数据集成 ;有些数据渠道统计的体重的单位是公斤,有些是斤,你就需要将它们转换成同一个单位,这叫 数据变换 。
最后你可以进行数据可视化了,它会直观地把你想要的结果呈现出来。
赞 赏 作 者
一个“软实力”,“硬技术”同步成长的公众号