1、数据挖掘的概念

   数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取出蕴涵在其中的,人们事先不知道的,但是具有潜在有用性的信息和知识的过程。

  用来进行数据挖掘的数据源必须是真实的和大量的,并且可能不完整和包括一些干扰数据项。发现的信息和知识必须是用户感兴趣和有用的。一般来讲,数据挖掘的结果并不要求是完全准确的知识,而是发现一种大的趋势。

  数据挖掘可简单地理解为通过对大量数据的操作,发现有用的知识的过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。

  2、数据发掘的应用

  就具体应用而言,数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做预测。

  数据挖掘的知识发现,不是要去发现放之四海而皆淮的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达所发现的结果。

  数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在  过去,数据收集和分析的目的是用于科学研究。另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到了很大限制。

  3、数据挖掘的价值类型

   数据挖掘就是在海量的数据中找到有价值的数据,为企业经营决策提供依据。价值通常包括相关性、趋势和特征。

 1)相关性

  相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的  相关密切程度。

  元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性,所涵盖的范围和领域几乎覆盖了我们所见到的各个方面。相关性分析用于确定数据之间的变化情况,即其中一个属性或几个属性的变化是否会对其他属性造成影响,影响有多大。图 1 就是几种常见的相关性的示例。

数据挖掘 实践 数据挖掘实践是什么_人工智能

2)趋势

趋势分析是指将实际达到的结果,与不同时期财务报表中同类指标的历史数据进行比较,从而确定财务状况、经营成果和现金流量的变化趋势和变化规律的一种分析方法。可以通过折线图预测数据的走向和趋势,也可以通过环比、同比的方式对比较的结果进行说明,如图 2 所示。

数据挖掘 实践 数据挖掘实践是什么_数据挖掘_02

3)特征

特征分析是指根据具体分析的内容寻找主要对象的特征。例如,互联网类数据挖掘就是找出用户的各方面特征来对用户进行画像,并根据不同的用户给用户群打相应的标签。如图 3 所示。

数据挖掘 实践 数据挖掘实践是什么_数据_03