1.8 统计学

统计学研究数据收集、数据分析、数据解释或说明,以及数据表示。作为数据挖掘的基础,它们的关系将在下面章节中说明。

1.8.1 统计学与数据挖掘

第一次使用数据挖掘这个术语的人是统计学家。最初,数据挖掘是一个贬义词,指的是企图提取得不到数据支持的信息。在一定程度上,数据挖掘构建统计模型,这是一个基础分布,用于可视化数据。

数据挖掘与统计学有着内在的联系,数据挖掘的数学基础之一就是统计学,而且很多统计模型都应用于数据挖掘中。

统计模型可以用来总结数据集合,也可以用于验证数据挖掘结果。

1.8.2 统计学与机器学习

随着统计学和机器学习的发展,这两个学科成为一个统一体。统计检验被用来验证机器学习模型和评估机器学习算法,机器学习技术与标准统计技术可以有机结合。

1.8.3 统计学与R语言

R是一种统计编程语言,它提供大量基于统计知识的统计函数。许多R语言添加包的贡献者来自统计学领域,并在他们的研究中使用R语言。

1.8.4 数据挖掘中统计学的局限性

在数据挖掘技术的演变过程中,由于数据挖掘中统计的局限性,人们在试图提取并不真正存在于数据中的信息时可能会犯错误。

Bonferroni原则(Bonferroni’s Principle)是一个统计定理,也被称为Bonferroni校正(Bonferroni correction)。你可以假设你找到的大部分结果都是事实上不存在的,即算法返回的结果大大超过了所假设的范围。