Occam剃刀

越简单越好

原假设

原假设是假定在观测中的不同只归因于偶然性。

数据挖掘者和统计学家之间的一个差别是,数据挖掘者时常面对足够大量的数据,没有必要去考虑那些归因于偶然性事件的概率计算技巧。

p值

一般常用p值给出原假设为真的概率。当原假设为真是,表示真的没有发生什么,因为差异归因于偶然性。置信度,又是称为q值,是p值的反面。通常的目标是追求至少90%的置信层次,如果达不到95%或者更多的话。

观察数据

观察离散数值

  • 直方图
  • 时间序列
  • 标准值
  • 从标准化值到概率(双尾状分布、单尾状分布)
  • 交叉表

观察连续变量

  • 连续变量的统计学度量(变动范围、均值、中值、众数)
  • 离差和标准差

另一对统计概念

  • 相关性
  • 回归

测定响应

比例标准误差




数据挖掘置信度计算题 数据挖掘 相关度_数据挖掘置信度计算题


使用置信界限比较结果


数据挖掘置信度计算题 数据挖掘 相关度_数据_02


使用比例差值比较结果


数据挖掘置信度计算题 数据挖掘 相关度_数据挖掘_03


数据挖掘置信度计算题 数据挖掘 相关度_数据_04


样本大小


数据挖掘置信度计算题 数据挖掘 相关度_数据挖掘_05


置信区间的真正含义

实验的测试群组和对照群组大小

多重比较

多重比较下的置信层次

置信层次只是基于单一比较。当有多重比较时,前提条件就不正确,因此前面所计算的置信都就不太充分了。

Bonferroni修正

按照做出比较的数据分配期望的p值界限,一遍得到所有比较的1-p的置信度。

卡方检验

特别为多重测试且至少有两个离散结果的情形设计的。卡方检验是决策树最初形式之一的基础。

期望值


数据挖掘置信度计算题 数据挖掘 相关度_数据挖掘如何计算相关性_06


卡方值


数据挖掘置信度计算题 数据挖掘 相关度_卡方检验_07


使用卡方检验的步骤

  • 计算期望值
  • 计算偏离期望值的离差
  • 计算卡方
  • 对表格的全部卡方值求和
  • 计算观测值归因于偶然性的概率

自由度:


数据挖掘置信度计算题 数据挖掘 相关度_数据挖掘置信度计算题_08


卡方于比例差值的比较


数据挖掘置信度计算题 数据挖掘 相关度_卡方检验_09


数据挖掘和统计学异同

  • 数据挖掘者倾向于忽略原始数据中的测量误差
  • 数据挖掘者假定有足够多的数据和足够强的处理能力
  • 数据挖掘假定时时处处具有相关性
  • 在商业界设计试验可能很困难
  • 数据已被截取或者审查