Occam剃刀
越简单越好
原假设
原假设是假定在观测中的不同只归因于偶然性。
数据挖掘者和统计学家之间的一个差别是,数据挖掘者时常面对足够大量的数据,没有必要去考虑那些归因于偶然性事件的概率计算技巧。
p值
一般常用p值给出原假设为真的概率。当原假设为真是,表示真的没有发生什么,因为差异归因于偶然性。置信度,又是称为q值,是p值的反面。通常的目标是追求至少90%的置信层次,如果达不到95%或者更多的话。
观察数据
观察离散数值
- 直方图
- 时间序列
- 标准值
- 从标准化值到概率(双尾状分布、单尾状分布)
- 交叉表
观察连续变量
- 连续变量的统计学度量(变动范围、均值、中值、众数)
- 离差和标准差
另一对统计概念
- 相关性
- 回归
测定响应
比例标准误差

使用置信界限比较结果

使用比例差值比较结果


样本大小

置信区间的真正含义
实验的测试群组和对照群组大小
多重比较
多重比较下的置信层次
置信层次只是基于单一比较。当有多重比较时,前提条件就不正确,因此前面所计算的置信都就不太充分了。
Bonferroni修正
按照做出比较的数据分配期望的p值界限,一遍得到所有比较的1-p的置信度。
卡方检验
特别为多重测试且至少有两个离散结果的情形设计的。卡方检验是决策树最初形式之一的基础。
期望值

卡方值

使用卡方检验的步骤
- 计算期望值
- 计算偏离期望值的离差
- 计算卡方
- 对表格的全部卡方值求和
- 计算观测值归因于偶然性的概率
自由度:

卡方于比例差值的比较

数据挖掘和统计学异同
- 数据挖掘者倾向于忽略原始数据中的测量误差
- 数据挖掘者假定有足够多的数据和足够强的处理能力
- 数据挖掘假定时时处处具有相关性
- 在商业界设计试验可能很困难
- 数据已被截取或者审查
















