常用数据挖掘算法总结及Python实现 高清完整版PDF
第一部分数据挖掘与机器学习数学基础
第一章机器学习的统计基础
1.1概率论
l概率论基本概念
样本空间
我们将随机实验E的一切可能基本结果组成的集合称为E的样本空间,记为S。样本空间的元素,即
E的每一个可能的结果,称为样本点。样本空间又叫基本事件空间。
例:拍拍贷用户的学历S=“研究生或以上’,本科,大专’,“高中,“中专,初中及以下},A={研
究生或以上’,“本科,“大专”}
事件
事件A是样本空间的了集,可分为四种类型
空事件:样木空间的空子集
原了事件:仅包含·个元素的样本空间
混合事件:包含多个元素的样木空间
样本空间本身也是·个事件
集合
1.集合A的补集记做A
2.集合A和B的交集A⌒B
3.集合A和B的合集A∪B
4.如果A⌒B=,那么A和B互斥
5.如果442…An是采样空间S的子集,如果A1∪A2∪…An=S,那么这种情
况称作完全穷尽
概率论定义
概率用来描述一件事的不确定性。假设A是投硬币的一个结果(比如正面朝上),如果重复投硬币很
多次,直到A出现的机会逼近个极限p。那么可以说出现A的概率是p
对于事件A和B,联合概率P(AB表示事件A和B同时发生的概率
number of favorable outcomes
P(A)
total number of possible outcomes
概率定律
事件的概率:PA)满足:P(A)≥0;Ps)=1:对丁一连串的互斥事件:A)=∑/A)
条件概率
发生事件A的情况下,发生B的概率称作条件概率P(BA)
P(B A
P(B∩A
P(A)
·独立性
事件发生和其它事件无关。
如果P(BAP(B,我们称B和A统计独立,当且仅当:P(4nB)=P(4)PB)
如果A和B统计独立,那么B与A也统计独立
总概率
P(A)=P(A∩B)+P(A∩B)=P(AB)P(B)+P(AB)P(B)
贝叶斯理论
P(BIA=P(A B)P(B)
P(A)
P(B):B的先验概率,非条件概率,或者边际概率
P(AB):给定B条件下的A的条件概率,也被称作“似然”
P(A):A的边际概率,也作为B的后验概率的归·化常量
P(B|A):B的后验概率
2随机变量,期望,方差
随机变量ⅹ是随机试验的数值型结果
相关概念:
观测值:其中·个结果成为观测值
数据:多个观测值集合为数据
总体:所有的结果称为总休
有两种类型的随机变量
离交量:值数目可数
对于离散型随机变量,我们关心每个特定数值出现的概率eg.客户的婚姻情况
连绥交量:数值在一定范围内
对于连续性变量,某·个特定值出现的概率为0,我们只关心区间的概率
Eg各户的投资金额
概率分布
随机变量的分布就是它所有可能的输出以及它们的概率集合
概率密度函数
随机变量的概率密度函数描述该随机变量在某个取值发生的可能性
离散变量:P(X-x)p(x)
P(<
连续变量:
累积分布函数
x处的累积分布函数是负无穷到ⅹ点的概率密度函数的累加和
期望
期望是指所有可能值的加权和。其权重对于离散值而言就是该值出现的概率,而对于连续值而言就是
共密度函数。
离散情况:
连续情况:
E(x)=∑xD(x)
E()=「xp(x)dkx
方差
用来描述该随机变量值和平均值的郾散程度
离散情况
连续情况
阳a()=∑(x-D()p(x)
a()=∫(x-B()p(
3常用概率分布
离散分布:伯努利分布(二项分布)
口概率度数
P(X=X)
均值
E(r)
方差
Varr)=p(1-p)
连续分布
正态分布是最常用的一种连续分布。密度函数的特点是:关于均值μ对称,并在μ处取最大值,
在正(负)无穷远处取值为0,图像是一条位于x轴上方的钟形曲线。期望值μ决定了分布的位置,
标准差σ决定了分布的幅度。当μ=0,^2=1时,称为标准正态分布,记为N(O,1)
口概率密度函数
10
=0.d2=02
=0.2=1.0
P=-2.02=05
翅望
E(r)
口方差
d l
4统计量估计和中心极限定理
从一个数据集(样本)估计它的分布情况
◇统计直方图:直观地显示了数据的分布
描述性指标:
衡量据中趋势
期望值的估计:氵∑X
最大值/最小值:2500万用户的最大最小借款金额
中值:按照借款金额排序,最中间的值
众数:出现次数最多的借款金额
衡量变化性
范围:最大最小的借款金额之差
(x-x)
方差的佔计:
两个重要定理
大数定律
中心极限定理
100
90
All heads
80
70
大数定律(趋势
60
50
40
30
中心极限定理(分布)
10
All Tails
Increasing number of coin tosses
大数定理
大数定理措述的是一组独立冋分布随杋变量的均值的极限。在这些随机变量个数趋于无穷时,其均值
依概率收敛于这些随机变量的数学期望
指明样本均值的收敛趋势
◆中心极限定理
设随机变量Ⅺ1,X2,n相互独立,服从同·分布,且具有数学期望和方差
E(H)=p,la(X,)=a2>0
则随机变量的均值=x1+渐进地服从正态分布,并且期望和方差分别为
E(k1)=A,ar(X)=a2>0
指明样本均值的分布与样本量的关系
1.2假设检验
L假设检验概述
·作用:检查观察到的样本究竞是否支持对总体的假设,帮助进行决策
概率论
假设检验
数据估计
数据决策
假设检验在数据分析中的应用
◇理解分析建模的结果
需要读懂相关性分析,归回等建模的结果
coef std err
t
P>tI
[95.09 Conf. Int.
Const
-.3337
⊙.650
.513
.659
3.130
2.462
1.2591
.495
2.543
.126
0.872
3.390
.⊙456
⊙.081
-0.563
⊙.630
-0.394
.303
☆ AB Test
什么是假设检验
假设检验是数理统计学中根据一定假设条件由样木推断总体的一科方法
对总体做假设
出样本做检验
假设检验的要素
令原假设( Null Hypothesis)
令备择假设( Alternative Hypothesis):即与原假设相悖的陈述
◇检验统计量:用采样数据基于原假设计算岀的统计量,用来检验原假设和备择假设
◆拒绝域:在该区问,拒绝原假设,而趋向于备择假设
错误类型
类型I:在给定原假设是正确的情况下拒绝原假设的概率( False positive)
a=P( reject Ho| Ho truc)拒真
类型I:在给定备择假设是正确的情况下接受原假设的概率( False negative)
β=P( accept H| Hi truc)取伪
·P- value
比观测值更极端的情况出现的概率,衡量样本数据相对于原假设的置信强,也称作观测的显著性水平
P-val
P(Z≥
用于做拒绝决定:
如果p- value 3 a.不拒绝原假设
F-al
如果p-vlue
拒绝域
单边检测I
Critical Value(s)
H0:u≥3
H1:μ<3
单边检测Il
拒绝域
H0:≤3
H1:>3
双边检测
Ho:μ=3
≠3
2如何选择合适的检验
两组检验类型
参数检测:假定数据遵从某些特定的分布(例如:高斯分布),对总体参数进行佔计或检验
例如:z检测,t检测, ANOVA, chi-Square等
非参数检测:并没有假定数据遵从某种分布。往往直接对分布的某种特性(如对称性,分位数人小)
做检验。
例如 Kolmogorov- Smirnov检测, Wilcoxon检测,Mann- Whitney检测, Kruskal- Wallis检测等
一个样本和多个样本
单个样本检验:仅仅基于·个采样样本,通常基于均值、方差和分布的假设
例如,正态分布检验,z检验,t检验
多个样本检验:目标是比较多个组别的均值方差是不是相等。
例如:∧NOMⅥA检验, Kruskal- Wallis检验(hi- square检验等等。
3假设检验
正态性检验
评估个数据集{x1,…,xn}服从正态分布的可
能性
Ho:ixl,., xn)-N(u, a2)
I1:{x1,,xn}服从仁意分布
2-0 plot(图形检验):
用图形的方法来比较两个概率分布:把他们的相应百分位数画在张图里,图中任意点(x2y),
x利Y坐标分别是这两个分布的百分位数。如果这两个分布很相似, Q-Q plot上的点会近似地位于
对角线y=x附近
Kolmogorov- Smirnov(非参数检验)
以样本数据的累计频数分布与特定理论分布比较,拿
若两者间的差距很小,则推论该样本取自某特定分布。只8
对连续分布适用
Z检验
原假设下的统计量近似为态分布。
-该正态分布方差已知,或可以从大样本里佔计出来(近似Z检验)
H0:
NO,1)
H1:μ≠
Critical region
Critical region
检验统计量:
a/2
Acceptance
a/2
region
(r
0
拒绝H:2>Z/2orZ
T检验
-数据严格遵从正态分布
不要求方差已知,可以从数据中佔算
尤其适用于评估小样本相对总体的差异
较Z检验复杂
大样本与Z检验结果相似
Critical region
H1:μ≠μo
Ical region
a/2
检验统计量:
7≈(X-)
x2,n-1
an n-I
拒绝Ho:T>1/2orT
检验步骤
1)根据问题,判定感兴趣的参数
2)给定原假设,F
3)给定备择假设I
4)选择·个置信水平α
5)选择合适的假设检验
6)推导出拒绝域
7)计算需要的统计变量
8)决定拒绝或接收原假设H
4.AB Test
假设检验的一个重要应用;
多个方案并行测试——大多数情况是两个方案
每个方案从有一个变量不同—必须是单变量
以某种规则优胜劣汰—规则不同可能结果完全不同。
13抽样
l抽样概述
2抽样方法
3应用案例