第七周 统计机器学习算法应用
回归与分类的区别:
线性回归难以刻画数据的复杂分布,所以有了非线性回归模型——逻辑斯蒂模型logistic
回归和分类的统一:是否能用回归模型完成分类任务
逻辑回归模型=回归模型+sigmoid函数
sigmoid函数 | |
性质良好 | 概率输出,值域[0,1] 数据特征加权累加 非线性变化 |
y | x为正例的概率 |
1-y | x为负例的概率 |
p/(1-p) | 几率(x作为正例的相对可能性) |
log(p/(1-p)) | =wT*x+b线性回归——对数几率回归 |
参数求取——使用似然函数——最大似然估计目的:计算似然函数最大值
分类过程:损失函数最小化
损失函数(交叉熵)=对数似然相反数
最小化损失函数——求解参数——各维度加权
线性回归模型——最小二乘法
逻辑斯蒂模型——迭代算法,优化求解——梯度下降法
回归 | 分类 | |
logistic回归 | 推广 | 多项logistic回归 |
sigmoid() | softmax() | |
解决二分类问题 | 解决多类分类问题,多个Z归一化到(0,1),输入值越大,输出概率越大 |
基于矩阵分解的潜在语义分析
问题:异词同义,一词多义——文档和单词对应出现问题
线性区别分析和分类:
高维数据降维方法的种类
如何从高维数据中获取其蕴含的本质属性信息,即将高维数据转换到低维空间,同时保留其高维空间所具有的属性
1)线性降维与非线性降维。
线性降维:线性降维方法主要包括主成分分析(Principal Component Analysis, PCA)、多维尺度分析(Metric multidimensional scaling, MDS)、线性判别分析(Linear Discriminant Analysis, LDA),
其主要思路是在原始空间设计得到一系列特征向量,然后通过对这些特征向量进行线性组合来达到高维特征降维目的。
线性降维的优点在于其通过简单变换函数实现原始高维数据降维。
缺点:但是,原始高维数据往往分布在一个“非线性特征”空间中(如数据分布在曲线中或曲面上等),原始数据的非线性分布将使得直接应用线性降维变得不合时宜,也就是说线性降维将失效。
非线性高维特征降维方法,如等距映射(Isometric Mapping,ISOMAP)、局部线性嵌入(Locally Linear Embedding,LLE)、拉普拉斯特征映射(Laplacian Eigenmap)和局部不变投影(Locally Preserving Projections, LPP)等方法,
这些非线性降维方法通过挖掘高维数据在原始空间中所具有的流形、拓扑和几何等属性,进而形成保持这些属性的非线性降维方法。
2)局部保持降维与全局保持降维
局部保持降维意味着该类降维方法将使得降维后数据之间局部信息与原始数据之间局部信息得以保持,这类方法包括局部线性嵌入(LLE)和局部不变投影(LPP)等降维方法。
全局保持降维则意味着任意两个高维数据在原始空间全局距离较近,则在降维后的空间中这两个高维数据之间的全局距离仍较近。全局保持降维的方法包括等距映射(ISOMAP)和主成份分析(PCA)等。
3)监督学习降维和非监督学习降维。
监督学习降维是指在降维过程中利用了样本所具有的类别信息,线性区别分析(Linear Discriminant Analysis, LDA)则为监督降维算法。
非监督学习则未利用样本具有的类别信息。主成份分析(PCA)和局部不变投影(LPP)等可归属为无监督降维算法,