回归: 指用一个或多个自变量预测因变量的数学方法 一元线性回归: 模型为y=w1x+w0 目标是所有样本落在直线附近 多元线性回归: 多重共线性:变量之间存在较强的共线性,对参数估计得不准确,造成过度拟合的现象 LASSO系数压缩估计方法 误差:
点到平面距离: 梯度下降法: 最大似然法: 如何做分类? 感知机: 找到一条直线将两类数据分开 支持向量机: 找到一条直线将两类数据分开,还要使数据离直线尽可能的远 逻辑回归: 使观察到训练集的“可能性”最大 分类问题的评价指标:
一,模型提升方法 模型误差来源: 逼近误差 估计误差:训练到的函数与模型空间最好的函数的距离 线性到非线性模型: 线性回归:多项式回归 支持向量机 决策树:空间划分的思想来处理非线性数据 决策树的生成: 从根节点开始,选择对应特征 选择节点特征分割点 二,节点特征和分割点的选择 不纯度:表示落在当前
数据维度灾难需要降维 实际数据会有很多的维度,但对数据处理时,不能将所有数据的维度都当做一个参数,那样就会导致我们口中的维度灾难 那么,维度灾难该怎么处理呢 1主要成分分析 基本思想:构造原始特征的一系列线性组合形成的线性无关低纬特征,以去除数据的相关性,并使降维后的数据最大程度的保持原始高维数据的
数学基础:凸函数与Jensen不等式 凸函数:弦在弧上 聚类:样本没有类别标签,一种典型的无监督学习方法 相同类的样本之间距离较近 不同类的样本之间距离较远 K-means模型 模型求解: 交替迭代法: 固定c优化r, 固定r优化c, 固定c,优化r 固定r,优化c K-Means算法流程 1,随机
机器学习的优化目标 一,梯度下降法 batch梯度下降法: 随机梯度下降SGD 线性衰减然后保持为常数 梯度爆炸和悬崖 解决方法:梯度阶段 启发式梯度截断干涉以减少步长 二,动量法 在参数更新时考虑历史梯度信息 Nesterov动量法
维度灾难: 随着维度的增多,问题的复杂性(或计算代价)呈指数型增长的现象 基于距离的机器学习模型 稀疏度与过度拟合 过度拟合:模型对已知数据拟合较好,新的数据拟合较差 高维空间中样本变得极度稀疏,容易造成过度拟合问题 计算复杂度:决策树 随着维数的增加。计算复杂度指数增长 只能求近似解得到局部最优解
深度学习应用领域全面突破:机器翻译 语音识别等 神经元与感知机 多层感知机 多个神经元以全连接层次相连 网络称为前馈神经网络 也称多层感知机 多层感知机能够逼近任何函数 误差函数 梯度计算:后向传播BP: 前向传播计算误差,后向传播计算梯度 机器学习与深度学习之间差别
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号