梯度下降法

在梯度下降法中,批量指的是用于在单次迭代中计算梯度的样本总数。

随机梯度下降法(SGD):每次迭代只使用一个样本(批量大小为1),如果进行足够的迭代,SGD也可以发挥作用。”随机“这一术语表示够成各个批量的一个样本都是随机选择的。

小批量随机梯度下降法(小批量SGD):是介于全批量迭代与SGD之间的折中方案。小批量通常包含10-1000个随机选择的样本。小批量SGD可以减少SGD中杂乱样本数量,但仍然比全批量高效。

峰值信噪比经常用作图像压缩等领域中信号重建质量的测量方法,它常简单地通过均方误差(MSE)进行定义。


独热编码(one hot encoding)

一种稀疏向量,其中:一个元素设为1,所有其他元素均设为0。

独热编码常用于表示拥有有限个可能值得字符串或标识符。

1、将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧氏空间的某个点。

2、机器学习算法中,特征之间距离的计算或相似度的常用计算方法都是基于欧式空间的。

3、将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。

数据集划分

通常,在测试集上表现是否良好是衡量能否在新数据上表现良好的有用指标,前提是:

1、测试集足够大

2、不会反复使用同样的测试集来作假

通过将数据集划分为三个子集(训练集、验证集、测试集),可以大幅降低过拟合的发生几率:

使用验证集评估训练集的效果

在模型“通过”验证集之后,使用测试集再次检查评估结果

真正的测试集在一开始是不露面的(没参加过验证),在通过验证集通过后再用测试集测试


二元分类问题的目标是正确预测两个可能的标签中的一个(是垃圾邮件or不是垃圾邮件)

在多类别问题中,Softmax会为每个类别分配一个用小数表示的概率。这些用小数表示的概率相加之和必须是1.0

交叉熵是信息论中的概念,它原来是用来估算平均编码长度的。交叉熵刻画的是两个概率分布之间的距离,交叉熵越小,两个概率的分布越接近。


数据预处理

归一化:

1、数据范围过大易造成浮点上移或下移。

2、数值范围不同会导致不同属性对模型的重要性不同。

3、很多机器学习技巧/模型(例如L1,L2正则项)假设:所有的属性都差不多是以0为均值且取值范围相近的。