今日内容

范数

  • L0范数:||X||0=X i,即向量X中非零的个数
    如:X=(1,2,-1,4,6)^T,则||X||0=4
  • L1范数: ||X||1,即向量x与0的曼哈顿距离,
    X=(1,2,-1,0,4,6)^T ,||X||1=1+2+1+4+6=14
    可以得到稀疏解
  • L2范数:||X||2,X与0之间的欧式范数
    X=(1,2,-1,4,6)T,||**X**||2=(12+22+(-1)2+42+62)^(1/2)
  • LP范数:将L2范数中的2改成P
  • 在计算损失函数中加入范数的作用:
  • 使曲线更加平滑,防止过拟合
  • L2可以使曲线更平滑,L1可以减少一些w值,使得特征更明显。

正则化

  • 控制模型的复杂度,防止过拟合

过滤式选择

  • 先对数据进行特征选择,再训练学习器:
  • 对于一个特征j:对每个样本例xi,找到跟它最近的同类和异类样本,假设距离为nh和nm,
    用nm的平方减去nh的平方,并累加所有的样本i,计算得到的值d越大,则特征j的分类效果越好,于是增大学习器中j的分量。最后对所有属性如此,分量值越大的分类效果越佳。

包裹式选择

  • 为给定学习器选择最有利于其性能、“量身定做”的特征子集。
  • 随即产生一个特征子集A',然后在这个特征子集上考虑数据集D的误差,如果误差比之前的特征子集小,或者误差差不多,但是A'包含的特征数更少,就将A'保留下来,直到到达停止条件了,得到学习器的“量身定做”的特征子集。

字典学习

  • 要将冗余的无关紧要的信息除去,将最重要的、本质的信息得以保留。也正因如此,所以“字典”的衡量标准也就产生了。字典创建的好不好,就要看它这个模型够不够稀疏。
  • 稀不稀疏,就是说提取的特征是不是够关键,是不是够本质。

今日问题

  • 没有太多的新问题,主要还是公式方面的理解不是很充分,已经有记录下来,EM算法,拉格朗日乘子法中对偶函数的使用场景,梯度下降以及牛顿法,这些等到最后将西瓜书简单过过,再深层地去查阅一下。

明日计划

  • 明天白天主要是上课,晚上对这一周的所学做个简要回顾,制作ppt。