今日内容
范数
- L0范数:||X||0=X i,即向量X中非零的个数
如:X=(1,2,-1,4,6)^T,则||X||0=4 - L1范数: ||X||1,即向量x与0的曼哈顿距离,
X=(1,2,-1,0,4,6)^T ,||X||1=1+2+1+4+6=14
可以得到稀疏解 - L2范数:||X||2,X与0之间的欧式范数
X=(1,2,-1,4,6)T,||**X**||2=(12+22+(-1)2+42+62)^(1/2) - LP范数:将L2范数中的2改成P
- 在计算损失函数中加入范数的作用:
- 使曲线更加平滑,防止过拟合
- L2可以使曲线更平滑,L1可以减少一些w值,使得特征更明显。
正则化
- 控制模型的复杂度,防止过拟合
过滤式选择
- 先对数据进行特征选择,再训练学习器:
- 对于一个特征j:对每个样本例xi,找到跟它最近的同类和异类样本,假设距离为nh和nm,
用nm的平方减去nh的平方,并累加所有的样本i,计算得到的值d越大,则特征j的分类效果越好,于是增大学习器中j的分量。最后对所有属性如此,分量值越大的分类效果越佳。
包裹式选择
- 为给定学习器选择最有利于其性能、“量身定做”的特征子集。
- 随即产生一个特征子集A',然后在这个特征子集上考虑数据集D的误差,如果误差比之前的特征子集小,或者误差差不多,但是A'包含的特征数更少,就将A'保留下来,直到到达停止条件了,得到学习器的“量身定做”的特征子集。
字典学习
- 要将冗余的无关紧要的信息除去,将最重要的、本质的信息得以保留。也正因如此,所以“字典”的衡量标准也就产生了。字典创建的好不好,就要看它这个模型够不够稀疏。
- 稀不稀疏,就是说提取的特征是不是够关键,是不是够本质。
今日问题
- 没有太多的新问题,主要还是公式方面的理解不是很充分,已经有记录下来,EM算法,拉格朗日乘子法中对偶函数的使用场景,梯度下降以及牛顿法,这些等到最后将西瓜书简单过过,再深层地去查阅一下。
明日计划
- 明天白天主要是上课,晚上对这一周的所学做个简要回顾,制作ppt。