吴恩达机器学习手册吴恩达机器学课程讲义

转载

angel 2024-07-30 13:47:29

文章标签 吴恩达机器学习手册机器学习神经网络前向传播多项式 文章分类 机器学习人工智能

1.非线性假设

对于下图中的两类点，如果只考虑两个特性，需要使用非线性的多项式才能很好的建立一个分类模型，如 $吴恩达机器学习手册吴恩达机器学课程讲义_吴恩达机器学习手册$ ：

吴恩达机器学习手册吴恩达机器学课程讲义_机器学习_02

但是假如存在成百上千的相关特征，如果希望使用这些特征来构建一个非线性的多项式模型，特征组合后的数量十分惊人。比如将100个特征进行两两组合为 $吴恩达机器学习手册吴恩达机器学课程讲义_机器学习_03$ ，也存在近5000个组合，更别提为了获取更多的相关性而采取三三组合等等。

多于多特征的数据，增加特征并不是一个好的选择。以汽车分类为例，汽车图片为50*50像素大小，将每个像素视为一个特征，图中模型通过汽车图片的两个像素点构建模型。但是光靠两个像素点(即两个特征)，分类效果肯定很差。如果此时两两特征进行组合构建一个多项式模型，会出现约三百万的特征：

吴恩达机器学习手册吴恩达机器学课程讲义_机器学习_04

2.神经网络

2.1 模型表示1

下图中整个流程被称为前向传播：

$吴恩达机器学习手册吴恩达机器学课程讲义_多项式_05$ 是输入单元(input units)，第一层layer1称为输入层(input layer)
$吴恩达机器学习手册吴恩达机器学课程讲义_吴恩达机器学习手册_06$ 是中间单元，负责将数据处理并传递给下一层，中间层layer2(可以是多层)称为隐藏层(hidden layers)
第三层layer3为输出层(output layer)
输出层经过 $吴恩达机器学习手册吴恩达机器学课程讲义_吴恩达机器学习手册_07$ (之前的逻辑回归中称为逻辑函数，在神经网络中称为激活函数)处理后输出最终结果(其实在每一层间都使用了激活函数)
输入层和隐藏层会增加一个偏差单位(bias unit)，相当于 $吴恩达机器学习手册吴恩达机器学课程讲义_神经网络_08$ 中的 $吴恩达机器学习手册吴恩达机器学课程讲义_神经网络_09$

吴恩达机器学习手册吴恩达机器学课程讲义_机器学习_10

关于图中的标记如下：

$吴恩达机器学习手册吴恩达机器学课程讲义_前向传播_11$ 表示第 $吴恩达机器学习手册吴恩达机器学课程讲义_吴恩达机器学习手册_12$ 层的第i个激活单元
$吴恩达机器学习手册吴恩达机器学课程讲义_吴恩达机器学习手册_13$ 表示第 $吴恩达机器学习手册吴恩达机器学课程讲义_吴恩达机器学习手册_12$ 层映射到第 $吴恩达机器学习手册吴恩达机器学课程讲义_机器学习_15$ 层的权重矩阵(权重即之前模型中系数的概念)，上图中的 $吴恩达机器学习手册吴恩达机器学课程讲义_机器学习_16$ 的大小为3*4，其中3为第2层的激活单元数，4为第1层的激活单元数加上1

吴恩达机器学习手册吴恩达机器学课程讲义_前向传播_17

2.2 模型表示2

将上述公式转换为向量表示会更加简便：

以第一个式子为例，将其转换为 $吴恩达机器学习手册吴恩达机器学课程讲义_机器学习_18$ ，其中 $吴恩达机器学习手册吴恩达机器学课程讲义_前向传播_19$ 的2表示和第二层相关。以此类推，上述隐藏层单元的计算式子变为：
$吴恩达机器学习手册吴恩达机器学课程讲义_机器学习_18$
$吴恩达机器学习手册吴恩达机器学课程讲义_机器学习_21$
$吴恩达机器学习手册吴恩达机器学课程讲义_吴恩达机器学习手册_22$

当 $吴恩达机器学习手册吴恩达机器学课程讲义_吴恩达机器学习手册_23$ 时：

$吴恩达机器学习手册吴恩达机器学课程讲义_前向传播_24$

$吴恩达机器学习手册吴恩达机器学课程讲义_机器学习_25$

将向量展开后如下：

吴恩达机器学习手册吴恩达机器学课程讲义_前向传播_26

隐藏层到输出层的向量表示和前面类似，其中 $吴恩达机器学习手册吴恩达机器学课程讲义_多项式_27$ ：
$吴恩达机器学习手册吴恩达机器学课程讲义_神经网络_28$
$吴恩达机器学习手册吴恩达机器学课程讲义_前向传播_29$

吴恩达机器学习手册吴恩达机器学课程讲义_机器学习_30

以上过程全部针对的是训练集中的一个样例，如果需要将整个训练集进行前向传播，则需要将向量 $吴恩达机器学习手册吴恩达机器学课程讲义_机器学习_31$ 替换为矩阵 $吴恩达机器学习手册吴恩达机器学课程讲义_多项式_32$

2.3 神经网络和逻辑回归的区别

神经网络和逻辑回归有着许多相似的地方，以隐藏层到输出层为例：在逻辑回归中的 $吴恩达机器学习手册吴恩达机器学课程讲义_机器学习_33$ 变为神经网络中的 $吴恩达机器学习手册吴恩达机器学课程讲义_吴恩达机器学习手册_34$ 。由于 $吴恩达机器学习手册吴恩达机器学课程讲义_多项式_35$ 中的每个值都是经过第一层计算后的值，可以视为更加高级的特征值(相较于 $吴恩达机器学习手册吴恩达机器学课程讲义_机器学习_33$ )，而不同的 $吴恩达机器学习手册吴恩达机器学课程讲义_神经网络_37$ 可以学习到不同的高级特征