学习总结

假设:【机器学习中的矩阵求导】(一)求导布局_机器学习表示标量;【机器学习中的矩阵求导】(一)求导布局_矩阵求导_02表示m×n维的矩阵;求导的因变量用【机器学习中的矩阵求导】(一)求导布局_矩阵求导_03表示标量;【机器学习中的矩阵求导】(一)求导布局_机器学习_04表示【机器学习中的矩阵求导】(一)求导布局_矩阵求导_05维矩阵

自变量/因变量

标量【机器学习中的矩阵求导】(一)求导布局_标量_06

列向量【机器学习中的矩阵求导】(一)求导布局_机器学习_07

矩阵【机器学习中的矩阵求导】(一)求导布局_机器学习_08

标量【机器学习中的矩阵求导】(一)求导布局_机器学习_09

/

【机器学习中的矩阵求导】(一)求导布局_机器学习_10

分子布局:m维列向量(默认布局)

分母布局:m维行向量

【机器学习中的矩阵求导】(一)求导布局_标量_11

分子布局:p×q(默认布局)

分母布局:q×p

列向量【机器学习中的矩阵求导】(一)求导布局_标量_12

【机器学习中的矩阵求导】(一)求导布局_矩阵求导_13

分子布局:n维行向量(默认布局)

分母布局:n维列向量

【机器学习中的矩阵求导】(一)求导布局_标量_14

分子布局:m×n雅克比矩阵(默认布局)

分母布局:n×m梯度矩阵

/

矩阵【机器学习中的矩阵求导】(一)求导布局_矩阵求导_15

【机器学习中的矩阵求导】(一)求导布局_标量_16

分子布局:n×m矩阵

分母布局:m×n矩阵(默认布局)

文章目录

一、符号规定

一组标量【机器学习中的矩阵求导】(一)求导布局_标量_17,对一个标量【机器学习中的矩阵求导】(一)求导布局_机器学习求导可以表示为:
【机器学习中的矩阵求导】(一)求导布局_矩阵求导_19然后将每个求导的值排成一个向量表示。类似的结论也存在于标量对向量的求导,向量对向量的求导,向量对矩阵的求导,矩阵对向量的求导,以及矩阵对矩阵的求导等。

  • 【机器学习中的矩阵求导】(一)求导布局_机器学习_20表示标量
  • 【机器学习中的矩阵求导】(一)求导布局_标量_21表示m×n维的矩阵
  • 求导的因变量用【机器学习中的矩阵求导】(一)求导布局_机器学习_22表示标量
  • 【机器学习中的矩阵求导】(一)求导布局_标量_23表示【机器学习中的矩阵求导】(一)求导布局_标量_24维矩阵

【机器学习中的矩阵求导】(一)求导布局_矩阵求导_25
先讨论表格中标量对向量或矩阵求导,向量或矩阵对标量求导,以及向量对向量求导这5种情况。另外三种向量对矩阵的求导,矩阵对向量的求导,以及矩阵对矩阵的求导下篇讲。

二、矩阵向量求导布局

分子布局(numerator layout)和分母布局(denominator layout )。

2.1 分子布局:

求导的结果以分子为主,即求导的结果与分子(即【机器学习中的矩阵求导】(一)求导布局_机器学习_26的分子)的维度相同,如果y是一个m维的列向量,则求导的结果也是一个m维的列向量。

2.2 分母布局:

求导的结果以分母为主,如果y是一个m维的列向量,则求导的结果也是一个m维的行向量。所以分子布局和分母布局的结果是转置关系。

2.3 栗子

标量y对矩阵X求导,那么如果按分母布局,则求导结果的维度和矩阵X的维度m×n是一致的。如果是分子布局,则求导结果的维度为n×m。

对于标量对向量或者矩阵求导,向量或者矩阵对标量求导这4种情况,对应的分子布局和分母布局的排列方式已确定。

2.4 向量对向量的求导

这里讨论列向量对列向量的求导,比如m维列向量y对n维列向量x求导。
对于这2个向量求导,那么一共有mn个标量对标量的求导。求导的结果一般是排列为一个矩阵。如果是分子布局,则矩阵的第一个维度以分子为准,即结果是一个m×n的矩阵:
【机器学习中的矩阵求导】(一)求导布局_矩阵求导_27
按分子布局的向量对向量求导的结果矩阵,一般叫做雅克比 (Jacobian)矩阵。有的资料上会使用【机器学习中的矩阵求导】(一)求导布局_标量_28来定义雅克比矩阵。

如果按照分母布局,求导的结果矩阵第一维度以分母为准,即以n维列向量为准,所以结果矩阵为n×m矩阵:
【机器学习中的矩阵求导】(一)求导布局_标量_29按照分子布局的向量对向量求导的结果矩阵,一般叫做梯度矩阵,有的资料会用【机器学习中的矩阵求导】(一)求导布局_矩阵求导_30来表示梯度矩阵。

对于上面5种求导类型,可以各选择一种布局来求导。但是对于某一种求导类型,不能同时使用分子布局和分母布局求导。

在机器学习算法原理的资料推导里,我们并没有看到说正在使用什么布局,也就是说布局被隐含了,这就需要自己去推演,比较麻烦。但是一般来说我们会使用一种叫混合布局的思路,即如果是向量或者矩阵对标量求导,则使用分子布局为准如果是标量对向量或者矩阵求导,则以分母布局为准。对于向量对对向量求导,有些分歧,后面统一以分子布局的雅克比矩阵为主。

Reference

(1)矩阵求导知识点总结