损失函数及其梯度

转载

mob604756f6b718 2020-12-11 23:02:00

文章标签 git tensorflow 其他 文章分类 代码人生

Typical Loss
MSE
- Derivative
- MSE Gradient
Softmax
- Derivative

Typical Loss

Mean Squared Error
Cross Entropy Loss
- binary
- multi-class
- +softmax

MSE

loss=∑[y−(xw+b)]2loss=∑[y−(xw+b)]2
L2−norm=||y−(xw+b)||2L2−norm=||y−(xw+b)||2
loss=norm(y−(xw+b))2loss=norm(y−(xw+b))2

Derivative

loss=∑[y−fθ(x)]2loss=∑[y−fθ(x)]2
∇loss∇θ=2∑[y−fθ(x)]∗∇fθ(x)∇θ∇loss∇θ=2∑[y−fθ(x)]∗∇fθ(x)∇θ

MSE Gradient

import tensorflow as tf

x = tf.random.normal([2, 4])
w = tf.random.normal([4, 3])
b = tf.zeros([3])
y = tf.constant([2, 0])

with tf.GradientTape() as tape: tape.watch([w, b]) prob = tf.nn.softmax(x @ w + b, axis=1) loss = tf.reduce_mean(tf.losses.MSE(tf.one_hot(y, depth=3), prob))

grads = tape.gradient(loss, [w, b]) grads[0]

<tf.Tensor: id=92, shape=(4, 3), dtype=float32, numpy=
array([[ 0.01156707, -0.00927749, -0.00228957],
       [ 0.03556816, -0.03894382,  0.00337564],
       [-0.02537526,  0.01924876,  0.00612648],
       [-0.0074787 ,  0.00161515,  0.00586352]], dtype=float32)>

grads[1]

<tf.Tensor: id=90, shape=(3,), dtype=float32, numpy=array([-0.01552947,  0.01993286, -0.00440337], dtype=float32)>

Softmax

soft version of max
大的越来越大，小的越来越小、越密集

损失函数及其梯度_git

Derivative

pi=eai∑Nk=1eakpi=eai∑k=1Neak

∂pi∂aj=∂eai∑Nk=1eak∂aj=pi(1−pj)∂pi∂aj=∂eai∑k=1Neak∂aj=pi(1−pj)

i≠ji≠j

∂pi∂aj=∂eai∑Nk=1eak∂aj=−pj∗pi∂pi∂aj=∂eai∑k=1Neak∂aj=−pj∗pi

x = tf.random.normal([2, 4])
w = tf.random.normal([4, 3])
b = tf.zeros([3])
y = tf.constant([2, 0])

with tf.GradientTape() as tape: tape.watch([w, b]) logits =x @ w + b loss = tf.reduce_mean( tf.losses.categorical_crossentropy(tf.one_hot(y, depth=3), logits, from_logits=True))

grads = tape.gradient(loss, [w, b]) grads[0]

<tf.Tensor: id=226, shape=(4, 3), dtype=float32, numpy=
array([[-0.38076094,  0.33844548,  0.04231545],
       [-1.0262716 , -0.6730384 ,  1.69931   ],
       [ 0.20613424, -0.50421923,  0.298085  ],
       [ 0.5800004 , -0.22329211, -0.35670823]], dtype=float32)>

grads[1]

<tf.Tensor: id=224, shape=(3,), dtype=float32, numpy=array([-0.3719653 ,  0.53269935, -0.16073406], dtype=float32)>

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：多输出感知机及其梯度

下一篇：测试（张量）- 实战

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯