从NCE loss到InfoNCE loss

原创

水沐银橙 2021-06-29 14:44:57 ©著作权

文章标签 big 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者水沐银橙的原创作品，请联系作者获取转载授权，否则将追究法律责任

关于NCE loss：知乎上的一些介绍的文字 https://zhuanlan.zhihu.com/p/58369131

github上的介绍文字：https://leimao.github.io/article/Noise-Contrastive-Estimation/

NCE bridges the gap between generative models and discriminative models, rather than simply speedup the softmax layer.

知乎上的说法，NCE强大之处真的不只是能够解决巨大词表Softmax的运算量的问题（关于这个，有更多的解决此问题的思路：https://link.zhihu.com/?target=http%3A//ruder.io/word-embeddings-softmax/），而是在于它能够解决归一化项中积分（而非求和）无法计算的问题，毕竟如果能够用采样替代计算整个积分，这玩意就能用来对生成模型进行建模了（例如GAN）

一些说法 “去端到端”化和复杂loss：梯度隔离的分层神经网络模型Greedy InfoMax(GIM)，深入了解自监督学习#2，InfoNCE loss及其对分层脉冲神经网络的启发http://nooverfit.com/wp/%E5%8E%BB%E7%AB%AF%E5%88%B0%E7%AB%AF%E5%8C%96%E5%92%8C%E5%A4%8D%E6%9D%82loss%EF%BC%9A%E6%A2%AF%E5%BA%A6%E9%9A%94%E7%A6%BB%E7%9A%84%E5%88%86%E5%B1%82%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/

理解Contrastive Predictive Coding和NCE Loss https://zhuanlan.zhihu.com/p/129076690

InfoNCE的最近的一些总结 https://paperswithcode.com/method/infonce