关于NCE loss:知乎上的一些介绍的文字 https://zhuanlan.zhihu.com/p/58369131

github上的介绍文字:https://leimao.github.io/article/Noise-Contrastive-Estimation/

NCE bridges the gap between generative models and discriminative models, rather than simply speedup the softmax layer.

知乎上的说法,NCE强大之处真的不只是能够解决巨大词表Softmax的运算量的问题(关于这个,有更多的解决此问题的思路:https://link.zhihu.com/?target=http%3A//ruder.io/word-embeddings-softmax/),而是在于它能够解决归一化项中积分(而非求和)无法计算的问题,毕竟如果能够用采样替代计算整个积分,这玩意就能用来对生成模型进行建模了(例如GAN)

 

一些说法 “去端到端”化和复杂loss:梯度隔离的分层神经网络模型Greedy InfoMax(GIM),深入了解自监督学习#2,InfoNCE loss及其对分层脉冲神经网络的启发http://nooverfit.com/wp/%E5%8E%BB%E7%AB%AF%E5%88%B0%E7%AB%AF%E5%8C%96%E5%92%8C%E5%A4%8D%E6%9D%82loss%EF%BC%9A%E6%A2%AF%E5%BA%A6%E9%9A%94%E7%A6%BB%E7%9A%84%E5%88%86%E5%B1%82%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/

理解Contrastive Predictive Coding和NCE Loss https://zhuanlan.zhihu.com/p/129076690

InfoNCE的最近的一些总结  https://paperswithcode.com/method/infonce