定义

在信息论中,交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,在相同的一组事件中,其中,用非真实分布q来表示某个事件发生所需要的平均比特数。

举例

假设现在有一个样本集中两个概率分布p,q,其中p为真实分布,q为非真实分布。假如,按照真实分布p来衡量识别一个样本所需要的编码长度的期望为:







但是,如果采用错误的分布q来表示来自真实分布p的平均编码长度,则应该是:




此时就将H(p,q)称之为交叉熵。交叉熵的计算方式如下:



以上内容来自交叉熵-百度百科

到这里自己有两个地方不明白:

  • 什么事真事分布与非真实分布?
  • 什么编码长度?
    要搞懂这些,还需要看一些信息论中的知识,于是乎找到这篇文章:
    信息论中的一些基本的知识 静下心看吧:看完之后自己浮躁的心平静下来了