对于text dataset, 每篇doc 一般都有对应的metadata(side information), 还有容易得到的一些feature e.g. pos, np chunking, wordnet

1. word 本身

2. metadata

3. feature

都算是我们的observation, 利用的方式有两种,

第一种就是用generative model, 意淫这些observation的生成过程,即model p(word 本身, metadata, feature) 

第二种就是用discriminative model,把某些observation看做condition, 其余的observation看做generative的东西,

例如 p(word 本身, metadata | feature) 就是在feature这个条件下意淫word与metadata的生成过程



ref: jun zhu "conditional topic random fields"

      mimno "topic models conditioned on arbitrary features with dirichlet-multinomial regression"