https://github.com/yumeng5/Spherical-Text-Embedding https://arxiv.org/abs/1911.01196
无监督文本向量表示技术在NLP任务很重要,然而之前的文本向量表示在笛卡尔空间训练得到,这样的话 在文本相似度、文档聚类任务上,训练阶段 和 预测阶段 是有一定差距的。
为了解决这个问题,我们提出了 一种 无监督 词汇 和 段落向量 联合训练 的 生成式模型,为了在球面空间训练,我们开发了一种有效的 有收敛保证的 基于Riemannian优化的 优化算法,
我们的 文本向量 在多个任务达到业界最高水平,包括 词相似度 和 文档聚类。